WikiDer > Перекрестная энтропия

Cross entropy

В теория информации, то кросс-энтропия между двумя распределения вероятностей и по одному и тому же базовому набору событий измеряет среднее количество биты необходимо для идентификации события, взятого из набора, если схема кодирования, используемая для набора, оптимизирована для оцененного распределения вероятностей , а не истинное распределение .

Определение

Кросс-энтропия распределения относительно распределения над заданным набором определяется следующим образом:

,

куда - оператор математического ожидания относительно распределения . Определение может быть сформулировано с использованием Дивергенция Кульбака – Лейблера из из (также известный как относительная энтропия из относительно ).

,

куда это энтропия из .

За дискретный распределения вероятностей и с тем же поддерживать это означает

 

 

 

 

(Уравнение 1)

Ситуация для непрерывный распределение аналогично. Мы должны предположить, что и находятся абсолютно непрерывный относительно некоторой ссылки мера (обычно это Мера Лебега на Борель σ-алгебра). Позволять и - функции плотности вероятности и относительно . потом

и поэтому

 

 

 

 

(Уравнение 2)

NB: Обозначения также используется для другой концепции, совместная энтропия из и .

Мотивация

В теория информации, то Теорема Крафт – Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения из множества возможностей можно рассматривать как представление неявного распределения вероятностей над , куда длина кода для в битах. Следовательно, кросс-энтропия может быть интерпретирована как ожидаемая длина сообщения для данных при неправильном распределении предполагается, в то время как данные фактически соответствуют распределению . Вот почему математическое ожидание берется из истинного распределения вероятностей. и нет . Действительно, ожидаемая длина сообщения при истинном распределении является,

Оценка

Есть много ситуаций, когда необходимо измерить кросс-энтропию, но распределение неизвестно. Примером является языковое моделирование, где модель создается на основе обучающей выборки , а затем его перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере истинное распределение слов в любом корпусе, и - это распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии рассчитывается по следующей формуле:

куда - размер тестового набора, а вероятность события оценивается из обучающей выборки. Сумма рассчитывается по . Это Оценка Монте-Карло истинной кросс-энтропии, где набор тестов рассматривается как образцы из [нужна цитата].

Отношение к логарифмической вероятности

В задачах классификации мы хотим оценить вероятность различных исходов. Если предполагаемая вероятность исхода является , а частота (эмпирическая вероятность) исхода в обучающем наборе есть , а есть N условно независимый образцов в обучающем наборе, то вероятность обучающего набора равна

поэтому логарифмическая вероятность, деленная на является

так что максимизация вероятности - это то же самое, что минимизация перекрестной энтропии.

Минимизация кросс-энтропии

Минимизация кросс-энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении раздачи против фиксированного распределения ссылок , кросс-энтропия и KL дивергенция идентичны с точностью до аддитивной константы (поскольку фиксировано): оба принимают свои минимальные значения, когда , который для расхождения KL, и для кросс-энтропии.[1] В инженерной литературе принцип минимизации расхождения KL (Кульбака ")Принцип минимальной дискриминации в отношении информации") часто называют Принцип минимальной кросс-энтропии (MCE) или Minxent.

Однако, как уже говорилось в статье Дивергенция Кульбака – Лейблера, иногда раздача - фиксированное априорное эталонное распределение, а распределение оптимизирован, чтобы быть как можно ближе к по возможности, с некоторыми ограничениями. В этом случае две минимизации нет эквивалент. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как , скорее, чем .

Функция кроссэнтропийных потерь и логистическая регрессия

Кросс-энтропия может использоваться для определения функции потерь в машинное обучение и оптимизация. Истинная вероятность истинная метка, и данное распределение - прогнозируемое значение текущей модели.

В частности, рассмотрим логистическая регрессия, который (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помечаются и ). Выход модели для данного наблюдения с учетом вектора входных характеристик , можно интерпретировать как вероятность, которая служит основанием для классификации наблюдения. Вероятность моделируется с помощью логистическая функция куда некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода дан кем-то

где вектор весов оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск. Точно так же дополнительная вероятность нахождения выхода просто дается

Установив наши обозначения, и , мы можем использовать кросс-энтропию, чтобы измерить различие между и :

Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть образцы, каждый из которых проиндексирован . В средний функции потерь тогда определяется как:

куда , с логистическая функция по-прежнему.

Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}).[2]

Замечание: Градиент потери кросс-энтропии для логистической регрессии такой же, как градиент квадрата потери ошибки для Линейная регрессия. То есть определить

Тогда у нас есть результат

Доказательство таково. Для любого , у нас есть

Подобным образом в итоге получаем желаемый результат.

Смотрите также

Рекомендации

  1. ^ Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвиль (2016). Глубокое обучение. MIT Press. В сети
  2. ^ Мерфи, Кевин (2012). Машинное обучение: вероятностная перспектива. Массачусетский технологический институт. ISBN 978-0262018029.

внешняя ссылка