В теория информации, то кросс-энтропия между двумя распределения вероятностей и по одному и тому же базовому набору событий измеряет среднее количество биты необходимо для идентификации события, взятого из набора, если схема кодирования, используемая для набора, оптимизирована для оцененного распределения вероятностей , а не истинное распределение .
Определение
Кросс-энтропия распределения относительно распределения над заданным набором определяется следующим образом:
- ,
куда - оператор математического ожидания относительно распределения . Определение может быть сформулировано с использованием Дивергенция Кульбака – Лейблера из из (также известный как относительная энтропия из относительно ).
- ,
куда это энтропия из .
За дискретный распределения вероятностей и с тем же поддерживать это означает
| | (Уравнение 1) |
Ситуация для непрерывный распределение аналогично. Мы должны предположить, что и находятся абсолютно непрерывный относительно некоторой ссылки мера (обычно это Мера Лебега на Борель σ-алгебра). Позволять и - функции плотности вероятности и относительно . потом
и поэтому
| | (Уравнение 2) |
NB: Обозначения также используется для другой концепции, совместная энтропия из и .
Мотивация
В теория информации, то Теорема Крафт – Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования для кодирования сообщения для идентификации одного значения из множества возможностей можно рассматривать как представление неявного распределения вероятностей над , куда длина кода для в битах. Следовательно, кросс-энтропия может быть интерпретирована как ожидаемая длина сообщения для данных при неправильном распределении предполагается, в то время как данные фактически соответствуют распределению . Вот почему математическое ожидание берется из истинного распределения вероятностей. и нет . Действительно, ожидаемая длина сообщения при истинном распределении является,
Оценка
Есть много ситуаций, когда необходимо измерить кросс-энтропию, но распределение неизвестно. Примером является языковое моделирование, где модель создается на основе обучающей выборки , а затем его перекрестная энтропия измеряется на тестовом наборе, чтобы оценить, насколько точна модель в прогнозировании тестовых данных. В этом примере истинное распределение слов в любом корпусе, и - это распределение слов, предсказанное моделью. Поскольку истинное распределение неизвестно, кросс-энтропию нельзя вычислить напрямую. В этих случаях оценка кросс-энтропии рассчитывается по следующей формуле:
куда - размер тестового набора, а вероятность события оценивается из обучающей выборки. Сумма рассчитывается по . Это Оценка Монте-Карло истинной кросс-энтропии, где набор тестов рассматривается как образцы из [нужна цитата].
Отношение к логарифмической вероятности
В задачах классификации мы хотим оценить вероятность различных исходов. Если предполагаемая вероятность исхода является , а частота (эмпирическая вероятность) исхода в обучающем наборе есть , а есть N условно независимый образцов в обучающем наборе, то вероятность обучающего набора равна
поэтому логарифмическая вероятность, деленная на является
так что максимизация вероятности - это то же самое, что минимизация перекрестной энтропии.
Минимизация кросс-энтропии
Минимизация кросс-энтропии часто используется при оптимизации и оценке вероятности редких событий. При сравнении раздачи против фиксированного распределения ссылок , кросс-энтропия и KL дивергенция идентичны с точностью до аддитивной константы (поскольку фиксировано): оба принимают свои минимальные значения, когда , который для расхождения KL, и для кросс-энтропии.[1] В инженерной литературе принцип минимизации расхождения KL (Кульбака ")Принцип минимальной дискриминации в отношении информации") часто называют Принцип минимальной кросс-энтропии (MCE) или Minxent.
Однако, как уже говорилось в статье Дивергенция Кульбака – Лейблера, иногда раздача - фиксированное априорное эталонное распределение, а распределение оптимизирован, чтобы быть как можно ближе к по возможности, с некоторыми ограничениями. В этом случае две минимизации нет эквивалент. Это привело к некоторой двусмысленности в литературе, и некоторые авторы пытались разрешить несогласованность, переопределив кросс-энтропию как , скорее, чем .
Функция кроссэнтропийных потерь и логистическая регрессия
Кросс-энтропия может использоваться для определения функции потерь в машинное обучение и оптимизация. Истинная вероятность истинная метка, и данное распределение - прогнозируемое значение текущей модели.
В частности, рассмотрим логистическая регрессия, который (среди прочего) может использоваться для классификации наблюдений на два возможных класса (часто просто помечаются и ). Выход модели для данного наблюдения с учетом вектора входных характеристик , можно интерпретировать как вероятность, которая служит основанием для классификации наблюдения. Вероятность моделируется с помощью логистическая функция куда некоторая функция входного вектора , обычно просто линейная функция. Вероятность выхода дан кем-то
где вектор весов оптимизируется с помощью некоторого подходящего алгоритма, такого как градиентный спуск. Точно так же дополнительная вероятность нахождения выхода просто дается
Установив наши обозначения, и , мы можем использовать кросс-энтропию, чтобы измерить различие между и :
Логистическая регрессия обычно оптимизирует потери журнала для всех наблюдений, на которых она обучается, что аналогично оптимизации средней перекрестной энтропии в выборке. Например, предположим, что у нас есть образцы, каждый из которых проиндексирован . В средний функции потерь тогда определяется как:
куда , с логистическая функция по-прежнему.
Логистические потери иногда называют кросс-энтропийными потерями. Это также известно как потеря журнала (в этом случае двоичная метка часто обозначается {-1, + 1}).[2]
Замечание: Градиент потери кросс-энтропии для логистической регрессии такой же, как градиент квадрата потери ошибки для Линейная регрессия. То есть определить
Тогда у нас есть результат
Доказательство таково. Для любого , у нас есть
Подобным образом в итоге получаем желаемый результат.
Смотрите также
Рекомендации
- ^ Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвиль (2016). Глубокое обучение. MIT Press. В сети
- ^ Мерфи, Кевин (2012). Машинное обучение: вероятностная перспектива. Массачусетский технологический институт. ISBN 978-0262018029.
внешняя ссылка