WikiDer > Количество информации

Quantities of information

Вводящий в заблуждение^[1] информационная диаграмма показывая аддитивные и вычитающие отношения между Шенноносновной количество информации для коррелированных переменных

{displaystyle X}

и

{displaystyle Y}

. Область, содержащаяся в обоих кругах, является совместная энтропия

{displaystyle mathrm {H} (X, Y)}

. Круг слева (красный и фиолетовый) - это индивидуальная энтропия

{displaystyle mathrm {H} (X)}

, красный - это условная энтропия

{displaystyle mathrm {H} (X | Y)}

. Круг справа (синий и фиолетовый) - это

{displaystyle mathrm {H} (Y)}

, с синим существом

{displaystyle mathrm {H} (Y | X)}

. Фиолетовый - это взаимная информация

{displaystyle operatorname {I} (X; Y)}

.

В математическая теория информации основан на теория вероятности и статистика, и измеряет информацию с помощью нескольких количество информации. Выбор логарифмического основания в следующих формулах определяет единица измерения из информационная энтропия что используется. Наиболее распространенной единицей информации является кусочек, на основе двоичный логарифм. Другие единицы включают нац, на основе натуральный логарифм, а Хартли, основанный на базе 10 или десятичный логарифм.

Далее выражение вида ${displaystyle plog p,}$ считается по соглашению равным нулю всякий раз, когда ${displaystyle p}$ равно нулю. Это оправдано, потому что ${displaystyle lim _ {pightarrow 0+} plog p = 0}$ для любого логарифмического основания.

Самоинформация

Шеннон вывел показатель информационного содержания, названный самоинформация или же "сюрприз" сообщения ${displaystyle m}$ :

{displaystyle operatorname {I} (m) = log left ({frac {1} {p (m)}} ight) = - log (p (m)),}

куда ${displaystyle p (m) = mathrm {Pr} (M = m)}$ вероятность того, что сообщение ${displaystyle m}$ выбирается из всех возможных вариантов в пространстве сообщений ${displaystyle M}$ . Основание логарифма влияет только на коэффициент масштабирования и, следовательно, на единицы измерения измеренного информационного содержания. Если логарифм равен 2, величина информации выражается в единицах биты.

Информация передается от источника к получателю только в том случае, если получатель информации еще не имел информации для начала. Сообщения, которые содержат информацию, которая наверняка произойдет и уже известна получателю, не содержат реальной информации. Редко появляющиеся сообщения содержат больше информации, чем более часто встречающиеся сообщения. Этот факт отражен в приведенном выше уравнении - некое сообщение, то есть с вероятностью 1, имеет нулевую информационную меру. Кроме того, составное сообщение из двух (или более) несвязанных (или взаимно независимых) сообщений будет иметь количество информации, которое является суммой показателей информации каждого сообщения в отдельности. Этот факт также отражен в приведенном выше уравнении, что подтверждает обоснованность его вывода.

Пример. Передача прогноза погоды: «Сегодняшний прогноз: темнота. Продолжительная темнота до широко рассеянного света утром». Это сообщение почти не содержит информации. Однако прогноз метели обязательно будет содержать информацию, так как такое бывает не каждый вечер. В точном прогнозе снега для теплого места, например, Майами. Количество информации в прогнозе снега для места, где никогда не будет снега (невозможное событие), является самым большим (бесконечность).

Энтропия

В энтропия дискретного пространства сообщений ${displaystyle M}$ является мерой количества неуверенность один имеет о том, какое сообщение будет выбрано. Он определяется как средний самоинформация сообщения ${displaystyle m}$ из этого пространства сообщений:

{displaystyle mathrm {H} (M) = mathbb {E} left [operatorname {I} (M) ight] = sum _ {min M} p (m) operatorname {I} (m) = - sum _ {min M } p (m) log p (m).}

куда

{displaystyle mathbb {E} [-]}

обозначает ожидаемое значение операция.

Важным свойством энтропии является то, что она максимизируется, когда все сообщения в пространстве сообщений равновероятны (например, ${displaystyle p (m) = 1 / | M |}$ ). В этом случае ${displaystyle mathrm {H} (M) = log | M |}$ .

Иногда функция ${displaystyle mathrm {H}}$ выражается через вероятности распределения:

{displaystyle mathrm {H} (p_ {1}, p_ {2}, ldots, p_ {k}) = - sum _ {i = 1} ^ {k} p_ {i} log p_ {i},}

где каждый

{displaystyle p_ {i} geq 0}

и

{displaystyle sum _ {i = 1} ^ {k} p_ {i} = 1.}

Важным частным случаем этого является бинарная функция энтропии:

{displaystyle mathrm {H} _ {mbox {b}} (p) = mathrm {H} (p, 1-p) = - plog p- (1-p) log (1-p).,}

Совместная энтропия

В совместная энтропия двух дискретных случайных величин ${displaystyle X}$ и ${displaystyle Y}$ определяется как энтропия совместное распределение из ${displaystyle X}$ и ${displaystyle Y}$ :

{displaystyle mathrm {H} (X, Y) = mathbb {E} _ {X, Y} left [-log p (x, y) ight] = - sum _ {x, y} p (x, y) log p (x, y),}

Если ${displaystyle X}$ и ${displaystyle Y}$ находятся независимый, то совместная энтропия - это просто сумма их индивидуальных энтропий.

(Примечание: совместную энтропию не следует путать с перекрестная энтропия, несмотря на похожие обозначения.)

Условная энтропия (двусмысленность)

Учитывая конкретное значение случайной величины ${displaystyle Y}$ , условная энтропия ${displaystyle X}$ данный ${displaystyle Y = y}$ определяется как:

{displaystyle mathrm {H} (X | y) = mathbb {E} _ {left [X | Yight]} [- log p (x | y)] = - sum _ {xin X} p (x | y) log p (x | y)}

куда ${displaystyle p (x | y) = {гидроразрыв {p (x, y)} {p (y)}}}$ это условная возможность из ${displaystyle x}$ данный ${displaystyle y}$ .

В условная энтропия из ${displaystyle X}$ данный ${displaystyle Y}$ , также называемый двусмысленность из ${displaystyle X}$ о ${displaystyle Y}$ тогда дается:

{displaystyle mathrm {H} (X | Y) = mathbb {E} _ {Y} left [mathrm {H} left (X | yight) ight] = - sum _ {yin Y} p (y) sum _ {xin X} p (x | y) log p (x | y) = sum _ {x, y} p (x, y) log {frac {p (y)} {p (x, y)}}.}.}

Это использует условное ожидание из теории вероятностей.

Основное свойство условной энтропии:

{displaystyle mathrm {H} (X | Y) = mathrm {H} (X, Y) -mathrm {H} (Y).,}

Дивергенция Кульбака – Лейблера (сбор информации)

В Дивергенция Кульбака – Лейблера (или же расхождение информации, получение информации, или же относительная энтропия) - это способ сравнения двух распределений, "истинное" распределение вероятностей ${displaystyle p}$ , и произвольное распределение вероятностей ${displaystyle q}$ . Если мы сжимаем данные таким образом, чтобы ${displaystyle q}$ является распределением, лежащим в основе некоторых данных, когда на самом деле ${displaystyle p}$ - правильное распределение, расхождение Кульбака – Лейблера - это количество средних дополнительных битов на элемент данных, необходимых для сжатия, или, математически,

{displaystyle D_ {mathrm {KL}} {igl (} p (X) | q (X) {igr)} = сумма _ {xin X} p (x) log {frac {p (x)} {q (x )}}.}

Это в некотором смысле «расстояние» от ${displaystyle q}$ к ${displaystyle p}$ , хотя это неправда метрика из-за несимметричности.

Взаимная информация (трансинформация)

Оказывается, одним из самых полезных и важных показателей информации является взаимная информация, или же трансинформация. Это мера того, сколько информации можно получить об одной случайной величине, наблюдая за другой. Взаимная информация ${displaystyle X}$ относительно ${displaystyle Y}$ (который концептуально представляет средний объем информации о ${displaystyle X}$ что можно получить, наблюдая ${displaystyle Y}$ ) дан кем-то:

{displaystyle operatorname {I} (X; Y) = sum _ {yin Y} p (y) sum _ {xin X} {p (x | y) log {frac {p (x | y)} {p (x )}}} = сумма _ {x, y} p (x, y) log {frac {p (x, y)} {p (x), p (y)}}.}

Основным свойством взаимной информации является то, что:

{displaystyle operatorname {I} (X; Y) = mathrm {H} (X) -mathrm {H} (X | Y).,}

То есть зная ${displaystyle Y}$ , мы можем сэкономить в среднем ${displaystyle operatorname {I} (X; Y)}$ биты в кодировке ${displaystyle X}$ по сравнению с незнанием ${displaystyle Y}$ . Взаимная информация симметричный:

{displaystyle operatorname {I} (X; Y) = operatorname {I} (Y; X) = mathrm {H} (X) + mathrm {H} (Y) -mathrm {H} (X, Y).,}

Взаимная информация может быть выражена как среднее Дивергенция Кульбака – Лейблера (получение информации) апостериорное распределение вероятностей из ${displaystyle X}$ учитывая ценность ${displaystyle Y}$ к предварительное распространение на ${displaystyle X}$ :

{displaystyle operatorname {I} (X; Y) = mathbb {E} _ {p (y)} left [D_ {mathrm {KL}} {igl (} p (X | Y = y) | p (X) { igr)} ight].}

Другими словами, это мера того, насколько в среднем распределение вероятностей ${displaystyle X}$ изменится, если нам дадут значение ${displaystyle Y}$ . Это часто пересчитывается как отклонение от произведения предельных распределений к фактическому совместному распределению:

{displaystyle operatorname {I} (X; Y) = D_ {mathrm {KL}} {igl (} p (X, Y) | p (X) p (Y) {igr)}.}

Взаимная информация тесно связана с тест отношения правдоподобия в контексте таблиц непредвиденных обстоятельств и полиномиальное распределение и чтобы Χ Пирсона² тест: взаимная информация может рассматриваться как статистика для оценки независимости между парой переменных и имеет четко определенное асимптотическое распределение.

Дифференциальная энтропия

Базовые меры дискретной энтропии были расширены по аналогии с непрерывный пространств заменой сумм на интегралы и вероятностные массовые функции с функции плотности вероятности. Хотя в обоих случаях взаимная информация выражает количество битов информации, общих для двух рассматриваемых источников, аналогия действительно нет подразумевают идентичные свойства; например, дифференциальная энтропия может быть отрицательной.

Дифференциальные аналогии энтропии, совместной энтропии, условной энтропии и взаимной информации определяются следующим образом:

{displaystyle h (X) = - int _ {X} f (x) log f (x), dx}

{displaystyle h (X, Y) = - int _ {Y} int _ {X} f (x, y) log f (x, y), dx, dy}

{displaystyle h (X | y) = - int _ {X} f (x | y) log f (x | y), dx}

{displaystyle h (X | Y) = int _ {Y} int _ {X} f (x, y) log {frac {f (y)} {f (x, y)}}, dx, dy}

{displaystyle operatorname {I} (X; Y) = int _ {Y} int _ {X} f (x, y) log {frac {f (x, y)} {f (x) f (y)}} , dx, dy}

куда ${displaystyle f (x, y)}$ - совместная функция плотности, ${displaystyle f (x)}$ и ${displaystyle f (y)}$ предельные распределения, и ${displaystyle f (x | y)}$ - условное распределение.