WikiDer > Инфо-метрики

Info-metrics

Инфо-метрики это междисциплинарный подход к научное моделирование, вывод и эффективный обработка информации. Это наука моделирования, рассуждений и выводов в условиях зашумленной и ограниченной информации. С точки зрения науки, эти рамки находятся на пересечении теория информации, Статистические методы вывода, Прикладная математика, Информатика, эконометрика, теория сложности, анализ решений, моделирование и философия науки.

Info-metrics обеспечивает ограниченная оптимизация рамки для решения недостаточно определенных или некорректно поставленных проблем - проблем, для которых недостаточно информации для поиска уникального решения. Такие проблемы очень распространены во всех науках: доступная информация неполный, ограничено, шумный и неуверенный. Инфо-метрики полезны для моделирование, обработка информации, теория здание, и вывод проблемы по всему научному спектру. Инфо-метрика также может использоваться для проверки гипотез о конкурирующих теориях или причинные механизмы.

История

Инфометрики произошли от классических максимальная энтропия формализм, в основе которого Шеннон. Ранние вклады были в основном в естественных и математических / статистических науках. С середины 1980-х и особенно в середине 1990-х подход максимальной энтропии был обобщен и расширен для решения более широкого класса проблем в социальных и поведенческих науках, особенно для сложных проблем и данных. Слово «инфо-метрики» было придумано в 2009 году Амосом Голаном, прямо перед открытием междисциплинарного института инфо-метрики.

Предварительные определения

Рассмотрим случайная переменная ${ textstyle X}$ что может привести к одному из K отличные результаты. В вероятность ${ textstyle p_ {k}}$ каждого результата ${ textstyle x_ {k}}$ является ${ textstyle p_ {k} = p (x_ {k})}$ за ${ textstyle к = 1,2, ldots, K}$ . Таким образом, ${ textstyle P}$ это K-мерное распределение вероятностей, определенное для ${ textstyle X}$ такой, что ${ displaystyle p_ {k} geq 0}$ и ${ textstyle sum _ {k} p_ {k} = 1}$ . Определите информационное содержание одного результата ${ textstyle x_ {k}}$ быть ${ textstyle h (x_ {k}) = h (p_ {k}) = log _ {2} (1 / p_ {k})}$ (например, Шеннон). Наблюдение за исходом в хвостах распределения (редкое событие) дает гораздо больше информации, чем наблюдение за другим, более вероятным исходом. Энтропия^[1] ожидаемое информационное содержание результата случайной величины Икс распределение вероятностей которого п:

{ displaystyle H (P) = sum _ {k = 1} ^ {K} p_ {k} log _ {2} left ({ frac {1} {p_ {k}}} right) = - sum _ {k = 1} ^ {K} p_ {k} log _ {2} (p_ {k}) = operatorname {E} left [ log _ {2} left ({ frac {1} {P (X)}} right) right]}

Здесь ${ Displaystyle р_ {к} журнал _ {2} (р_ {к}) эквив 0}$ если ${ displaystyle p_ {k} = 0}$ , и ${ displaystyle operatorname {E}}$ это ожидание оператор.

Основная проблема инфо-метрики

Рассмотрим проблему моделирования и вывода ненаблюдаемого распределения вероятностей некоторых K-мерная дискретная случайная величина, заданная только средним (ожидаемым значением) этой переменной. Мы также знаем, что вероятности неотрицательны и нормированы (т.е. суммируются с точностью до 1). Для всех K > 2 проблема недоопределена. В рамках инфо-метрик решение состоит в том, чтобы максимизировать энтропию случайной величины с учетом двух ограничений: среднего и нормализации. Это дает обычное решение с максимальной энтропией. Решения этой проблемы можно расширить и обобщить несколькими способами. Во-первых, можно использовать другую энтропию вместо энтропии Шеннона. Во-вторых, тот же подход можно использовать для непрерывных случайных величин, для всех типов условных моделей (например, регрессии, неравенства и нелинейных моделей) и для многих ограничений. В-третьих, в эту структуру можно включить априори. В-четвертых, та же структура может быть расширена для учета большей неопределенности: неопределенности в отношении наблюдаемых значений и / или неопределенности в отношении самой модели. Наконец, ту же базовую структуру можно использовать для разработки новых моделей / теорий, проверки этих моделей с использованием всей доступной информации и проверки статистических гипотез о модели.

Примеры

Шестигранные кости

Вывод, основанный на информации, полученной в результате повторных независимых экспериментов.

Следующий пример относится к Больцман и был популяризирован Джейнс. Рассмотрим шестигранный умереть, где бросить умереть - это событие, а отдельные исходы - это числа от 1 до 6 на верхней стороне умереть. Эксперимент - это независимые повторения подбрасывания одного и того же умереть.Предположим, вы наблюдаете только эмпирическое среднее значение y N бросков шестигранного умереть. Учитывая эту информацию, вы хотите сделать вывод о вероятности того, что определенное значение лица появится в следующем броске. умереть. Вы также знаете, что сумма вероятностей должна быть 1. Максимизация энтропии (и использование логарифмической базы 2) с учетом этих двух ограничений (среднего и нормализации) дает наиболее неинформированное решение.

{ Displaystyle { begin {align} & { underset { {P }} { text {maximize}}} && H ( mathbf {p}) = - sum _ {k = 1} ^ {6} p_ {k} log _ {2} (p_ {k}) & { text {при условии}} && sum _ {k} p_ {k} x_ {k} = y { text {и} } sum _ {k} p_ {k} = 1 end {align}}}

за ${ textstyle x_ {k} = k}$ и ${ textstyle к = 1,2, ldots, 6}$ . Решение

{ displaystyle { widehat {p}} _ {k} = { frac {2 ^ {- { widehat { lambda}} x_ {k}}} { sum _ {k = 1} ^ {6} 2 ^ {- { widehat { lambda}} x_ {k}}}} Equiv { frac {2 ^ {- lambda x_ {k}}} { Omega}}}

куда ${ textstyle { widehat {p}} _ {k}}$ это предполагаемая вероятность события ${ textstyle k}$ , ${ textstyle { widehat { lambda}}}$ - выведенные множители Лагранжа, связанные со средним ограничением, и ${ textstyle Omega}$ это раздел (нормализация) функция. Если это честно умереть со средним значением 3,5 можно ожидать, что все лица равновероятны и вероятности равны. Это то, что дает решение с максимальной энтропией. Если умереть несправедливо (или загружено) со средним значением 4, результирующее решение максимальной энтропии будет ${ textstyle p_ {k} = (0.103,0.123,0.146,0.174,0.207,0.247)}$ . Для сравнения, минимизируя критерий наименьших квадратов ${ textstyle left ( sum _ {k = 1} ^ {6} p_ {k} ^ {2} right)}$ вместо максимизации энтропии дает ${ textstyle p_ {k} (LS) = (0,095,0,124,0,152,0,181,0,210,0,238)}$ .

Некоторые междисциплинарные примеры

Прогноз осадков: Используя ожидаемое дневное количество осадков (среднее арифметическое), можно использовать максимальную энтропию для вывода и прогноза ежедневного распределения осадков.^[2]

Управление портфелем: Предположим, есть управляющий портфелем, которому нужно распределить некоторые активы или присвоить веса портфеля различным активам, принимая во внимание ограничения и предпочтения инвестора. Используя эти предпочтения и ограничения, а также наблюдаемую информацию, такую как среднерыночная доходность и ковариации каждого актива за некоторый период времени, можно использовать структуру максимизации энтропии для поиска оптимальных весов портфеля. В этом случае энтропия портфеля представляет его разнообразие. Эта модель может быть изменена, чтобы включить другие ограничения, такие как минимальная дисперсия, максимальное разнообразие и т. Д. Эта модель включает неравенство и может быть дополнительно обобщена, чтобы включить короткие продажи. Больше таких примеров и связанный код можно найти на ^[3]^[4]

Обширный список работ, связанных с инфометриками, можно найти здесь: http://info-metrics.org/bibliography.html

Смотрите также

Примечания

дальнейшее чтение

Классика

Рудольф Клаузиус. «Си. О природе движения, которое мы называем теплом». Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал, 14 (91):108–127, 1857.
Людвиг Больцманн. «Дальнейшие исследования теплового равновесия молекул газа (weitere studien über das wärmegleichgewicht unter gasmolekülen)». Sitzungsberichte der Akademie der Wissenschaften, Mathematische-Naturwissenschaftliche Klasse, страницы 275–370, 1872.
Дж. У. Гиббс. Элементарные принципы статистической механики. (Нью-Хейвен, Коннектикут: издательство Йельского университета), 1902 г.
К. Э. Шеннон. «Математическая теория коммуникации». Технический журнал Bell System, 27:379–423, 1948.
Й. Альхассид и Р. Д. Левин. «Экспериментальные и неотъемлемые неопределенности в теоретико-информационном подходе». Письма по химической физике, 73 (1):16–20, 1980.
Р. Б. Эш. Теория информации. Интерсайенс, Нью-Йорк, 1965.
Катича. Относительная энтропия и индуктивный вывод. 2004.
Катича. «Лекции по вероятности, энтропии и статистической физике». MaxEnt, Сан-Паулу, Бразилия, 2008.
Ян М. Ван Кампенхаут Кавер и Томас М. "Максимальная энтропия и условная вероятность". IEEE Transactions по теории информации, ИТ-27, №4, 1981.
И. Цисар. «Почему наименьшие квадраты и максимальная энтропия? Аксимоматический подход к выводу для линейной обратной задачи». Анналы статистики, 19:2032–2066, 1991.
Дэвид Донохо, Хоссейн Какаванд и Джеймс Маммен. «Простейшее решение недоопределенной системы линейных уравнений». В Теория информации, Международный симпозиум IEEE 2006 г., страницы 1924–1928. IEEE, 2007.

Основные книги и научные монографии

Голан, Амос. Основы инфометрики: моделирование, вывод и несовершенная информация. Издательство Оксфордского университета, 2018.
Голаны. «Информационная и энтропийная эконометрика - обзор и синтез». Основы и тенденции в эконометрике, 2(1-2):1–145, 2008.
Р. Д. Левин и М. Трибус. Формализм максимальной энтропии. MIT Press, Кембридж, Массачусетс, 1979.
J. N. Kapur. Модели максимальной энтропии в науке и технике. Wiley, 1993.
J. Harte. Максимальная энтропия и экология: теория изобилия, распределения и энергетики. Oxford U Press, 2011.
А. Голан, Дж. Джадж и Д. Миллер. Эконометрика максимальной энтропии: надежная оценка с ограниченными данными. Джон Вили и сыновья, 1996.
Э. Т. Джейнс. Теория вероятностей: логика науки. Издательство Кембриджского университета, 2003.

Другие типичные приложения

Дж. Р. Банавар, А. Маритан, И. Волков. «Приложения принципа максимальной энтропии: от физики к экологии». Журнал физики конденсированных сред, 22(6), 2010.
Анил К. Бера и Сунг Ю. Пак. «Оптимальная диверсификация портфеля с использованием принципа максимальной энтропии». Эконометрические обзоры, 27(4-6):484–512, 2008.
Бхати, Б. Буюксахин и А. Голан. «Реконструкция изображения: теоретико-информационный подход». Труды Американской статистической ассоциации, 2005.
Питер Бухен и Майкл Келли. «Максимальное распределение энтропии актива, выведенное из цен опционов». Журнал финансового и количественного анализа, 31(01):143–159, 1996.
Рэндалл С. Кэмпбелл и Р. Картер Хилл. «Предсказание полиномиального выбора с использованием максимальной энтропии». Письма по экономике, 64(3):263–269, 1999.
Ариэль Катича и Амос Голан. «Энтропийная структура для моделирования экономик». Physica A: Статистическая механика и ее приложения, 408:149–163, 2014.
Марша Куршан, Амос Голан и Дэвид Никерсон. «Оценка и оценка кредитной дискриминации: информационный подход». Журнал жилищных исследований, 11(1):67–90, 2000.
Цукаса Фудзивара и Ёсио Мияхара. «Минимальные энтропийные мартингальные меры для геометрических процессов Леви». Финансы и стохастика, 7(4):509–531, 2003.

Марко Фриттелли. «Мартингальная мера минимальной энтропии и проблема оценки на неполных рынках». Математические финансы, 10(1):39–52, 2000.

Д. Гленнон и А. Голан. «Марковская модель банкротства банка, оцененная с использованием теоретико-информационного подхода, банки». Отчет, Казначейство США, 2003 г.
А. Голан. «Многопараметрическая стохастическая теория распределения фирм по размерам с эмпирическими данными». Достижения в эконометрике, 10:1–46, 1994.
А. Голан. «Модель Modcomp влияния компенсации на удержание персонала - теоретико-информационный подход». Отчет ВМС США, февраль 2003 г.

Амос Голан и Фолькер Доз. «Обобщенный информационный теоретический подход к томографической реконструкции». Журнал физики A: математические и общие, 34(7):1271, 2001.

Барт Хегеман и Рампал С Этьен. «Максимизация энтропии и пространственное распределение видов». Американский натуралист, 175 (4): E74 – E90, 2010.
У. В. Туссен, А. Голан и В. Дозе, "Максимальное энтропийное разложение четверных масс-спектров". Журнал вакуумной науки и техники A 22 (2), март / апрель 2004 г., 401–406
Голан А. и Д. Волкер, «Теоретический подход к томографической реконструкции с использованием обобщенной информации», Журнал физики A: математические и общие (2001) 1271–1283.

внешняя ссылка

"Институт инфо-метрики: теоретико-информационный анализ и представление данных | Американский университет, Вашингтон, округ Колумбия" american.edu. Получено 2017-11-07.
«Центр информационной науки ННФ НТЦ». soihub.org. Получено 2017-11-07.
http://info-metrics.org/

[1] Шеннон, Клод (1948). «Математическая теория коммуникации». Технический журнал Bell System. 27: 379–423.

[2] Голан, Амос (2018). Основы инфометрики: моделирование, вывод и несовершенная информация. Издательство Оксфордского университета.

[3] Бера, Анил К .; Пак, Сун Ю. (2008). «Оптимальная диверсификация портфеля с использованием принципа максимальной энтропии». Эконометрические обзоры. 27 (4–6): 484–512.

[4] «Распределение портфеля - основы инфо-метрики». info-metrics.org.

[1]

[2]

[3]

[4]

Navigation