WikiDer > Неточный процесс Дирихле

Imprecise Dirichlet process

В теории вероятностей и статистике Процесс Дирихле (DP) - одна из самых популярных байесовских непараметрических моделей. Его представил Томас Фергюсон.^[1] в качестве априорного распределения вероятностей.

А Процесс Дирихле ${ displaystyle mathrm {DP} left (s, G_ {0} right)}$ полностью определяется своими параметрами: ${ displaystyle G_ {0}}$ (в базовое распределение или же базовая мера) - произвольное распределение и ${ displaystyle s}$ (в параметр концентрации) - положительное действительное число (часто обозначается как ${ displaystyle alpha}$ Согласно байесовской парадигме, эти параметры следует выбирать на основе имеющейся априорной информации о предметной области.

Вопрос в том, как выбрать априорные параметры. ${ displaystyle left (s, G_ {0} right)}$ ДП, в частности бесконечномерной ${ displaystyle G_ {0}}$ , в случае отсутствия предварительной информации?

Чтобы решить эту проблему, единственное предварительное предложение, которое было предложено до сих пор, - это ограничение DP, полученное для ${ displaystyle s rightarrow 0}$ , который был введен под названием Байесовский бутстрап Рубина;^[2] фактически можно доказать, что байесовский бутстрап асимптотически эквивалентен частотному бутстрапу, введенному Брэдли Эфрон.^[3]Предельный процесс Дирихле ${ displaystyle s rightarrow 0}$ подвергался критике по разным причинам. С априорной точки зрения основная критика заключается в том, что принятие ${ displaystyle s rightarrow 0}$ далека от того, чтобы привести к неинформативному приору.^[4]Более того, апостериори он присваивает нулевую вероятность любому набору, который не включает наблюдения.^[2]

Неточный Дирихле^[5] был предложен процесс для преодоления этих проблем. Основная идея - исправить ${ displaystyle s> 0}$ но не выбирайте точную базовую меру ${ displaystyle G_ {0}}$ .

Точнее, неточный процесс Дирихле (IDP) определяется следующим образом:

{ displaystyle ~~ mathrm {IDP}: ~ left { mathrm {DP} left (s, G_ {0} right): ~~ G_ {0} in mathbb {P} right }}

куда ${ Displaystyle mathbb {P}}$ - множество всех вероятностных мер. Другими словами, IDP - это совокупность всех процессов Дирихле (с фиксированной ${ displaystyle s> 0}$ ), полученная с помощью базовой меры ${ displaystyle G_ {0}}$ чтобы охватить множество всех вероятностных мер.

Выводы с использованием неточного процесса Дирихле

Позволять ${ displaystyle P}$ распределение вероятностей на ${ Displaystyle ( mathbb {X}, { mathcal {B}})}$ (здесь ${ Displaystyle mathbb {X}}$ это стандарт Борелевское пространство с Борелем ${ displaystyle sigma}$ -поле ${ displaystyle { mathcal {B}}}$ ) и предположим, что ${ Displaystyle P sim mathrm {DP} (s, G_ {0})}$ .Тогда рассмотрим действительную ограниченную функцию ${ displaystyle f}$ определено на ${ Displaystyle ( mathbb {X}, { mathcal {B}})}$ . Как известно, ожидание ${ displaystyle E [f]}$ относительно процесса Дирихле

{ Displaystyle { mathcal {E}} [E (f)] = { mathcal {E}} left [ int f , dP right] = int f , d { mathcal {E}} [P] = int f , dG_ {0}.}

Одно из самых замечательных свойств априорных значений DP состоит в том, что апостериорное распределение ${ displaystyle P}$ снова DP. ${ Displaystyle X_ {1}, точки, X_ {n}}$ быть независимой и одинаково распределенной выборкой из ${ displaystyle P}$ и ${ displaystyle P sim Dp (s, G_ {0})}$ , то апостериорное распределение ${ displaystyle P}$ учитывая наблюдения

{ displaystyle P mid X_ {1}, dots, X_ {n} sim Dp left (s + n, G_ {n} right), ~~~ { text {with}} ~~~~ ~~ G_ {n} = { frac {s} {s + n}} G_ {0} + { frac {1} {s + n}} sum limits _ {i = 1} ^ {n} delta _ {X_ {i}},}

куда ${ displaystyle delta _ {X_ {i}}}$ является атомарной вероятностной мерой (дельта Дирака) с центром в ${ displaystyle X_ {i}}$ . Отсюда следует, что ${ displaystyle { mathcal {E}} [E (f) mid X_ {1}, dots, X_ {n}] = int f , dG_ {n}.}$ Следовательно, для любого фиксированного ${ displaystyle G_ {0}}$ , мы можем использовать предыдущие уравнения для получения априорных и апостериорных ожиданий.

в IDP ${ displaystyle G_ {0}}$ может охватывать множество всех дистрибутивов ${ Displaystyle mathbb {P}}$ . Это означает, что мы получим разные априорные и апостериорные ожидания ${ displaystyle E (f)}$ на любой выбор ${ displaystyle G_ {0}}$ . Способ охарактеризовать выводы для IDP вычисляется нижняя и верхняя границы математического ожидания ${ displaystyle E (f)}$ w.r.t. ${ Displaystyle G_ {0} in mathbb {P}}$ Априори эти границы таковы:

{ displaystyle { underline { mathcal {E}}} [E (f)] = inf limits _ {G_ {0} in mathbb {P}} int f , dG_ {0} = inf f, ~~~~ { overline { mathcal {E}}} [E (f)] = sup limits _ {G_ {0} in mathbb {P}} int f , dG_ { 0} = sup f,}

нижняя (верхняя) граница получается вероятностной мерой, которая помещает всю массу в нижнюю грань (супремум) ${ displaystyle f}$ , т.е. ${ displaystyle G_ {0} = delta _ {X_ {0}}}$ с ${ Displaystyle X_ {0} = arg inf f}$ (или соответственно с ${ Displaystyle X_ {0} = arg sup f}$ ). Из приведенных выше выражений нижней и верхней границ видно, что диапазон ${ Displaystyle { mathcal {E}} [E (f)]}$ под IDP такой же, как оригинал классифицировать из ${ displaystyle f}$ . Другими словами, указав IDP, мы не даем никакой предварительной информации о значении ожидания ${ displaystyle f}$ . Априори, IDP поэтому является моделью предварительного (почти) незнания ${ displaystyle E (f)}$ .

Апостериори, IDP можно учиться на данных. Апостериорные нижняя и верхняя границы ожидания ${ displaystyle E (f)}$ фактически даются:

{ displaystyle { begin {align} { underline { mathcal {E}}} [E (f) mid X_ {1}, dots, X_ {n}] & = inf limits _ {G_ { 0} in mathbb {P}} int f , dG_ {n} = { frac {s} {s + n}} inf f + int f (X) { frac {1} {s + n}} sum limits _ {i = 1} ^ {n} delta _ {X_ {i}} (dX) & = { frac {s} {s + n}} inf f + { frac {n} {s + n}} { frac { sum limits _ {i = 1} ^ {n} f (X_ {i})} {n}}, [6pt] { overline { mathcal {E}}} [E (f) mid X_ {1}, dots, X_ {n}] & = sup limits _ {G_ {0} in mathbb {P}} int f , dG_ {n} = { frac {s} {s + n}} sup f + int f (X) { frac {1} {s + n}} sum limits _ {i = 1} ^ {n} delta _ {X_ {i}} (dX) & = { frac {s} {s + n}} sup f + { frac {n} {s + n}} { frac { sum limits _ {i = 1} ^ {n} f (X_ {i})} {n}}. end {align}}}

Можно заметить, что апостериорные выводы не зависят от ${ displaystyle G_ {0}}$ . Чтобы определить IDP, разработчику модели достаточно выбрать ${ displaystyle s}$ (параметр концентрации). Это объясняет значение прилагательного возле в предшествующем почти незнании, потому что IDP требует от моделиста выявления параметра. Однако это простая проблема выявления для непараметрического априорного значения, поскольку нам нужно только выбрать значение положительного скаляра (в модели IDP осталось не бесконечно много параметров).

Наконец, заметьте, что для ${ Displaystyle п rightarrow infty}$ , IDP удовлетворяет

{ displaystyle { underline { mathcal {E}}} left [E (f) mid X_ {1}, dots, X_ {n} right], quad { overline { mathcal {E} }} left [E (f) mid X_ {1}, dots, X_ {n} right] rightarrow S (f),}

куда ${ displaystyle S (f) = lim _ {n rightarrow infty} { tfrac {1} {n}} sum _ {i = 1} ^ {n} f (X_ {i})}$ . Другими словами, IDP последовательна.

Нижнее (красный) и верхнее (синий) кумулятивное распределение для наблюдений {−1.17, 0.44, 1.17, 3.28, 1.44, 1.98}

Выбор предшествующей крепости ${ displaystyle s}$

IDP полностью указан ${ displaystyle s}$ , который является единственным параметром, оставшимся в предыдущей модели. ${ displaystyle s}$ определяет, насколько быстро сходятся нижние и верхние апостериорные ожидания при увеличении количества наблюдений, ${ displaystyle s}$ можно выбрать так, чтобы соответствовать определенной скорости сходимости.^[5]Параметр ${ displaystyle s}$ также могут быть выбраны так, чтобы иметь некоторые желательные частотные свойства (например, достоверные интервалы для калибровки частотных интервалов, проверки гипотез, которые необходимо откалибровать для ошибки типа I, и т. д.), см. Пример: медианный тест

Пример: оценка кумулятивного распределения

Позволять ${ Displaystyle X_ {1}, точки, X_ {n}}$ быть i.i.d. реальные случайные величины с кумулятивная функция распределения ${ Displaystyle F (х)}$ .

С ${ Displaystyle F (x) = E [ mathbb {I} _ {( infty, x]}]}$ , куда ${ Displaystyle mathbb {I} _ {( infty, х]}}$ это индикаторная функция, мы можем использовать IDP, чтобы делать выводы о ${ Displaystyle F (х).}$ Нижнее и верхнее заднее среднее значение ${ Displaystyle F (х)}$ находятся

{ Displaystyle { begin {align} & { underline { mathcal {E}}} left [F (x) mid X_ {1}, dots, X_ {n} right] = { underline { mathcal {E}}} [E ( mathbb {I} _ {( infty, x]}) mid X_ {1}, dots, X_ {n}] = {} & { frac { n} {s + n}} { frac { sum limits _ {i = 1} ^ {n} mathbb {I} _ {( infty, x]} (X_ {i})} {n} } = { frac {n} {s + n}} { hat {F}} (x), [12pt] & { overline { mathcal {E}}} left [F (x) середина X_ {1}, точки, X_ {n} right] = { overline { mathcal {E}}} left [E ( mathbb {I} _ {( infty, x]}) mid X_ {1}, dots, X_ {n} right] = {} & { frac {s} {s + n}} + { frac {n} {s + n}} { frac { sum limits _ {i = 1} ^ {n} mathbb {I} _ {( infty, x]} (X_ {i})} {n}} = { frac {s} {s + n }} + { frac {n} {s + n}} { hat {F}} (x). end {выравнивается}}}

куда ${ displaystyle { hat {F}} (х)}$ это эмпирическая функция распределения. Здесь для получения меньшего мы использовали тот факт, что ${ displaystyle inf mathbb {I} _ {( infty, x]} = 0}$ а для верха это ${ Displaystyle sup mathbb {I} _ {( infty, x]} = 1}$ .

Бета-распределения для нижней (красный) и верхней (синий) вероятностей, соответствующих наблюдениям {-1,17, 0,44, 1,17, 3,28, 1,44, 1,98}. Область в [0,0.5] дает нижнюю (0,891) и верхнюю (0,9375) вероятность гипотезы «медиана больше нуля».

Обратите внимание, что для любого точного выбора ${ displaystyle G_ {0}}$ (например, нормальное распределение ${ Displaystyle { mathcal {N}} (х; 0,1)}$ ) апостериорное ожидание ${ Displaystyle F (х)}$ будут включены между нижней и верхней границей.

Пример: медианный тест

IDP также можно использовать для проверки гипотез, например, для проверки гипотезы. ${ displaystyle F (0) <0,5}$ , т. е. медиана ${ displaystyle F}$ больше нуля. с учетом разбиения ${ Displaystyle (- infty, 0], (0, infty)}$ и свойство процесса Дирихле, можно показать, что апостериорное распределение ${ Displaystyle F (0)}$ является

{ Displaystyle F (0) sim mathrm {Beta} ( alpha _ {0} + n _ {<0}, beta _ {0} + n-n _ {<0})}

куда ${ displaystyle n _ {<0}}$ - количество наблюдений меньше нуля,

{ Displaystyle альфа _ {0} = s int _ {- infty} ^ {0} dG_ {0}}

и

{ displaystyle beta _ {0} = s int _ {0} ^ { infty} dG_ {0}.}

Используя это свойство, следует, что

{ displaystyle { underline { mathcal {P}}} [F (0) <0,5 mid X_ {1}, dots, X_ {n}] = int limits _ {0} ^ {0,5} mathrm {Бета} ( theta; s + n _ {<0}, n-n _ {<0}) d theta = I_ {1/2} (s + n _ {<0}, n-n _ {<0} ),}

{ displaystyle { overline { mathcal {P}}} [F (0) <0,5 mid X_ {1}, dots, X_ {n}] = int limits _ {0} ^ {0,5} mathrm {Бета} ( theta; n _ {<0}, s + n-n _ {<0}) d theta = I_ {1/2} (n _ {<0}, s + n-n _ {<0} ).}

куда ${ Displaystyle I_ {х} ( альфа, бета)}$ это регуляризованная неполная бета-функцияТаким образом, мы можем выполнить проверку гипотезы.

{ displaystyle { underline { mathcal {P}}} [F (0) <0,5 mid X_ {1}, dots, X_ {n}]> 1- gamma, ~~ { overline { mathcal {P}}} [F (0) <0,5 mid X_ {1}, dots, X_ {n}]> 1- gamma,}

(с ${ displaystyle 1- gamma = 0,95}$ например), а затем

если оба неравенства выполнены, мы можем заявить, что ${ displaystyle F (0) <0,5}$ с вероятностью больше, чем ${ displaystyle 1- gamma}$ ;
если выполняется только одно из неравенств (которое обязательно должно быть неравенством для верхнего), мы находимся в неопределенной ситуации, т.е. мы не можем принять решение;
если оба не удовлетворены, мы можем заявить, что вероятность того, что ${ displaystyle F (0) <0,5}$ ниже желаемой вероятности ${ displaystyle 1- gamma}$ .

IDP возвращает неопределенное решение, когда решение является априорным (то есть когда оно будет зависеть от выбора ${ displaystyle G_ {0}}$ ).

Используя отношения между кумулятивная функция распределения из Бета-распределение, а кумулятивная функция распределения из случайная переменная Z из биномиальное распределение, где «вероятность успеха» равна п а размер выборки п:

{ Displaystyle F (к; n, p) = Pr (Z leq k) = I_ {1-p} (n-k, k + 1) = 1-I_ {p} (k + 1, n-k),}

мы можем показать, что средний тест, полученный с помощью th IDP, для любого выбора ${ displaystyle s geq 1}$ включает односторонний частотный тест в качестве теста на медианное значение. Фактически можно проверить, что для ${ displaystyle s = 1}$ в ${ displaystyle p}$ -значение критерия знака равно ${ displaystyle 1 - { underline { mathcal {P}}} [F (0) <0,5 mid X_ {1}, dots, X_ {n}]}$ . Таким образом, если ${ displaystyle { underline { mathcal {P}}} [F (0) <0,5 mid X_ {1}, dots, X_ {n}]> 0,95}$ затем ${ displaystyle p}$ -значение меньше чем ${ displaystyle 0,05}$ и, следовательно, эти два теста имеют одинаковую мощность.

Применение неточного процесса Дирихле

Процессы Дирихле часто используются в байесовской непараметрической статистике. Неточный процесс Дирихле может использоваться вместо процессов Дирихле в любом приложении, в котором априорная информация отсутствует (поэтому важно смоделировать это состояние предшествующего незнания).

В этом отношении для непараметрической проверки гипотез использовался неточный процесс Дирихле, см. статистический пакет Imprecise Dirichlet ProcessНа основе неточного процесса Дирихле были получены байесовские непараметрические почти незнания версии следующих классических непараметрических оценок: критерий суммы рангов Вилкоксона.^[5] и знаковый ранговый тест Уилкоксона.^[6]

Байесовская непараметрическая модель почти незнания имеет несколько преимуществ по сравнению с традиционным подходом к проверке гипотез.

Байесовский подход позволяет сформулировать проверку гипотез как проблему решения. Это означает, что мы можем проверить доказательства в пользу нулевой гипотезы, а не только отвергнуть ее, и принять решения, которые минимизируют ожидаемые потери.
Из-за непараметрического априорного незнания, тесты на основе IDP позволяют нам начать проверку гипотез с очень слабыми априорными предположениями, что позволяет данным говорить сами за себя.
Хотя тест IDP имеет несколько общих черт со стандартным байесовским подходом, в то же время он воплощает в себе существенное изменение парадигмы, когда дело доходит до принятия решений. Фактически, тесты на основе IDP имеют то преимущество, что дают неопределенный результат, когда решение зависит от априора. Другими словами, тест IDP приостанавливает вынесение решения, когда параметр, который минимизирует ожидаемые убытки, изменяется в зависимости от базового показателя процесса Дирихле, на котором мы сосредоточены.
Эмпирически подтверждено, что когда тест IDP не определен, частотные тесты фактически ведут себя как случайные догадки. Этот удивительный результат имеет практические последствия при проверке гипотез. Предположим, что мы пытаемся сравнить эффекты двух видов лечения (Y лучше, чем X) и что, учитывая доступные данные, тест IDP не определен. В такой ситуации частотный тест всегда выдает определенный ответ (например, я могу сказать, что Y лучше, чем X), но оказывается, что его ответ полностью случайен, как если бы мы подбрасывали монету. С другой стороны, тест IDP признает невозможность принятия решения в этих случаях. Таким образом, говоря «Я не знаю», тест IDP предоставляет аналитику более обширную информацию. Например, аналитик может использовать эту информацию для сбора дополнительных данных.

Категориальные переменные

За категориальные переменные, т.е. когда ${ Displaystyle mathbb {X}}$ имеет конечное число элементов, известно, что процесс Дирихле сводится к Распределение Дирихле.В этом случае неточный процесс Дирихле сводится к Неточная модель Дирихле предложено Уолли^[7] как образец предварительного (почти) незнания шансов.

Смотрите также

Неточная вероятность

Надежный байесовский анализ

внешняя ссылка

[1] Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач». Анналы статистики. 1 (2): 209–230. Дои:10.1214 / aos / 1176342360. МИСТЕР 0350949.

[Rubin1981-2] а ^б Рубин Д (1981). Байесовский бутстрап. Анна. Стат. 9 130–134

[Efron1979-3] Эфрон Б (1979). Методы начальной загрузки: еще раз взглянем на складной нож. Анна. Стат. 7 1–26

[4] Sethuraman, J .; Тивари, Р. К. (1981). «Сходимость мер Дирихле и интерпретация их параметра». Центр оборонной технической информации.

[Benavoliarxiv-5] а ^б ^c Бенаволи, Алессио; Мангили, Франческа; Руджери, Фабрицио; Заффалон, Марко (2014). «Неточный процесс Дирихле с приложением к проверке гипотез о вероятности того, что X arXiv:1402.2755 [math.ST].

[6] Бенаволи, Алессио; Мангили, Франческа; Корани, Джорджио; Руджери, Фабрицио; Заффалон, Марко (2014). «Байесовский тест Вилкоксона со знаком рангов, основанный на процессе Дирихле». Материалы 30-й Международной конференции по машинному обучению (ICML 2014). Цитировать журнал требует | журнал = (помощь)

[WALLEY1991-7] Уолли, Питер (1991). Статистические рассуждения с неточными вероятностями. Лондон: Чепмен и Холл. ISBN 0-412-28660-2.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Navigation

Navigation

Themenportale

WikiDer > Неточный процесс Дирихле

Содержание

Выводы с использованием неточного процесса Дирихле

Выбор предшествующей крепости ${ displaystyle s}$

Пример: оценка кумулятивного распределения

Пример: медианный тест

Применение неточного процесса Дирихле

Категориальные переменные

Смотрите также

Рекомендации

внешняя ссылка

Navigation

WikiDer > Неточный процесс Дирихле

Выводы с использованием неточного процесса Дирихле

Выбор предшествующей крепости s { displaystyle s}

Пример: оценка кумулятивного распределения

Пример: медианный тест

Применение неточного процесса Дирихле

Категориальные переменные

Смотрите также

Рекомендации

внешняя ссылка

Выбор предшествующей крепости ${ displaystyle s}$