WikiDer > Информационный критерий отклонения - Википедия

Deviance information criterion - Wikipedia

В критерий отклонения информации (DIC) это иерархическое моделирование обобщение Информационный критерий Акаике (AIC). Это особенно полезно в Байесовский выбор модели проблемы, где апостериорные распределения из модели были получены Цепь Маркова Монте-Карло (MCMC) моделирование. DIC - это асимптотическое приближение по мере увеличения размера выборки, как в AIC. Это действительно только тогда, когда апостериорное распределение примерно многомерный нормальный.

Определение

Определить отклонение в качестве ${ Displaystyle D ( theta) = - 2 журнал (p (y | theta)) + C ,}$ , куда ${ displaystyle y}$ данные, ${ displaystyle theta}$ - неизвестные параметры модели и ${ Displaystyle р (у | тета)}$ это функция правдоподобия. ${ displaystyle C}$ - это константа, которая сокращается во всех расчетах, сравнивающих разные модели, и поэтому ее не нужно знать.

Обычно используются два расчета эффективного числа параметров модели. Первый, как описано в Spiegelhalter et al. (2002 г., п. 587), является ${ displaystyle p_ {D} = { overline {D ( theta)}} - D ({ bar { theta}})}$ , куда ${ displaystyle { bar { theta}}}$ это ожидание ${ displaystyle theta}$ . Второй, как описано в Гельман и др. (2004 г., п. 182), является ${ displaystyle p_ {D} = p_ {V} = { frac {1} {2}} { overline { operatorname {var} left (D ( theta) right)}}}$ . Чем больше эффективное количество параметров, тем Полегче Модель должна соответствовать данным, поэтому отклонение должно быть наказано.

Информационный критерий отклонения рассчитывается как

{ Displaystyle mathrm {DIC} = p_ {D} + { overline {D ( theta)}},}

или эквивалентно как

{ displaystyle mathrm {DIC} = D ({ bar { theta}}) + 2p_ {D}.}

Из этой последней формы более очевидна связь с AIC.

Мотивация

Идея состоит в том, что модели с меньшим DIC следует предпочесть моделям с большим DIC. Модели наказываются как стоимостью ${ displaystyle { bar {D}}}$ , что способствует хорошей подгонке, но также (аналогично AIC) эффективным количеством параметров ${ displaystyle p_ {D}}$ . С ${ displaystyle { bar {D}}}$ будет уменьшаться по мере увеличения количества параметров в модели, ${ displaystyle p_ {D}}$ термин компенсирует этот эффект, отдавая предпочтение моделям с меньшим числом параметров.

Преимущество DIC по сравнению с другими критериями в случае выбора байесовской модели состоит в том, что DIC легко вычисляется из выборок, сгенерированных симуляцией цепи Маркова методом Монте-Карло. AIC требует расчета максимальной вероятности более ${ displaystyle theta}$ , который не всегда можно получить из моделирования MCMC. Но чтобы вычислить DIC, просто вычислите ${ displaystyle { bar {D}}}$ в среднем ${ Displaystyle D ( theta)}$ по образцам ${ displaystyle theta}$ , и ${ displaystyle D ({ bar { theta}})}$ как ценность ${ displaystyle D}$ оценивается в среднем по образцам ${ displaystyle theta}$ . Тогда ДИК следует непосредственно из этих приближений. Клаескенс и Хьорт (2008, гл. 3.5) показывают, что ДВС крупная выборка эквивалентен естественной модельно-устойчивой версии AIC.

Предположения

При выводе DIC предполагается, что указанное параметрическое семейство распределений вероятностей, которые генерируют будущие наблюдения, включает истинную модель. Это предположение не всегда выполняется, и в этом сценарии желательно рассмотреть процедуры оценки модели.

Кроме того, наблюдаемые данные используются как для построения апостериорного распределения, так и для оценки оцененных моделей, поэтому DIC имеет тенденцию выбирать чрезмерно подогнанный модели.

Расширения

Решение вышеуказанных проблем было предложено Андо (2007)с предложением байесовского критерия прогнозирующей информации (BPIC). Андо (2010, гл. 8) представил обсуждение различных критериев выбора байесовской модели. Чтобы избежать проблем с переоборудованием ДВС, Андо (2011) разработали критерии выбора байесовской модели с точки зрения прогнозирования. Критерий рассчитывается как

{ Displaystyle { mathit {IC}} = { bar {D}} + 2p_ {D} = - 2 mathbf {E} ^ { theta} [ log (p (y | theta))] + 2p_ {D}.}

Первый член - это мера того, насколько хорошо модель соответствует данным, а второй член - это штраф за сложность модели. Обратите внимание, что $п$ в этом выражении - прогнозируемое распределение, а не указанная выше вероятность.

Смотрите также

внешняя ссылка

Макэлрит, Ричард (29 января 2015 г.). «Статистическое переосмысление, лекция 8 (по DIC и другим информационным критериям)» - через YouTube.

Navigation