WikiDer > Оценка максимального правдоподобия

Maximum likelihood estimation

В статистике оценка максимального правдоподобия (MLE) - метод оценка то параметры из распределение вероятностей от максимизация а функция правдоподобия, так что при предполагаемых статистическая модель то наблюдаемые данные наиболее вероятно. В точка в пространство параметров которая максимизирует функцию правдоподобия, называется оценкой максимального правдоподобия.^[1] Логика максимального правдоподобия интуитивна и гибка, и поэтому метод стал доминирующим средством статистические выводы.^[2]^[3]^[4]

Если функция правдоподобия дифференцируемый, то производный тест для определения максимумов может применяться. В некоторых случаях условия первого порядка функции правдоподобия могут быть решены явно; например, обыкновенный метод наименьших квадратов оценка максимизирует вероятность линейная регрессия модель.^[5] Однако в большинстве случаев для нахождения максимума функции правдоподобия потребуются численные методы.

С точки зрения Байесовский вывод, MLE - частный случай максимальная апостериорная оценка (MAP), который предполагает униформа предварительное распространение параметров. В частотный вывод, MLE - частный случай экстремальная оценка, где целевой функцией является вероятность.

Принципы

Со статистической точки зрения, данный набор наблюдений является случайным. образец из неизвестного Население. Цель оценки максимального правдоподобия - сделать выводы о популяции, которая с наибольшей вероятностью создала выборку.^[6] в частности, совместное распределение вероятностей случайных величин ${ displaystyle left {y_ {1}, y_ {2}, ldots right }}$ , не обязательно независимые и одинаково распределенные. С каждым распределением вероятностей связан уникальный вектор ${ displaystyle theta = left [ theta _ {1}, , theta _ {2}, , ldots, , theta _ {k} right] ^ { mathsf {T}}}$ параметров, которые индексируют распределение вероятностей в параметрическая семья ${ Displaystyle {е ( cdot ,; тета) середина тета в тета }}$ , где ${ displaystyle Theta}$ называется пространство параметров, конечномерное подмножество Евклидово пространство. Оценка плотности соединения на наблюдаемой выборке данных ${ Displaystyle mathbf {y} = (y_ {1}, y_ {2}, ldots, y_ {n})}$ дает действительную функцию,

{ displaystyle L_ {n} ( theta) = L_ {n} ( theta; mathbf {y}) = f_ {n} ( mathbf {y}; theta)}

который называется функция правдоподобия. Для независимые и одинаково распределенные случайные величины, ${ displaystyle f_ {n} ( mathbf {y}; theta)}$ будет продуктом одномерного функции плотности.

Цель оценки максимального правдоподобия - найти значения параметров модели, которые максимизируют функцию правдоподобия в пространстве параметров,^[6] это

{ displaystyle { hat { theta}} = { underset { theta in Theta} { operatorname {arg ; max}}} { widehat {L}} _ {n} ( theta ,; mathbf {y})}

Интуитивно это выбирает значения параметров, которые делают наблюдаемые данные наиболее вероятными. Конкретное значение ${ displaystyle { hat { theta}} = { hat { theta}} _ {n} ( mathbf {y}) in Theta}$ который максимизирует функцию правдоподобия ${ displaystyle L_ {n}}$ называется оценкой максимального правдоподобия. Далее, если функция ${ displaystyle { hat { theta}} _ {n}: mathbb {R} ^ {n} to Theta}$ так определено измеримый, то это называется максимальным правдоподобием оценщик. Обычно это функция, определенная над образец пространства, т.е. взяв в качестве аргумента данный образец. А достаточно, но не обязательно условием его существования является то, чтобы функция правдоподобия была непрерывный по пространству параметров ${ displaystyle Theta}$ это компактный.^[7] Для открыто ${ displaystyle Theta}$ функция правдоподобия может увеличиваться, даже не достигнув супремум-значения.

На практике часто бывает удобно работать с натуральный логарифм функции правдоподобия, называемой логарифмическая вероятность:

{ displaystyle ell ( theta ,; mathbf {y}) = ln L_ {n} ( theta ,; mathbf {y}).}

Поскольку логарифм равен монотонная функция, максимум ${ displaystyle ell ( theta ,; mathbf {y})}$ происходит при том же значении ${ displaystyle theta}$ как и максимум ${ displaystyle L_ {n}}$ .^[8] Если ${ displaystyle ell ( theta ,; mathbf {y})}$ является дифференцируемый в ${ displaystyle theta}$ , то необходимые условия для наступления максимума (или минимума) являются

{ displaystyle { frac { partial ell} { partial theta _ {1}}} = 0, quad { frac { partial ell} { partial theta _ {2}}} = 0 , quad ldots, quad { frac { partial ell} { partial theta _ {k}}} = 0,}

известные как уравнения правдоподобия. Для некоторых моделей эти уравнения можно явно решить относительно ${ displaystyle { widehat { theta ,}}}$ , но в целом решение проблемы максимизации в закрытой форме неизвестно или доступно, а MLE можно найти только через численная оптимизация. Другая проблема заключается в том, что в конечных выборках может существовать несколько корни для уравнений правдоподобия.^[9] Был ли идентифицированный корень ${ displaystyle { widehat { theta ,}}}$ уравнений правдоподобия действительно является (локальным) максимумом, который зависит от того, является ли матрица частных производных второго порядка и кросс-частных производных,

{ Displaystyle mathbf {H} left ({ widehat { theta ,}} right) = { begin {bmatrix} left. { frac { partial ^ {2} ell} { partial theta _ {1} ^ {2}}} right | _ { theta = { widehat { theta ,}}} & left. { frac { partial ^ {2} ell} { частичное theta _ {1} , partial theta _ {2}}} right | _ { theta = { widehat { theta ,}}} & dots & left. { frac { partial ^ {2} ell} { partial theta _ {1} , partial theta _ {k}}} right | _ { theta = { widehat { theta ,}}} left. { frac { partial ^ {2} ell} { partial theta _ {2} , partial theta _ {1}}} right | _ { theta = { widehat { theta ,}}} & left. { frac { partial ^ {2} ell} { partial theta _ {2} ^ {2}}} right | _ { theta = { widehat { theta ,}}} & dots & left. { frac { partial ^ {2} ell} { partial theta _ {2} , partial theta _ {k}}} right | _ { theta = { widehat { theta ,}}} vdots & vdots & ddots & vdots left. { frac { partial ^ {2} ell} { частичное theta _ {k} , partial theta _ {1}}} right | _ { theta = { widehat { theta ,}}} & left. { frac { partial ^ { 2} ell} { partial theta _ {k} , partial theta _ {2 }}} right | _ { theta = { widehat { theta ,}}} & dots & left. { frac { partial ^ {2} ell} { partial theta _ {k } ^ {2}}} right | _ { theta = { widehat { theta ,}}} end {bmatrix}},}

известный как Матрица Гессе является отрицательный полуопределенный в ${ displaystyle { widehat { theta ,}}}$ , что указывает на местные вогнутость. Удобно, самый распространенный распределения вероятностей- в частности экспоненциальная семья-находятся логарифмически вогнутый.^[10]^[11]

Ограниченное пространство параметров

В то время как область определения функции правдоподобия - пространство параметров- вообще конечномерное подмножество Евклидово пространство, дополнительные ограничения иногда необходимо включать в процесс оценки. Пространство параметров может быть выражено как

{ Displaystyle Theta = left { theta: theta in mathbb {R} ^ {k}, ; h ( theta) = 0 right }}

,

где ${ displaystyle h ( theta) = left [h_ {1} ( theta), h_ {2} ( theta), ldots, h_ {r} ( theta) right]}$ это вектор-функция отображение ${ displaystyle mathbb {R} ^ {k}}$ в ${ Displaystyle mathbb {R} ^ {r}}$ . Оценка истинного параметра ${ displaystyle theta}$ принадлежащий ${ displaystyle Theta}$ затем, с практической точки зрения, означает найти максимум функции правдоподобия с учетом ограничение ${ Displaystyle ч ( тета) = 0}$ .

Теоретически наиболее естественный подход к этому ограниченная оптимизация проблема заключается в способе подстановки, то есть "заполнении" ограничений ${ displaystyle h_ {1}, h_ {2}, ldots, h_ {r}}$ к набору ${ displaystyle h_ {1}, h_ {2}, ldots, h_ {r}, h_ {r + 1}, ldots, h_ {k}}$ таким образом, что ${ displaystyle h ^ { ast} = left [h_ {1}, h_ {2}, ldots, h_ {k} right]}$ это индивидуальная функция от ${ displaystyle mathbb {R} ^ {k}}$ самому себе и повторно параметризуйте функцию правдоподобия, установив ${ displaystyle phi _ {i} = h_ {i} ( theta _ {1}, theta _ {2}, ldots, theta _ {k})}$ .^[12] Из-за инвариантности оценки максимального правдоподобия свойства MLE применимы также к ограниченным оценкам.^[13] Например, в многомерное нормальное распределение то ковариационная матрица ${ displaystyle Sigma}$ должно быть положительно определенный; это ограничение может быть наложено заменой ${ Displaystyle Sigma = Gamma ^ { mathsf {T}} Gamma}$ , где ${ displaystyle Gamma}$ настоящий верхнетреугольная матрица и ${ Displaystyle Gamma ^ { mathsf {T}}}$ это его транспонировать.^[14]

На практике ограничения обычно вводятся с использованием метода Лагранжа, который с учетом ограничений, определенных выше, приводит к уравнениям ограниченного правдоподобия

{ displaystyle { frac { partial ell} { partial theta}} - { frac { partial h ( theta) ^ { mathsf {T}}} { partial theta}} lambda = 0}

и

{ Displaystyle ч ( тета) = 0}

,

где ${ displaystyle lambda = ( lambda _ {1}, lambda _ {2}, ldots, lambda _ {r})}$ вектор-столбец Множители Лагранжа и ${ displaystyle { frac { partial h ( theta) ^ { mathsf {T}}} { partial theta}}}$ это к × г Матрица якобиана частных производных.^[12] Естественно, если ограничения не являются обязательными на максимум, множители Лагранжа должны быть равны нулю.^[15] Это, в свою очередь, позволяет провести статистическую проверку «достоверности» ограничения, известную как Тест множителя Лагранжа.

Свойства

Оценка максимального правдоподобия - это экстремальная оценка полученный максимизацией, как функция θ, то целевая функция ${ Displaystyle { widehat { ell ,}} ( theta ,; х)}$ . Если данные независимые и одинаково распределенные, то имеем

{ displaystyle { widehat { ell ,}} ( theta ,; x) = { frac {1} {n}} sum _ {i = 1} ^ {n} ln f (x_ { i} mid theta),}

это примерный аналог ожидаемой логарифмической вероятности ${ displaystyle ell ( theta) = operatorname {E} [, ln f (x_ {i} mid theta) ,]}$ , где это ожидание берется относительно истинной плотности.

Оценщики максимального правдоподобия не имеют оптимальных свойств для конечных выборок в том смысле, что (при оценке на конечных выборках) другие оценщики могут иметь большую концентрацию вокруг истинного значения параметра.^[16] Однако, как и другие методы оценки, оценка максимального правдоподобия обладает рядом привлекательных ограничивающие свойства: Когда размер выборки увеличивается до бесконечности, последовательности оценок максимального правдоподобия обладают следующими свойствами:

Последовательность: последовательность MLE сходится по вероятности к оцениваемому значению.
Функциональная инвариантность: если ${ displaystyle { hat { theta}}}$ оценка максимального правдоподобия для ${ displaystyle theta}$ , и если ${ Displaystyle г ( тета)}$ любое преобразование ${ displaystyle theta}$ , то оценка максимального правдоподобия для ${ Displaystyle альфа = г ( тета)}$ является ${ displaystyle { hat { alpha}} = g ({ hat { theta}})}$ .
Эффективность, т.е. достигает Нижняя граница Крамера – Рао когда размер выборки стремится к бесконечности. Это означает, что ни одна последовательная оценка не имеет нижней асимптотики. среднеквадратичная ошибка чем MLE (или другие оценки, достигающие этой границы), что также означает, что MLE имеет асимптотическая нормальность.
Эффективность второго порядка после поправки на смещение.

Последовательность

В условиях, описанных ниже, оценка максимального правдоподобия равна последовательный. Согласованность означает, что если данные были сгенерированы ${ Displaystyle е ( cdot ,; theta _ {0})}$ и у нас есть достаточно большое количество наблюдений п, то можно найти значение θ₀ с произвольной точностью. С математической точки зрения это означает, что при п уходит в бесконечность оценщик ${ displaystyle { widehat { theta ,}}}$ сходится по вероятности к его истинной ценности:

{ displaystyle { widehat { theta ,}} _ { mathrm {mle}} { xrightarrow { text {p}}} theta _ {0}.}

При несколько более сильных условиях оценка сходится почти наверняка (или сильно):

{ displaystyle { widehat { theta ,}} _ { mathrm {mle}} { xrightarrow { text {a.s.}}} theta _ {0}.}

В практических приложениях данные никогда не генерируются ${ Displaystyle е ( cdot ,; theta _ {0})}$ . Скорее, ${ Displaystyle е ( cdot ,; theta _ {0})}$ представляет собой модель, часто в идеализированной форме, процесса, порождаемого данными. В статистике распространен афоризм, что все модели неправильные. Таким образом, в практических приложениях истинной согласованности не происходит. Тем не менее, согласованность часто считается желательным свойством для оценщика.

Для согласования достаточно следующих условий.^[17]

Идентификация модели:
${ displaystyle theta neq theta _ {0} quad Leftrightarrow quad f ( cdot mid theta) neq f ( cdot mid theta _ {0}).}$
Другими словами, разные значения параметров θ соответствуют различным распределениям в модели. Если бы это условие не выполнялось, было бы какое-то значение θ₁ такой, что θ₀ и θ₁ генерировать идентичное распределение наблюдаемых данных. Тогда мы не сможем различить эти два параметра даже с бесконечным объемом данных - эти параметры были бы наблюдательно эквивалентный.
Условие идентификации абсолютно необходимо для согласованности оценщика ML. При выполнении этого условия предельная функция правдоподобия ℓ(θ| ·) Имеет единственный глобальный максимум на θ₀.
Компактность: пространство параметров модели Θ компактный.
Условие идентификации устанавливает, что логарифм правдоподобия имеет уникальный глобальный максимум. Компактность подразумевает, что вероятность не может приблизиться к максимальному значению произвольно близко в какой-то другой точке (как показано, например, на рисунке справа).
Компактность - это только достаточное, но не необходимое условие. Компактность можно заменить некоторыми другими условиями, например:
- и то и другое вогнутость логарифмической функции правдоподобия и компактности некоторого (непустого) верхнего наборы уровней функции логарифмического правдоподобия, или
- наличие компактного окрестности N из θ₀ так что за пределами N функция логарифмического правдоподобия меньше максимального, по крайней мере, на некоторые ε > 0.
Непрерывность: функция ln ж(Икс | θ) непрерывна в θ почти для всех значений Икс:
${ displaystyle operatorname {P} ! { big [} ; ln f (x mid theta) ; in ; C ^ {0} ( Theta) ; { big]} = 1.}$
Здесь непрерывность можно заменить чуть более слабым условием верхняя полунепрерывность.
Доминирование: существует D(Икс) интегрируемо по распределению ж(Икс | θ₀) такие, что
${ displaystyle { big |} ln f (x mid theta) { big |}$
Посредством единый закон больших чисел, условие доминирования вместе с непрерывностью устанавливают равномерную сходимость по вероятности логарифмического правдоподобия:
${ displaystyle sup _ { theta in Theta} left | { widehat { ell ,}} ( theta mid x) - ell ( theta) , right | { xrightarrow { text {p}}} 0.}$

Условие доминирования можно использовать в случае i.i.d. наблюдения. В non-i.i.d. В этом случае равномерную сходимость по вероятности можно проверить, показав, что последовательность ${ displaystyle { widehat { ell ,}} ( theta mid x)}$ является стохастически равностепенно непрерывный.Если кто-то хочет продемонстрировать, что оценка ML ${ displaystyle { widehat { theta ,}}}$ сходится к θ₀ почти наверняка, то почти наверняка должно быть наложено более сильное условие равномерной сходимости:

{ displaystyle sup _ { theta in Theta} left | ; { widehat { ell ,}} ( theta mid x) - ell ( theta) ; right | xrightarrow { text {as}} 0.}

Кроме того, если (как предполагалось выше) данные были сгенерированы ${ Displaystyle е ( cdot ,; theta _ {0})}$ , то при определенных условиях также можно показать, что оценка максимального правдоподобия сходится в распределении к нормальному распределению. В частности,^[18]

{ displaystyle { sqrt {n}} left ({ widehat { theta ,}} _ { mathrm {mle}} - theta _ {0} right) xrightarrow {d} { mathcal {N}} left (0, , I ^ {- 1} right)}

где $я$ это Информационная матрица Fisher.

Функциональная инвариантность

Оценщик максимального правдоподобия выбирает значение параметра, которое дает наблюдаемым данным наибольшую возможную вероятность (или плотность вероятности в непрерывном случае). Если параметр состоит из нескольких компонентов, то мы определяем их отдельные оценки максимального правдоподобия как соответствующий компонент MLE полного параметра. В соответствии с этим, если ${ displaystyle { widehat { theta ,}}}$ это MLE для ${ displaystyle theta}$ , и если ${ Displaystyle г ( тета)}$ любое преобразование ${ displaystyle theta}$ , то MLE для ${ Displaystyle альфа = г ( тета)}$ по определению^[19]

{ displaystyle { widehat { alpha}} = g (, { widehat { theta ,}} ,). ,}

Он максимизирует так называемые вероятность профиля:

{ displaystyle { bar {L}} ( alpha) = sup _ { theta: alpha = g ( theta)} L ( theta). ,}

MLE также инвариантен относительно некоторых преобразований данных. Если ${ Displaystyle у = г (х)}$ где ${ displaystyle g}$ один к одному и не зависит от оцениваемых параметров, то функции плотности удовлетворяют

{ displaystyle f_ {Y} (y) = { frac {f_ {X} (x)} {| g '(x) |}}}

и, следовательно, функции правдоподобия для ${ displaystyle X}$ и ${ displaystyle Y}$ отличаются только коэффициентом, не зависящим от параметров модели.

Например, параметры MLE логарифмически нормального распределения такие же, как параметры нормального распределения, подогнанного к логарифму данных.

Эффективность

Как предполагалось выше, данные были созданы ${ Displaystyle е ( cdot ,; theta _ {0})}$ , то при определенных условиях также можно показать, что оценка максимального правдоподобия сходится в распределении к нормальному распределению. это √п -согласованный и асимптотически эффективный, что означает, что он достигает Граница Крамера – Рао. В частности,^[18]

{ displaystyle { sqrt {n}} ({ widehat { theta ,}} _ { text {mle}} - theta _ {0}) { xrightarrow {d}} { mathcal {N}} (0, I ^ {- 1}),}

где ${ displaystyle I}$ это Информационная матрица Fisher:

{ displaystyle I_ {jk} = operatorname {E} { bigg [} ; {- { frac { partial ^ {2} ln f _ { theta _ {0}} (X_ {t})} { partial theta _ {j} , partial theta _ {k}}}} ; { bigg]}.}

В частности, это означает, что предвзятость оценщика максимального правдоподобия равна нулю с точностью до порядка¹⁄_√п.

Эффективность второго порядка после коррекции смещения

Однако, когда мы рассматриваем члены высшего порядка в расширение распределения этой оценки, оказывается, что $θ mle$ имеет предвзятость порядка¹⁄_п. Это смещение равно (покомпонентно)^[20]

{ displaystyle b_ {h} Equiv operatorname {E} { bigg [} ; ({ widehat { theta}} _ { mathrm {mle}} - theta _ {0}) _ {h} ; { bigg]} = { frac {1} {n}} sum _ {i, j, k = 1} ^ {m} I ^ {hi} I ^ {jk} left ({ frac {1} {2}} K_ {ijk} + J_ {j, ik} right)}

где ${ displaystyle I ^ {jk}}$ обозначает (j, k) -й компонент обратный Информационная матрица Fisher ${ displaystyle I ^ {- 1}}$ , и

{ displaystyle { tfrac {1} {2}} K_ {ijk} + J_ {j, ik} = operatorname {E} { bigg [} ; { frac {1} {2}} { frac { partial ^ {3} ln f _ { theta _ {0}} (X_ {t})} { partial theta _ {i} , partial theta _ {j} , partial theta _ {k}}} + { frac { partial ln f _ { theta _ {0}} (X_ {t})} { partial theta _ {j}}} { frac { partial ^ { 2} ln f _ { theta _ {0}} (X_ {t})} { partial theta _ {i} , partial theta _ {k}}} ; { bigg]}.}

Используя эти формулы, можно оценить смещение второго порядка оценки максимального правдоподобия, и правильный для этого смещения, вычитая его:

{ displaystyle { widehat { theta ,}} _ { text {mle}} ^ {*} = { widehat { theta ,}} _ { text {mle}} - { widehat {b ,}}.}

Этот оценщик объективен к условиям заказа.¹⁄_п, и называется оценщиком максимального правдоподобия с поправкой на смещение.

Эта оценка с поправкой на смещение эффективность второго порядка (по крайней мере, в пределах изогнутого экспоненциального семейства), что означает, что он имеет минимальную среднеквадратичную ошибку среди всех оценок второго порядка с поправкой на смещение, вплоть до членов порядка¹⁄_п². Можно продолжить этот процесс, то есть получить член коррекции смещения третьего порядка и так далее. Однако оценка максимального правдоподобия не КПД третьего порядка.^[21]

Связь с байесовским выводом

Оценка максимального правдоподобия совпадает с наиболее вероятно Байесовская оценка учитывая униформа предварительное распространение на параметры. Действительно, максимальная апостериорная оценка это параметр $θ$ что максимизирует вероятность $θ$ учитывая данные, приведенные по теореме Байеса:

{ displaystyle operatorname {P} ( theta mid x_ {1}, x_ {2}, ldots, x_ {n}) = { frac {f (x_ {1}, x_ {2}, ldots) , x_ {n} mid theta) operatorname {P} ( theta)} { operatorname {P} (x_ {1}, x_ {2}, ldots, x_ {n})}}}

где ${ Displaystyle Р ( тета)}$ - априорное распределение для параметра $θ$ и где ${ Displaystyle OperatorName {P} (x_ {1}, x_ {2}, ldots, x_ {n})}$ - вероятность усреднения данных по всем параметрам. Поскольку знаменатель не зависит от $θ$ , байесовская оценка получается максимизацией ${ displaystyle f (x_ {1}, x_ {2}, ldots, x_ {n} mid theta) operatorname {P} ( theta)}$ относительно $θ$ . Если далее предположить, что предыдущие ${ Displaystyle Р ( тета)}$ является равномерным распределением, байесовская оценка получается максимизацией функции правдоподобия ${ displaystyle f (x_ {1}, x_ {2}, ldots, x_ {n} mid theta)}$ . Таким образом, байесовская оценка совпадает с оценкой максимального правдоподобия для равномерного априорного распределения. ${ displaystyle operatorname {P} ( theta)}$ .

Применение оценки максимального правдоподобия в теории принятия решений Байеса

Во многих практических приложениях в машинное обучение, оценка максимального правдоподобия используется в качестве модели для оценки параметров.

Теория байесовских решений заключается в разработке классификатора, который минимизирует общий ожидаемый риск, особенно, когда затраты (функция потерь), связанные с различными решениями, равны, классификатор минимизирует ошибку по всему распределению.^[22]

Таким образом, правило принятия решений Байеса формулируется как «решить ${ displaystyle w_ {1}}$ если ${ Displaystyle P (w_ {1} | x)> P (w_ {2} | x)}$ ; в противном случае ${ displaystyle w_ {2}}$ ", где ${ displaystyle w_ {1}}$ , ${ displaystyle w_ {2}}$ предсказания разных классов. С точки зрения минимизации ошибок это также можно сформулировать как ${ displaystyle w = arg min _ {w} int _ {- infty} ^ { infty} P ({ text {error}} mid x) P (x) , dx}$ , где ${ Displaystyle P ({ text {error}} mid x) = P (w_ {1} mid x)}$ если мы решим ${ displaystyle w_ {2}}$ и ${ Displaystyle P ({ text {error}} mid x) = P (w_ {2} | x)}$ если мы решим ${ displaystyle w_ {1}}$ .

Применяя Теорема Байеса : ${ Displaystyle P (w_ {i} mid x) = { frac {P (x mid w_ {i}) P (w_ {i})} {P (x)}}}$ , и если мы дополнительно предположим функцию потерь ноль / один, которая является одинаковой потерей для всех ошибок, правило принятия решения Байеса можно переформулировать следующим образом:

${ displaystyle h _ { text {Bayes}} = arg max _ {w} P (x mid w) P (w)}$ , где ${ displaystyle h _ { text {Bayes}}}$ это предсказание и ${ Displaystyle P (ш)}$ это априорная вероятность.

Связь с минимизацией расходимости Кульбака – Лейблера и кросс-энтропии

обнаружение ${ displaystyle { hat { theta}}}$ который максимизирует вероятность, асимптотически эквивалентен нахождению ${ displaystyle { hat { theta}}}$ который определяет распределение вероятностей ( ${ displaystyle Q _ { hat { theta}}}$ ), имеющая минимальное расстояние в терминах Дивергенция Кульбака – Лейблера, к реальному распределению вероятностей, из которого были сгенерированы наши данные (т.е. ${ displaystyle P _ { theta _ {0}}}$ ).^[23] В идеальном мире P и Q одинаковы (и неизвестно только одно: ${ displaystyle theta}$ который определяет P), но даже если это не так и модель, которую мы используем, неверно указана, MLE все равно даст нам «ближайшее» распределение (в пределах ограничения модели Q, которое зависит от ${ displaystyle { hat { theta}}}$ ) к реальному распределению ${ displaystyle P _ { theta _ {0}}}$ .^[24]

Доказательство.

Для простоты обозначений предположим, что P = Q. Пусть будет п i.i.d образец данных ${ Displaystyle mathbf {y} = (y_ {1}, y_ {2}, ldots, y_ {n})}$ с некоторой вероятностью ${ displaystyle y sim P _ { theta _ {0}}}$ , которую мы пытаемся оценить, найдя ${ displaystyle { hat { theta}}}$ это увеличит вероятность использования ${ displaystyle P _ { theta}}$ , тогда:

{ displaystyle { begin {align} { hat { theta}} & = { underset { theta} { operatorname {arg , max}}} , L_ {P _ { theta}} ( mathbf {y}) = { underset { theta} { operatorname {arg , max}}} , P _ { theta} ( mathbf {y}) = { underset { theta} { operatorname {arg , max}}} , P ( mathbf {y} | theta) & = { underset { theta} { operatorname {arg , max}}} , prod _ {i = 1 } ^ {n} P (y_ {i} | theta) = { underset { theta} { operatorname {arg , max}}} , sum _ {i = 1} ^ {n} log P (y_ {i} | theta) & = { underset { theta} { operatorname {arg , max}}} , left ( sum _ {i = 1} ^ {n} log P (y_ {i} | theta) - sum _ {i = 1} ^ {n} log P (y_ {i} | theta _ {0}) right) = { underset { theta } { operatorname {arg , max}}} , sum _ {i = 1} ^ {n} left ( log P (y_ {i} | theta) - log P (y_ {i} | theta _ {0}) right) & = { underset { theta} { operatorname {arg , max}}} , sum _ {i = 1} ^ {n} log { frac {P (y_ {i} | theta)} {P (y_ {i} | theta _ {0})}} = { underset { theta} { operatorname {arg , min}}} , sum _ {i = 1} ^ {n} log { frac {P (y_ {i} | theta _ {0})} {P (y_ {i} | theta)}} = { underset { theta} { operatorname {а rg , min}}} , { frac {1} {n}} sum _ {i = 1} ^ {n} log { frac {P (y_ {i} | theta _ {0}) )} {P (y_ {i} | theta)}} & = { underset { theta} { operatorname {arg , min}}} , { frac {1} {n}} sum _ {i = 1} ^ {n} h _ { theta} (y_ {i}) quad { underset {n to infty} { longrightarrow}} quad { underset { theta} { OperatorName {arg , min}}} , E [h _ { theta} (y)] & = { underset { theta} { operatorname {arg , min}}} , int P_ { theta _ {0}} (y) h (y) dy = { underset { theta} { operatorname {arg , min}}} , int P _ { theta _ {0}} (y) log { frac {P (y | theta _ {0})} {P (y | theta)}} dy & = { underset { theta} { operatorname {arg , min}} } , D _ { text {KL}} (P _ { theta _ {0}} parallel P _ { theta}) end {align}}}

куда ${ displaystyle h _ { theta} (x) = log { frac {P (x | theta _ {0})} {P (x | theta)}}}$ . С помощью час помогает увидеть, как мы используем закон больших чисел перейти от среднего ч (х) к ожидание из этого с помощью закон бессознательного статистика. Первые несколько переходов связаны с законами логарифм и это открытие ${ displaystyle { hat { theta}}}$ которая максимизирует некоторую функцию, также будет той, которая максимизирует некоторое монотонное преобразование этой функции (то есть: сложение / умножение на константу).

поскольку перекрестная энтропия просто Энтропия Шеннона плюс расхождение KL, а поскольку энтропия ${ displaystyle P _ { theta _ {0}}}$ постоянна, то MLE также асимптотически минимизирует кросс-энтропию.^[25]

Примеры

Дискретное равномерное распределение

Рассмотрим случай, когда п билеты пронумерованы от 1 до п помещаются в коробку и выбирается случайным образом (увидеть равномерное распределение); таким образом, размер выборки равен 1. Если п неизвестно, то оценка максимального правдоподобия ${ displaystyle { widehat {n}}}$ из п это число м по выписанному билету. (Вероятность равна 0 для п < м, ¹⁄_п для п ≥ м, и это лучше всего, когда п = м. Обратите внимание, что оценка максимального правдоподобия п происходит на нижнем пределе возможных значений {м, м + 1, ...}, а не где-то в «середине» диапазона возможных значений, что привело бы к меньшему смещению.) ожидаемое значение числа м на выписанном билете, и, следовательно, ожидаемая стоимость ${ displaystyle { widehat {n}}}$ , является (п + 1) / 2. В результате при размере выборки 1 оценка максимального правдоподобия для п будет систематически недооценивать п от (п − 1)/2.

Дискретное распределение, пространство с конечными параметрами

Предположим, кто-то хочет определить, насколько предвзято несправедливая монета является. Назовите вероятность подбрасывания "голова’ п. Затем цель состоит в том, чтобы определить п.

Предположим, монету подбросили 80 раз: т.е. образец может быть примерно таким Икс₁ = H, Икс₂ = Т, ..., Икс₈₀ = T, а подсчет количества головы Наблюдается "H".

Вероятность подбрасывания хвосты равно 1 -п (так вот п является θ над). Предположим, что результат - 49 голов и 31хвосты, и предположим, что монета была взята из коробки, содержащей три монеты: одна из которых дает орел с вероятностью п = ¹⁄₃, который дает орел с вероятностью п = ¹⁄₂ и другой, который дает головы с вероятностью п = ²⁄₃. Монеты потеряли свои этикетки, поэтому неизвестно, какая именно. Используя оценку максимального правдоподобия, можно найти монету с наибольшим правдоподобием, учитывая наблюдаемые данные. Используя функция массы вероятности из биномиальное распределение при размере выборки 80, количестве успешных попыток, равных 49, но для разных значений п («вероятность успеха») функция правдоподобия (определенная ниже) принимает одно из трех значений:

{ displaystyle { begin {align} operatorname {P} { big [} ; mathrm {H} = 49 mid p = { tfrac {1} {3}} ; { big]} & = { binom {80} {49}} ({ tfrac {1} {3}}) ^ {49} (1 - { tfrac {1} {3}}) ^ {31} приблизительно 0,000, [6pt] operatorname {P} { big [} ; mathrm {H} = 49 mid p = { tfrac {1} {2}} ; { big]} & = { binom { 80} {49}} ({ tfrac {1} {2}}) ^ {49} (1 - { tfrac {1} {2}}) ^ {31} приблизительно 0,012, [6pt] имя оператора {P} { big [} ; mathrm {H} = 49 mid p = { tfrac {2} {3}} ; { big]} & = { binom {80} {49} } ({ tfrac {2} {3}}) ^ {49} (1 - { tfrac {2} {3}}) ^ {31} приблизительно 0,054. end {align}}}

Вероятность максимальна, когда п = ²⁄₃, так что это оценка максимального правдоподобия дляп.

Дискретное распределение, непрерывное пространство параметров

Теперь предположим, что была только одна монета, но ее п могло быть любое значение 0 ≤ п ≤ 1. Максимизируемая функция правдоподобия равна

{ displaystyle L (p) = f_ {D} ( mathrm {H} = 49 mid p) = { binom {80} {49}} p ^ {49} (1-p) ^ {31}, }

а максимизация ведется по всем возможным значениям 0 ≤п ≤ 1.

функция правдоподобия для значения пропорции биномиального процесса (п = 10)

Один из способов максимизировать эту функцию - дифференцирующий относительно п и установив на ноль:

{ displaystyle { begin {align} 0 & = { frac { partial} { partial p}} left ({ binom {80} {49}} p ^ {49} (1-p) ^ {31 } right), [8pt] 0 & = 49p ^ {48} (1-p) ^ {31} -31p ^ {49} (1-p) ^ {30} [8pt] & = p ^ {48} (1-p) ^ {30} left [49 (1-p) -31p right] [8pt] & = p ^ {48} (1-p) ^ {30} left [ 49-80p right]. End {align}}}

Это продукт трех терминов. Первый член равен 0, когда п = 0. Второй равен 0, когда п = 1. Третий равен нулю, когда п = ⁴⁹⁄₈₀. Решение, которое максимизирует вероятность, очевидно п = ⁴⁹⁄₈₀ (поскольку п = 0 и п = 1 результат с вероятностью 0). Таким образом оценщик максимального правдоподобия для п это⁴⁹⁄₈₀.

Этот результат легко обобщить, подставив такую букву, как s вместо 49, чтобы представить наблюдаемое количество «успехов» наших Бернулли испытания, и букву, например п вместо 80, чтобы представить количество испытаний Бернулли. Точно такой же расчет дает^s⁄_п что является оценкой максимального правдоподобия для любой последовательности п Суды Бернулли, приведшие к s «успехи».

Непрерывное распределение, непрерывное пространство параметров

Для нормальное распределение ${ Displaystyle { mathcal {N}} ( mu, sigma ^ {2})}$ который имеет функция плотности вероятности

{ displaystyle f (x mid mu, sigma ^ {2}) = { frac {1} {{ sqrt {2 pi sigma ^ {2}}} }} exp left (- { frac {(x- mu) ^ {2}} {2 sigma ^ {2}}} right),}

соответствующий функция плотности вероятности для образца $п$ независимые одинаково распределенные нормальные случайные величины (вероятность) равна

{ Displaystyle f (x_ {1}, ldots, x_ {n} mid mu, sigma ^ {2}) = prod _ {i = 1} ^ {n} f (x_ {i} mid mu, sigma ^ {2}) = left ({ frac {1} {2 pi sigma ^ {2}}} right) ^ {n / 2} exp left (- { frac { sum _ {i = 1} ^ {n} (x_ {i} - mu) ^ {2}} {2 sigma ^ {2}}} right).}

Это семейство распределений имеет два параметра: $θ = (μ, σ)$ ; поэтому мы увеличиваем вероятность, ${ displaystyle { mathcal {L}} ( mu, sigma) = f (x_ {1}, ldots, x_ {n} mid mu, sigma)}$ , по обоим параметрам одновременно или, если возможно, по отдельности.

Поскольку логарифм сама функция является непрерывный строго возрастающий функционировать над ассортимент вероятности, значения, которые максимизируют вероятность, также максимизируют ее логарифм (само логарифм правдоподобия не обязательно строго возрастает). Логарифм правдоподобия можно записать следующим образом:

{ displaystyle log { Big (} { mathcal {L}} ( mu, sigma) { Big)} = - { frac {, n ,} {2}} log (2 pi sigma ^ {2}) - { frac {1} {2 sigma ^ {2}}} sum _ {i = 1} ^ {n} (, x_ {i} - mu ,) ^ {2}}

(Примечание: логарифмическая вероятность тесно связана с информационная энтропия и Информация Fisher.)

Теперь мы вычисляем производные этого логарифмического правдоподобия следующим образом.

{ Displaystyle { begin {align} 0 & = { frac { partial} { partial mu}} log { Big (} { mathcal {L}} ( mu, sigma) { Big) } = 0 - { frac {; - 2 ! N ({ bar {x}} - mu) ;} {2 sigma ^ {2}}}. End {align}}}

где ${ displaystyle { bar {x}}}$ это выборочное среднее. Это решается

{ displaystyle { widehat { mu}} = { bar {x}} = sum _ {i = 1} ^ {n} { frac {, x_ {i} ,} {n}}. }

Это действительно максимум функции, так как это единственный поворотный момент в $μ$ а вторая производная строго меньше нуля. это ожидаемое значение равен параметру $μ$ данного распределения,

{ displaystyle operatorname {E} { big [} ; { widehat { mu}} ; { big]} = mu, ,}

что означает, что оценка максимального правдоподобия ${ displaystyle { widehat { mu}}}$ беспристрастен.

Аналогичным образом дифференцируем логарифмическую правдоподобие относительно $σ$ и приравнять к нулю:

{ Displaystyle { begin {align} 0 & = { frac { partial} { partial sigma}} log { Big (} { mathcal {L}} ( mu, sigma) { Big) } = - { frac {, n ,} { sigma}} + { frac {1} { sigma ^ {3}}} sum _ {i = 1} ^ {n} (, x_ {i} - mu ,) ^ {2}. end {align}}}

который решается

{ displaystyle { widehat { sigma}} ^ {2} = { frac {1} {n}} sum _ {i = 1} ^ {n} (x_ {i} - mu) ^ {2 }.}

Вставка сметы ${ displaystyle mu = { widehat { mu}}}$ мы получаем

{ displaystyle { widehat { sigma}} ^ {2} = { frac {1} {n}} sum _ {i = 1} ^ {n} (x_ {i} - { bar {x}) }) ^ {2} = { frac {1} {n}} sum _ {i = 1} ^ {n} x_ {i} ^ {2} - { frac {1} {n ^ {2} }} sum _ {i = 1} ^ {n} sum _ {j = 1} ^ {n} x_ {i} x_ {j}.}

Чтобы вычислить его математическое ожидание, удобно переписать выражение в терминах случайных величин с нулевым средним (статистическая ошибка) ${ Displaystyle дельта _ {я} эквив му -x_ {я}}$ . Выражение оценки в этих переменных дает

{ displaystyle { widehat { sigma}} ^ {2} = { frac {1} {n}} sum _ {i = 1} ^ {n} ( mu - delta _ {i}) ^ {2} - { frac {1} {n ^ {2}}} sum _ {i = 1} ^ {n} sum _ {j = 1} ^ {n} ( mu - delta _ { i}) ( mu - delta _ {j}).}

Упрощая приведенное выше выражение, используя факты, которые ${ displaystyle operatorname {E} { big [} ; delta _ {i} ; { big]} = 0}$ и ${ displaystyle operatorname {E} { big [} ; delta _ {i} ^ {2} ; { big]} = sigma ^ {2}}$ , позволяет получить

{ displaystyle operatorname {E} { big [} ; { widehat { sigma}} ^ {2} ; { big]} = { frac {, n-1 ,} {n} } sigma ^ {2}.}

Это означает, что оценщик ${ displaystyle { widehat { sigma}}}$ предвзято. Однако, ${ displaystyle { widehat { sigma}}}$ согласуется.

Формально мы говорим, что оценщик максимального правдоподобия для ${ Displaystyle theta = ( му, sigma ^ {2})}$ является

{ displaystyle { widehat { theta ,}} = left ({ widehat { mu}}, { widehat { sigma}} ^ {2} right).}

В этом случае MLE могут быть получены индивидуально. В общем, это может быть не так, и MLE должны быть получены одновременно.

Нормальная логарифмическая вероятность в максимуме принимает особенно простую форму:

{ displaystyle log { Big (} { mathcal {L}} ({ widehat { mu}}, { widehat { sigma}}) { Big)} = { frac {, - п ; ;} {2}} { big (} , log (2 pi { widehat { sigma}} ^ {2}) + 1 , { big)}}

Можно показать, что это максимальное логарифмическое правдоподобие одинаково для более общих наименьших квадратов, даже для нелинейный метод наименьших квадратов. Это часто используется при определении приблизительного значения на основе правдоподобия. доверительные интервалы и регионы доверия, которые, как правило, более точны, чем те, которые используют асимптотическую нормальность, обсужденную выше.

Несамостоятельные переменные

Может случиться так, что переменные коррелированы, то есть не независимы. Две случайные величины ${ displaystyle y_ {1}}$ и ${ displaystyle y_ {2}}$ независимы, только если их совместная функция плотности вероятности является произведением отдельных функций плотности вероятности, т. е.

{ Displaystyle f (y_ {1}, y_ {2}) = f (y_ {1}) f (y_ {2}) ,}

Предположим, кто-то строит порядок -п Гауссов вектор из случайных величин ${ displaystyle (y_ {1}, ldots, y_ {n})}$ , где каждая переменная имеет средние значения ${ Displaystyle ( му _ {1}, ldots, му _ {п})}$ . Кроме того, пусть ковариационная матрица обозначать ${ Displaystyle { mathit { Sigma}}}$ . Совместная функция плотности вероятности этих п случайных величин тогда следует многомерное нормальное распределение предоставлено:

{ displaystyle f (y_ {1}, ldots, y_ {n}) = { frac {1} {(2 pi) ^ {n / 2} { sqrt { det ({ mathit { Sigma }})}}}} exp left (- { frac {1} {2}} left [y_ {1} - mu _ {1}, ldots, y_ {n} - mu _ { n} right] { mathit { Sigma}} ^ {- 1} left [y_ {1} - mu _ {1}, ldots, y_ {n} - mu _ {n} right] ^ { mathrm {T}} right)}

в двумерный В этом случае совместная функция плотности вероятности определяется выражением:

{ displaystyle f (y_ {1}, y_ {2}) = { frac {1} {2 pi sigma _ {1} sigma _ {2} { sqrt {1- rho ^ {2} }}}} exp left [- { frac {1} {2 (1- rho ^ {2})}} left ({ frac {(y_ {1} - mu _ {1}) ^ {2}} { sigma _ {1} ^ {2}}} - { frac {2 rho (y_ {1} - mu _ {1}) (y_ {2} - mu _ {2 })} { sigma _ {1} sigma _ {2}}} + { frac {(y_ {2} - mu _ {2}) ^ {2}} { sigma _ {2} ^ { 2}}} right) right]}

В этом и других случаях, когда существует совместная функция плотности, функция правдоподобия определяется, как указано выше, в разделе "принципы, "используя эту плотность.

пример

${ Displaystyle X_ {1}, X_ {2}, ldots, X_ {m}}$ - счета в ячейках / ящиках от 1 до m; каждая коробка имеет разную вероятность (представьте, что коробки больше или меньше), и мы фиксируем количество падающих шариков, ${ displaystyle n}$ : ${ displaystyle x_ {1} + x_ {2} + cdots + x_ {m} = n}$ . Вероятность каждой коробки равна ${ displaystyle p_ {i}}$ , с ограничением: ${ displaystyle p_ {1} + p_ {2} + cdots + p_ {m} = 1}$ . Это тот случай, когда ${ displaystyle X_ {i}}$ s не являются независимыми, совместная вероятность вектора ${ Displaystyle x_ {1}, x_ {2}, ldots, x_ {m}}$ называется полиномом и имеет вид:

{ displaystyle f (x_ {1}, x_ {2}, ldots, x_ {m} mid p_ {1}, p_ {2}, ldots, p_ {m}) = { frac {n!} { Pi x_ {i}!}} Pi p_ {i} ^ {x_ {i}} = { binom {n} {x_ {1}, x_ {2}, ldots, x_ {m}}} p_ {1} ^ {x_ {1}} p_ {2} ^ {x_ {2}} cdots p_ {m} ^ {x_ {m}}}

Каждый ящик, взятый отдельно от всех остальных, является биномом, и это его продолжение.

Логарифмическая вероятность этого:

{ displaystyle ell (p_ {1}, p_ {2}, ldots, p_ {m}) = log n! - sum _ {i = 1} ^ {m} log x_ {i}! + sum _ {i = 1} ^ {m} x_ {i} log p_ {i}}

Ограничение необходимо учитывать и использовать множители Лагранжа:

{ displaystyle L (p_ {1}, p_ {2}, ldots, p_ {m}, lambda) = ell (p_ {1}, p_ {2}, ldots, p_ {m}) + лямбда left (1- sum _ {i = 1} ^ {m} p_ {i} right)}

Положив все производные равными 0, получим наиболее естественную оценку

{ displaystyle { hat {p}} _ {i} = { frac {x_ {i}} {n}}}

Максимальное увеличение вероятности ведения журнала с ограничениями и без них может быть неразрешимой проблемой в закрытой форме, тогда мы должны использовать итерационные процедуры.

Итерационные процедуры

За исключением особых случаев, уравнения правдоподобия

{ displaystyle { frac { partial ell ( theta; mathbf {y})} { partial theta}} = 0}

не может быть решена явно для оценки ${ displaystyle { widehat { theta}} = { widehat { theta}} ( mathbf {y})}$ . Вместо этого их нужно решить итеративно: начиная с первоначального предположения о ${ displaystyle theta}$ (сказать ${ displaystyle { widehat { theta}} _ {1}}$ ) стремятся получить сходящуюся последовательность ${ displaystyle left {{ widehat { theta}} _ {r} right }}$ . Многие методы для этого вида проблема оптимизации доступны,^[26]^[27] но наиболее часто используются алгоритмы, основанные на формуле обновления вида

{ displaystyle { widehat { theta}} _ {r + 1} = { widehat { theta}} _ {r} + eta _ {r} mathbf {d} _ {r} left ({ widehat { theta}} right)}

где вектор ${ displaystyle mathbf {d} _ {r} left ({ widehat { theta}} right)}$ указывает на направление спуска из рй "шаг", а скаляр ${ displaystyle eta _ {r}}$ фиксирует «длину шага»,^[28]^[29] также известный как скорость обучения.^[30]

Градиентный спуск метод

(Примечание: здесь это проблема максимизации, поэтому знак перед градиентом переворачивается)

{ displaystyle eta _ {r} in mathbb {R} ^ {+}}

это достаточно мало для сходимости и

{ displaystyle mathbf {d} _ {r} left ({ widehat { theta}} right) = nabla ell left ({ widehat { theta}} _ {r}; mathbf { y} right)}

Метод градиентного спуска требует вычисления градиента на r-й итерации, но нет необходимости вычислять обратную производную второго порядка, то есть матрицу Гессе. Следовательно, он в вычислительном отношении быстрее, чем метод Ньютона-Рафсона.

Метод Ньютона – Рафсона

{ displaystyle eta _ {r} = 1}

и

{ displaystyle mathbf {d} _ {r} left ({ widehat { theta}} right) = - mathbf {H} _ {r} ^ {- 1} left ({ widehat { theta}} right) mathbf {s} _ {r} left ({ widehat { theta}} right)}

где ${ displaystyle mathbf {s} _ {r} ({ widehat { theta}})}$ это Гол и ${ displaystyle mathbf {H} _ {r} ^ {- 1} left ({ widehat { theta}} right)}$ это обратный из Матрица Гессе функции логарифма правдоподобия, оба оценили рй итерация.^[31]^[32] Но поскольку вычисление матрицы Гессе вычислительно затратныйбыли предложены многочисленные альтернативы. Популярные Алгоритм Берндта – Холла – Холла – Хаусмана аппроксимирует гессиан с внешний продукт ожидаемого градиента, так что

{ displaystyle mathbf {d} _ {r} left ({ widehat { theta}} right) = - left [{ frac {1} {n}} sum _ {t = 1} ^ {n} { frac { partial ell ( theta; mathbf {y})} { partial theta}} left ({ frac { partial ell ( theta; mathbf {y}) } { partial theta}} right) ^ { mathsf {T}} right] ^ {- 1} mathbf {s} _ {r} left ({ widehat { theta}} right) }

Квазиньютоновские методы

В других квазиньютоновских методах используются более сложные обновления секущей для аппроксимации матрицы Гессе.

Формула Дэвидона – Флетчера – Пауэлла

Формула DFP находит решение, которое является симметричным, положительно определенным и наиболее близким к текущему приблизительному значению производной второго порядка:

{ displaystyle mathbf {H} _ {k + 1} = left (I- gamma _ {k} y_ {k} s_ {k} ^ { mathsf {T}} right) mathbf {H} _ {k} left (I- gamma _ {k} s_ {k} y_ {k} ^ { mathsf {T}} right) + gamma _ {k} y_ {k} y_ {k} ^ { mathsf {T}},}

где

{ displaystyle y_ {k} = nabla ell (x_ {k} + s_ {k}) - nabla ell (x_ {k}),}

{ displaystyle gamma _ {k} = { frac {1} {y_ {k} ^ {T} s_ {k}}},}

{ displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

Алгоритм Бройдена – Флетчера – Гольдфарба – Шенно

BFGS также дает решение, которое является симметричным и положительно определенным:

{ displaystyle B_ {k + 1} = B_ {k} + { frac {y_ {k} y_ {k} ^ { mathsf {T}}} {y_ {k} ^ { mathsf {T}} s_ {k}}} - { frac {B_ {k} s_ {k} s_ {k} ^ { mathsf {T}} B_ {k} ^ { mathsf {T}}} {s_ {k} ^ { mathsf {T}} B_ {k} s_ {k}}} ,}

где

{ displaystyle y_ {k} = nabla ell (x_ {k} + s_ {k}) - nabla ell (x_ {k}),}

{ displaystyle s_ {k} = x_ {k + 1} -x_ {k}.}

Метод BFGS не гарантирует сходимости, если функция не имеет квадратичного Расширение Тейлора около оптимума. Однако BFGS может иметь приемлемую производительность даже для экземпляров неплавной оптимизации.

Оценка Фишера

Еще один популярный метод - замена гессиана на Информационная матрица Fisher, ${ Displaystyle { mathcal {I}} ( theta) = mathrm {E} left [ mathbf {H} _ {r} left ({ widehat { theta}} right) right]}$ , давая нам алгоритм оценки Фишера. Эта процедура является стандартной при оценке многих методов, таких как обобщенные линейные модели.

Несмотря на свою популярность, квазиньютоновские методы могут сходиться к стационарная точка это не обязательно локальный или глобальный максимум,^[33] а скорее местный минимум или точка перевала. Следовательно, важно оценить достоверность полученного решения уравнений правдоподобия, проверив, что гессиан, вычисленный в решении, является как отрицательно определенный и хорошо кондиционированный.^[34]

История

Рональд Фишер в 1913 году

Ранние пользователи с максимальной вероятностью были Карл Фридрих Гаусс, Пьер-Симон Лаплас, Торвальд Н. Тиле, и Фрэнсис Исидро Эджворт.^[35]^[36] Однако его широкое распространение возросло между 1912 и 1922 годами, когда Рональд Фишер рекомендованная, широко популяризируемая и тщательно проанализированная оценка максимального правдоподобия (с бесплодными попытками доказательства).^[37]

Оценка максимального правдоподобия наконец вышла за рамки эвристического обоснования в доказательстве, опубликованном Сэмюэл С. Уилкс в 1938 году, сейчас называется Теорема Уилкса.^[38] Теорема показывает, что ошибка логарифма значений правдоподобия для оценок из нескольких независимых наблюдений асимптотически χ²-распределенный, что позволяет удобно определять область доверия вокруг любой оценки параметров. Единственная сложная часть WilksДоказательство зависит от ожидаемой стоимости Информация Fisher матрица, которая обеспечивается теоремой, доказанной Фишер.^[39] Уилкс продолжал улучшать общность теоремы на протяжении всей своей жизни, и его наиболее общее доказательство было опубликовано в 1962 году.^[40]

Обзоры разработки метода максимального правдоподобия предоставлены рядом авторов.^[41]^[42]^[43]^[44]^[45]^[46]^[47]^[48]

Смотрите также

Другие методы оценки

Обобщенный метод моментов методы, связанные с уравнением правдоподобия при оценке максимального правдоподобия
М-оценка, подход, используемый в надежной статистике
Максимум апостериори (MAP) оценка, для контраста в способе вычисления оценок, когда постулируется предварительное знание
Оценка максимального интервала, связанный метод, который более надежен во многих ситуациях
Оценка максимальной энтропии
Метод моментов (статистика), еще один популярный метод нахождения параметров распределений
Метод поддержки, вариант метода максимального правдоподобия
Оценка минимального расстояния
Методы частичного правдоподобия для панельных данных
Квази-максимальное правдоподобие оценщик, оценщик MLE, который неправильно указан, но все еще согласован
Ограниченная максимальная вероятность, вариант с использованием функции правдоподобия, рассчитанной на основе преобразованного набора данных.

Связанные понятия

Информационный критерий Акаике, критерий сравнения статистических моделей, основанный на MLE
Экстремальная оценка, более общий класс оценок, к которому принадлежит MLE
Информация Fisher, информационная матрица, ее связь с ковариационной матрицей оценок ML
Среднеквадратичная ошибка, мера того, насколько `` хороша '' оценка параметра распределения (будь то оценка максимального правдоподобия или какая-либо другая оценка)
RANSAC, метод оценки параметров математической модели по данным, содержащим выбросы
Теорема Рао – Блэквелла, что дает процесс нахождения наилучшей возможной несмещенной оценки (в смысле наличия минимального среднеквадратичная ошибка); MLE часто является хорошей отправной точкой для процесса
Теорема Уилкса обеспечивает средства оценки размера и формы области примерно равновероятных оценок значений параметров совокупности, используя информацию из одной выборки, используя распределение хи-квадрат

использованная литература

^ Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на правдоподобии. Нью-Йорк: Джон Вили и сыновья. п. 227. ISBN 978-1-118-77104-4.
^ Хендри, Дэвид Ф.; Нильсен, Бент (2007). Эконометрическое моделирование: подход вероятности. Принстон: Издательство Принстонского университета. ISBN 978-0-691-13128-3.
^ Chambers, Raymond L .; Steel, David G .; Ван, Суджин; Валлийский, Алан (2012). Оценка максимального правдоподобия для выборочных обследований. Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7.
^ Уорд, Майкл Дон; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа. Нью-Йорк: Издательство Кембриджского университета. ISBN 978-1-107-18582-1.
^ Press, W. H .; Flannery, B.P .; Теукольский, С. А .; Веттерлинг, В. Т. (1992). «Наименьшие квадраты как оценка максимального правдоподобия». Числовые рецепты в FORTRAN: искусство научных вычислений (2-е изд.). Кембридж: Издательство Кембриджского университета. С. 651–655. ISBN 0-521-43064-X.
^ ^а ^б Мён, И. Дж. (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии. 47 (1): 90–100. Дои:10.1016 / S0022-2496 (02) 00028-7.
^ Гурье, Кристиан; Монфорт, Ален (1995). Статистические и эконометрические модели. Издательство Кембриджского университета. п.161. ISBN 0-521-40551-3.
^ Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика. Нью-Йорк: Харпер и Роу. п.179.
^ Смолл, Кристопер Дж .; Ван, Цзиньфан (2003). «Работа с корнями». Численные методы для нелинейных оценочных уравнений.. Издательство Оксфордского университета. С. 74–124. ISBN 0-19-850688-0.
^ Касс, Роберт Э .; Вос, Пол В. (1997). Геометрические основы асимптотического вывода. Нью-Йорк: Джон Вили и сыновья. п. 14. ISBN 0-471-82668-5.
^ Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log () перед объединенным PDF-файлом, когда мы используем MLE (оценка максимального правдоподобия)?». Обмен стеком.
^ ^а ^б Силви, С. Д. (1975). Статистические выводы. Лондон: Чепмен и Холл. п. 79. ISBN 0-412-13820-4.
^ Олив, Дэвид (2004). "Максимизирует ли MLE вероятность?" (PDF). Цитировать журнал требует | журнал = (Помогите)
^ Швалли, Дэниел П. (1985). "Положительно определенные оценки ковариации максимального правдоподобия". Письма по экономике. 17 (1–2): 115–117. Дои:10.1016/0165-1765(85)90139-9.
^ Магнус, Ян Р. (2017). Введение в теорию эконометрики. Амстердам: Издательство Университета ВУ. С. 64–65. ISBN 978-90-8659-766-6.
^ Пфанзагль (1994 г., п. 206)
^ По теореме 2.5 в Ньюи, Уитни К .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, том 4. Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.
^ ^а ^б По теореме 3.3 в Ньюи, Уитни К .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, том 4. Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.
^ Закс, Шелемяху (1971). Теория статистического вывода. Нью-Йорк: Джон Вили и сыновья. п. 223. ISBN 0-471-98103-6.
^ См. Формулу 20 в Кокс, Дэвид Р.; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, серия B. 30 (2): 248–275. JSTOR 2984505.
^ Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка». Журнал Японского статистического общества. 26: 101–117. Дои:10.14490 / jjss1995.26.101.
^ Кристенсен, Хенрик И., Байесовская теория принятия решений - CS 7616 - Распознавание образов (PDF) (презентация)
^ cmplx96 (https://stats.stackexchange.com/users/177679/cmplx96), Расхождение Кульбака – Лейблера, URL (версия: 18.11.2017): https://stats.stackexchange.com/q/314472 (на видео на YouTube смотрите минуты с 13 по 25)
^ Введение в статистический вывод | Стэнфорд (Лекция 16 - MLE при неправильной спецификации модели)
^ Sycorax говорит Reinstate Monica (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica), взаимосвязь между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11-06): https://stats.stackexchange.com/q/364237
^ Флетчер Р. (1987). Практические методы оптимизации (Второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN 0-471-91547-5.
^ Нокедаль, Хорхе; Райт, Стивен Дж. (2006). Численная оптимизация (Второе изд.). Нью-Йорк: Спрингер. ISBN 0-387-30303-0.
^ Даганзо, Карлос (1979). Мультиномиальный пробит: теория и ее применение для прогнозирования спроса. Нью-Йорк: Academic Press. С. 61–78. ISBN 0-12-201150-3.
^ Гулд, Уильям; Питбладо, Джеффри; Пои, Брайан (2010). Оценка максимального правдоподобия с помощью Stata (Четвертое изд.). Колледж-Стейшн: Stata Press. С. 13–20. ISBN 978-1-59718-078-8.
^ Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива. Кембридж: MIT Press. п. 247. ISBN 978-0-262-01802-9.
^ Амемия, Такеши (1985). Продвинутая эконометрика. Кембридж: Издательство Гарвардского университета. стр.137–138. ISBN 0-674-00560-0.
^ Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по продвинутой эконометрической теории. Оксфорд: Бэзил Блэквелл. С. 161–169. ISBN 0-631-14956-2.
^ См. Теорему 10.1 в Авриэль, Мардохей (1976). Нелинейное программирование: анализ и методы.. Энглвудские скалы: Прентис-Холл. С. 293–294. ISBN 9780486432274.
^ Gill, Philip E .; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация. Лондон: Academic Press. стр.312–313. ISBN 0-12-283950-1.
^ Эджворт, Фрэнсис Ю. (Сентябрь 1908 г.). «О возможных ошибках частотных постоянных». Журнал Королевского статистического общества. 71 (3): 499–512. Дои:10.2307/2339293. JSTOR 2339293.
^ Эджворт, Фрэнсис Ю. (декабрь 1908 г.). «О возможных ошибках частотных постоянных». Журнал Королевского статистического общества. 71 (4): 651–678. Дои:10.2307/2339378. JSTOR 2339378.
^ Pfanzagl, Johann, при содействии Р. Хамбёкера (1994). Параметрическая статистическая теория. Вальтер де Грюйтер. С. 207–208. ISBN 978-3-11-013863-4.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Уилкс, С. С. (1938). "Распределение отношения правдоподобия по большой выборке для проверки составных гипотез". Анналы математической статистики. 9: 60–62. Дои:10.1214 / aoms / 1177732360.
^ Оуэн, Арт Б. (2001). Эмпирическое правдоподобие. Лондон: Chapman & Hall / Boca Raton, FL: CRC Press. ISBN 978-1584880714.
^ Уилкс, Сэмюэл С. (1962), Математическая статистика, Нью-Йорк: John Wiley & Sons. ISBN 978-0471946502.
^ Сэвидж, Леонард Дж. (1976). «О перечитывании Р. А. Фишера». Анналы статистики. 4 (3): 441–500. Дои:10.1214 / aos / 1176343456. JSTOR 2958221.
^ Пратт, Джон В. (1976). "Ф. И. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия". Анналы статистики. 4 (3): 501–514. Дои:10.1214 / aos / 1176343457. JSTOR 2958222.
^ Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, серия A. 141 (3): 287–322. Дои:10.2307/2344804. JSTOR 2344804.
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Издательство Гарвардского университета. ISBN 978-0-674-40340-6.
^ Стиглер, Стивен М. (1999). Статистика на столе: история статистических концепций и методов. Издательство Гарвардского университета. ISBN 978-0-674-83601-3.
^ Халд, Андерс (1998). История математической статистики с 1750 по 1930 год. Нью-Йорк, штат Нью-Йорк: Wiley. ISBN 978-0-471-17912-2.
^ Халд, Андерс (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам». Статистическая наука. 14 (2): 214–222. Дои:10.1214 / сс / 1009212248. JSTOR 2676741.
^ Олдрич, Джон (1997). "Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.". Статистическая наука. 12 (3): 162–176. Дои:10.1214 / сс / 1030037906. Г-Н 1617519.

дальнейшее чтение

Крамер, Дж. С. (1986). Эконометрические применения методов максимального правдоподобия. Нью-Йорк: Издательство Кембриджского университета. ISBN 0-521-25317-9.
Элиасон, Скотт Р. (1993). Оценка максимального правдоподобия: логика и практика. Ньюбери Парк: Сейдж. ISBN 0-8039-4107-2.
Кинг, Гэри (1989). Объединяющая политическая методология: теория вероятности статистического вывода. Издательство Кембриджского университета. ISBN 0-521-36697-6.
Ле Кам, Люсьен (1990). «Максимальная вероятность: Введение». Обзор ISI. 58 (2): 153–171. JSTOR 1403464.
Магнус, Ян Р. (2017). «Максимальное правдоподобие». Введение в теорию эконометрики. Амстердам: Издательство Университета ВУ. С. 53–68. ISBN 978-90-8659-766-6.
Миллар, Рассел Б. (2011). Оценка и вывод максимального правдоподобия. Хобокен: Вайли. ISBN 978-0-470-09482-2.
Пиклз, Эндрю (1986). Введение в анализ правдоподобия. Норвич: W. H. Hutchins & Sons. ISBN 0-86094-190-6.
Северини, Томас А. (2000). Методы правдоподобия в статистике. Нью-Йорк: Издательство Оксфордского университета. ISBN 0-19-850650-3.
Уорд, Майкл Д.; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа. Издательство Кембриджского университета. ISBN 978-1-316-63682-4.

внешние ссылки

«Метод максимального правдоподобия», Энциклопедия математики, EMS Press, 2001 [1994]
Перселл, С. «Оценка максимального правдоподобия».
Сарджент, Томас; Стахурский, Джон. «Оценка максимального правдоподобия». Количественная экономика с Python.
Тумет, Отт; Хеннингсен, Арне (19 мая 2019 г.). «maxLik: пакет для оценки максимального правдоподобия в R».

[1] Росси, Ричард Дж. (2018). Математическая статистика: введение в вывод, основанный на правдоподобии. Нью-Йорк: Джон Вили и сыновья. п. 227. ISBN 978-1-118-77104-4.

[2] Хендри, Дэвид Ф.; Нильсен, Бент (2007). Эконометрическое моделирование: подход вероятности. Принстон: Издательство Принстонского университета. ISBN 978-0-691-13128-3.

[3] Chambers, Raymond L .; Steel, David G .; Ван, Суджин; Валлийский, Алан (2012). Оценка максимального правдоподобия для выборочных обследований. Бока-Ратон: CRC Press. ISBN 978-1-58488-632-7.

[4] Уорд, Майкл Дон; Алквист, Джон С. (2018). Максимальное правдоподобие для социальных наук: стратегии анализа. Нью-Йорк: Издательство Кембриджского университета. ISBN 978-1-107-18582-1.

[5] Press, W. H .; Flannery, B.P .; Теукольский, С. А .; Веттерлинг, В. Т. (1992). «Наименьшие квадраты как оценка максимального правдоподобия». Числовые рецепты в FORTRAN: искусство научных вычислений (2-е изд.). Кембридж: Издательство Кембриджского университета. С. 651–655. ISBN 0-521-43064-X.

[:0-6] а ^б Мён, И. Дж. (2003). «Учебное пособие по оценке максимального правдоподобия». Журнал математической психологии. 47 (1): 90–100. Дои:10.1016 / S0022-2496 (02) 00028-7.

[7] Гурье, Кристиан; Монфорт, Ален (1995). Статистические и эконометрические модели. Издательство Кембриджского университета. п.161. ISBN 0-521-40551-3.

[8] Кейн, Эдвард Дж. (1968). Экономическая статистика и эконометрика. Нью-Йорк: Харпер и Роу. п.179.

[9] Смолл, Кристопер Дж .; Ван, Цзиньфан (2003). «Работа с корнями». Численные методы для нелинейных оценочных уравнений.. Издательство Оксфордского университета. С. 74–124. ISBN 0-19-850688-0.

[10] Касс, Роберт Э .; Вос, Пол В. (1997). Геометрические основы асимптотического вывода. Нью-Йорк: Джон Вили и сыновья. п. 14. ISBN 0-471-82668-5.

[11] Пападопулос, Алекос (25 сентября 2013 г.). «Почему мы всегда помещаем log () перед объединенным PDF-файлом, когда мы используем MLE (оценка максимального правдоподобия)?». Обмен стеком.

[Silvey_p79-12] а ^б Силви, С. Д. (1975). Статистические выводы. Лондон: Чепмен и Холл. п. 79. ISBN 0-412-13820-4.

[13] Олив, Дэвид (2004). "Максимизирует ли MLE вероятность?" (PDF). Цитировать журнал требует | журнал = (Помогите)

[14] Швалли, Дэниел П. (1985). "Положительно определенные оценки ковариации максимального правдоподобия". Письма по экономике. 17 (1–2): 115–117. Дои:10.1016/0165-1765(85)90139-9.

[15] Магнус, Ян Р. (2017). Введение в теорию эконометрики. Амстердам: Издательство Университета ВУ. С. 64–65. ISBN 978-90-8659-766-6.

[16] Пфанзагль (1994 г., п. 206)

[17] По теореме 2.5 в Ньюи, Уитни К .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, том 4. Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.

[:1-18] а ^б По теореме 3.3 в Ньюи, Уитни К .; Макфадден, Дэниел (1994). «Глава 36: Оценка большой выборки и проверка гипотез». In Engle, Роберт; Макфадден, Дэн (ред.). Справочник по эконометрике, том 4. Elsevier Science. С. 2111–2245. ISBN 978-0-444-88766-5.

[19] Закс, Шелемяху (1971). Теория статистического вывода. Нью-Йорк: Джон Вили и сыновья. п. 223. ISBN 0-471-98103-6.

[20] См. Формулу 20 в Кокс, Дэвид Р.; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, серия B. 30 (2): 248–275. JSTOR 2984505.

[21] Кано, Ютака (1996). «Эффективность третьего порядка подразумевает эффективность четвертого порядка». Журнал Японского статистического общества. 26: 101–117. Дои:10.14490 / jjss1995.26.101.

[22] Кристенсен, Хенрик И., Байесовская теория принятия решений - CS 7616 - Распознавание образов (PDF) (презентация)

[23] x96 (https://stats.stackexchange.com/users/177679/cmplx96), Расхождение Кульбака – Лейблера, URL (версия: 18.11.2017): https://stats.stackexchange.com/q/314472 (на видео на YouTube смотрите минуты с 13 по 25)

[24] Введение в статистический вывод | Стэнфорд (Лекция 16 - MLE при неправильной спецификации модели)

[25] Sycorax говорит Reinstate Monica (https://stats.stackexchange.com/users/22311/sycorax-says-reinstate-monica), взаимосвязь между максимизацией вероятности и минимизацией перекрестной энтропии, URL (версия: 2019-11-06): https://stats.stackexchange.com/q/364237

[26] Флетчер Р. (1987). Практические методы оптимизации (Второе изд.). Нью-Йорк: Джон Вили и сыновья. ISBN 0-471-91547-5.

[27] Нокедаль, Хорхе; Райт, Стивен Дж. (2006). Численная оптимизация (Второе изд.). Нью-Йорк: Спрингер. ISBN 0-387-30303-0.

[28] Даганзо, Карлос (1979). Мультиномиальный пробит: теория и ее применение для прогнозирования спроса. Нью-Йорк: Academic Press. С. 61–78. ISBN 0-12-201150-3.

[29] Гулд, Уильям; Питбладо, Джеффри; Пои, Брайан (2010). Оценка максимального правдоподобия с помощью Stata (Четвертое изд.). Колледж-Стейшн: Stata Press. С. 13–20. ISBN 978-1-59718-078-8.

[30] Мерфи, Кевин П. (2012). Машинное обучение: вероятностная перспектива. Кембридж: MIT Press. п. 247. ISBN 978-0-262-01802-9.

[31] Амемия, Такеши (1985). Продвинутая эконометрика. Кембридж: Издательство Гарвардского университета. стр.137–138. ISBN 0-674-00560-0.

[32] Сарган, Денис (1988). «Методы численной оптимизации». Конспект лекций по продвинутой эконометрической теории. Оксфорд: Бэзил Блэквелл. С. 161–169. ISBN 0-631-14956-2.

[33] См. Теорему 10.1 в Авриэль, Мардохей (1976). Нелинейное программирование: анализ и методы.. Энглвудские скалы: Прентис-Холл. С. 293–294. ISBN 9780486432274.

[34] Gill, Philip E .; Мюррей, Уолтер; Райт, Маргарет Х. (1981). Практическая оптимизация. Лондон: Academic Press. стр.312–313. ISBN 0-12-283950-1.

[35] Эджворт, Фрэнсис Ю. (Сентябрь 1908 г.). «О возможных ошибках частотных постоянных». Журнал Королевского статистического общества. 71 (3): 499–512. Дои:10.2307/2339293. JSTOR 2339293.

[36] Эджворт, Фрэнсис Ю. (декабрь 1908 г.). «О возможных ошибках частотных постоянных». Журнал Королевского статистического общества. 71 (4): 651–678. Дои:10.2307/2339378. JSTOR 2339378.

[Pfanzagl-37] Pfanzagl, Johann, при содействии Р. Хамбёкера (1994). Параметрическая статистическая теория. Вальтер де Грюйтер. С. 207–208. ISBN 978-3-11-013863-4.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[38] Уилкс, С. С. (1938). "Распределение отношения правдоподобия по большой выборке для проверки составных гипотез". Анналы математической статистики. 9: 60–62. Дои:10.1214 / aoms / 1177732360.

[39] Оуэн, Арт Б. (2001). Эмпирическое правдоподобие. Лондон: Chapman & Hall / Boca Raton, FL: CRC Press. ISBN 978-1584880714.

[40] Уилкс, Сэмюэл С. (1962), Математическая статистика, Нью-Йорк: John Wiley & Sons. ISBN 978-0471946502.

[41] Сэвидж, Леонард Дж. (1976). «О перечитывании Р. А. Фишера». Анналы статистики. 4 (3): 441–500. Дои:10.1214 / aos / 1176343456. JSTOR 2958221.

[42] Пратт, Джон В. (1976). "Ф. И. Эджворт и Р. А. Фишер об эффективности оценки максимального правдоподобия". Анналы статистики. 4 (3): 501–514. Дои:10.1214 / aos / 1176343457. JSTOR 2958222.

[43] Стиглер, Стивен М. (1978). «Фрэнсис Исидро Эджворт, статистик». Журнал Королевского статистического общества, серия A. 141 (3): 287–322. Дои:10.2307/2344804. JSTOR 2344804.

[44] Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Издательство Гарвардского университета. ISBN 978-0-674-40340-6.

[45] Стиглер, Стивен М. (1999). Статистика на столе: история статистических концепций и методов. Издательство Гарвардского университета. ISBN 978-0-674-83601-3.

[46] Халд, Андерс (1998). История математической статистики с 1750 по 1930 год. Нью-Йорк, штат Нью-Йорк: Wiley. ISBN 978-0-471-17912-2.

[47] Халд, Андерс (1999). «Об истории максимального правдоподобия по отношению к обратной вероятности и наименьшим квадратам». Статистическая наука. 14 (2): 214–222. Дои:10.1214 / сс / 1009212248. JSTOR 2676741.

[48] Олдрич, Джон (1997). "Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.". Статистическая наука. 12 (3): 162–176. Дои:10.1214 / сс / 1030037906. Г-Н 1617519.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

Navigation