WikiDer > Оценка максимального интервала

Maximum spacing estimation
Метод максимального интервала пытается найти такую ​​функцию распределения, чтобы интервалы, D(я), все примерно одинаковой длины. Это достигается за счет максимального увеличения их среднее геометрическое.

В статистика, оценка максимального интервала (MSE или же MSP), или же максимальный продукт оценки расстояния (MPS), - метод оценки параметров одномерного статистическая модель.[1] Метод требует максимизации среднее геометрическое из интервалы в данных, которые представляют собой различия между значениями кумулятивная функция распределения в соседних точках данных.

Концепция, лежащая в основе метода, основана на интегральное преобразование вероятности, в том, что набор независимых случайных выборок, полученных из любой случайной величины, должен в среднем быть равномерно распределен относительно кумулятивной функции распределения случайной величины. Метод MPS выбирает значения параметров, которые делают наблюдаемые данные как можно более однородными, в соответствии с определенной количественной мерой однородности.

Один из наиболее распространенных методов оценки параметров распределения по данным, метод максимальная вероятность (MLE) может давать сбой в различных случаях, например, при использовании определенных смесей непрерывных распределений.[2] В этих случаях может оказаться успешным метод оценки максимального интервала.

Помимо использования в чистой математике и статистике, сообщалось о пробных применениях метода с использованием данных из таких областей, как гидрология,[3] эконометрика,[4] магнитно-резонансная томография,[5] и другие.[6]

История и использование

Метод MSE был разработан независимо Расселом Ченгом и Ником Амином в Институт науки и технологий Уэльского университета, и Бо Раннеби в Шведский университет сельскохозяйственных наук.[2] Авторы пояснили, что из-за интегральное преобразование вероятности при истинном параметре «интервал» между каждым наблюдением должен быть равномерно распределен. Это означало бы, что разница между значениями кумулятивная функция распределения при последовательных наблюдениях должны быть равны. Это тот случай, который максимизирует среднее геометрическое таких расстояний, поэтому решение для параметров, которые максимизируют среднее геометрическое, приведет к «наилучшему» соответствию, как определено таким образом. Раннеби (1984) обосновали метод, продемонстрировав, что это оценка Дивергенция Кульбака – Лейблера, похожий на оценка максимального правдоподобия, но с более надежными свойствами для некоторых классов задач.

Существуют определенные распределения, особенно с тремя и более параметрами, у которых вероятность может стать бесконечным на определенных путях в пространство параметров. Использование максимального правдоподобия для оценки этих параметров часто приводит к сбоям, когда один параметр стремится к определенному значению, которое приводит к бесконечности вероятности, что делает другие параметры несовместимыми. Однако метод максимальных интервалов, зависящий от разницы между точками кумулятивной функции распределения, а не индивидуальных точек правдоподобия, не имеет этой проблемы и будет возвращать достоверные результаты по гораздо более широкому набору распределений.[1]

Распределения, которые, как правило, имеют проблемы с вероятностью, часто используются для моделирования физических явлений. Холл и др. (2004) стремятся анализировать методы смягчения последствий наводнений, что требует точных моделей воздействия наводнений на реки. Распределения, которые лучше моделируют эти эффекты, представляют собой трехпараметрические модели, которые страдают от проблемы бесконечного правдоподобия, описанной выше, что привело к исследованию Холлом процедуры максимального разнесения. Вонг и Ли (2006), при сравнении метода с максимальной вероятностью используйте различные наборы данных, начиная от набора самых старых возрастов смерти в Швеции между 1905 и 1958 годами до набора, содержащего максимальные годовые скорости ветра.

Определение

Учитывая iid случайный пример {Икс1, ..., Иксп} размера п из одномерное распределение с непрерывной кумулятивной функцией распределения F(Икс;θ0), куда θ0 ∈ Θ - неизвестный параметр, который по оценкам, позволять {Икс(1), ..., Икс(п)} быть соответствующим упорядоченный выборка, то есть результат сортировки всех наблюдений от наименьшего к наибольшему. Для удобства обозначим также Икс(0) = −∞ и Икс(п+1) = +∞.

Определить интервалы как «промежутки» между значениями функции распределения в соседних упорядоченных точках:[7]

Тогда оценщик максимального интервала из θ0 определяется как значение, которое максимизирует логарифм из среднее геометрическое интервалов между образцами:

Посредством неравенство средних арифметических и геометрических, функция Sп(θ) ограничена сверху величиной −ln (п+1), поэтому максимум должен существовать хотя бы в супремум смысл.

Обратите внимание, что некоторые авторы определяют функцию Sп(θ) несколько иначе. Особенно, Раннеби (1984) умножает каждый Dя в раз (п+1), тогда как Ченг и Стивенс (1989) опустить1п+1 поставьте множитель перед суммой и добавьте знак «-», чтобы превратить максимизацию в минимизацию. Поскольку это константы относительно θ, модификации не изменяют положение максимума функции Sп.

Примеры

В этом разделе представлены два примера расчета оценки максимального интервала.

Пример 1

Блок, содержащий график двух смещенных вогнутых функций с разными пиками, вертикальные линии, делающие пополам пики, и помеченные стрелки, указывающие на то, где вертикальные линии пересекают нижнюю часть поля.
Сюжеты бревно значение λ для упрощенного примера при оценке правдоподобия и интервала. Идентифицируются значения, для которых максимизированы как вероятность, так и интервал, оценки максимального правдоподобия и максимального интервала.

Предположим два значения Икс(1) = 2, Икс(2) = 4 были взяты из экспоненциальное распределение F(Икс;λ) = 1 - e, Икс ≥ 0 с неизвестным параметром λ > 0. Чтобы построить MSE, мы должны сначала найти интервалы:

яF(Икс(я))F(Икс(я−1))Dя = F(Икс(я)) − F(Икс(я−1))
11 - е−2λ01 - е−2λ
21 - е−4λ1 - е−2λе−2λ - е−4λ
311 - е−4λе−4λ

Процесс продолжается поиском λ что максимизирует среднее геометрическое значение столбца «разница». Используя соглашение, которое игнорирует принятие (п+1) корень, это превращается в максимизацию следующего произведения: (1 - e−2λ) · (E−2λ - е−4λ) · (E−4λ). Сдача μ = e−2λ, проблема сводится к нахождению максимума μ5−2μ4+μ3. Дифференцируя, μ должен удовлетворить 5μ4−8μ3+3μ2 = 0. Это уравнение имеет корни 0, 0,6 и 1. Поскольку μ на самом деле е−2λ, он должен быть больше нуля, но меньше единицы. Поэтому единственное приемлемое решение -

что соответствует экспоненциальному распределению со средним значением1λ ≈ 3,915. Для сравнения: оценка максимального правдоподобия λ является обратной величиной выборочного среднего, 3, поэтому λMLE = ⅓ ≈ 0.333.

Пример 2

Предполагать {Икс(1), ..., Икс(п)} - это заказанный образец из равномерное распределение U(а,б) с неизвестными конечными точками а и б. Кумулятивная функция распределения: F(Икс;а,б) = (Икса)/(ба) когда Икс∈[а,б]. Следовательно, индивидуальные интервалы задаются

Вычисление среднего геометрического, а затем логарифм, статистика Sп будет равно

Здесь только три члена зависят от параметров а и б. Дифференцируя по этим параметрам и решая полученную линейную систему, максимальные оценки интервалов будут

Это, как известно, равномерно минимальная дисперсия несмещенная (UMVU) оценки для непрерывного равномерного распределения.[1] Для сравнения, оценки максимального правдоподобия для этой проблемы и предвзяты и имеют более высокие среднеквадратичная ошибка.

Характеристики

Последовательность и эффективность

Блок, содержащий график прямой линии со смещением и кривой J в обратном направлении, которая поднимается до пересечения с прямой линией.
Плотность
Блок, содержащий график прямой линии со смещением и кривой
Распределение
График J-образной функции плотности и соответствующего ей распределения. А сдвинутый Вейбулл с параметр масштаба из 15, а параметр формы 0,5, а параметр местоположения of 10. Плотность асимптотически стремится к бесконечности при Икс приближается к 10, делая оценки других параметров несовместимыми. Обратите внимание, что нет точка перегиба в графике распределения.

Оценка максимального интервала - это согласованная оценка в этом сходится по вероятности к истинному значению параметра, θ0, при увеличении размера выборки до бесконечности.[2] Непротиворечивость оценки максимального интервала сохраняется при гораздо более общих условиях, чем для максимальная вероятность оценщики. В частности, в случаях, когда базовое распределение имеет J-образную форму, максимальная вероятность не удастся, если MSE успешно.[1] Примером J-образной плотности является Распределение Вейбулла, в частности сдвинутый Вейбулл, с параметр формы меньше 1. Плотность будет стремиться к бесконечности при Икс приближается к параметр местоположения делает оценки других параметров несовместимыми.

Оценки максимального интервала также не ниже асимптотически эффективный в качестве оценок максимального правдоподобия, если таковые существуют. Однако MSE могут существовать в случаях, когда MLE отсутствуют.[1]

Чувствительность

Оценщики максимального разнесения чувствительны к близко разнесенным наблюдениям, и особенно к привязкам.[8] Данный

мы получили

Когда связи происходят из-за нескольких наблюдений, повторяющиеся интервалы (те, которые в противном случае были бы равны нулю) должны быть заменены соответствующей вероятностью.[1] То есть следует заменить за , в качестве

поскольку .

Если ничья связана с ошибкой округления, Ченг и Стивенс (1989) предложите другой способ устранения последствий.[примечание 1]Данный р связанные наблюдения от Икся к Икся+р−1, позволять δ представляют ошибка округления. Тогда все истинные значения должны попадать в диапазон . Соответствующие точки распределения теперь должны находиться между и . Ченг и Стивенс предлагают предположить, что округленные значения равны равномерно распределенный в этом интервале, определяя

Метод MSE также чувствителен к вторичной кластеризации.[8] Одним из примеров этого явления является случай, когда считается, что набор наблюдений исходит от одного нормальное распределение, но на самом деле происходит от смесь нормали разными средствами. Второй пример - когда считается, что данные поступают из экспоненциальное распределение, но на самом деле происходит от гамма-распределение. В последнем случае в нижней части хвоста могут быть меньшие расстояния. Высокая стоимость M(θ) будет указывать на этот вторичный эффект кластеризации и предполагает необходимость более внимательного изучения данных.[8]

Тест Морана

Статистика Sп(θ) также является формой Моран или статистика Морана-Дарлинга, M(θ), который можно использовать для тестирования степень соответствия.[заметка 2]Было показано, что статистика, определяемая как

является асимптотически нормальный, и что приближение хи-квадрат существует для небольших выборок.[8] В случае, если мы знаем истинный параметр , Ченг и Стивенс (1989) показать, что статистика имеет нормальное распределение с

куда γ это Константа Эйлера – Маскерони что примерно равно 0,57722.[заметка 3]

Распределение также можно аппроксимировать распределением , куда

,

в котором

и где следует за распределение хи-квадрат с степени свободы. Поэтому для проверки гипотезы что случайная выборка значения поступают из распределения , статистика можно рассчитать. потом должен быть отклонен с значимость если значение больше, чем критическое значение соответствующего распределения хи-квадрат.[8]

Где θ0 оценивается , Ченг и Стивенс (1989) показало, что имеет те же асимптотическое среднее и дисперсию, что и в известном случае. Однако используемый тестовый статистический показатель требует добавления поправочного члена смещения и составляет:

куда - количество параметров в оценке.

Обобщенный максимальный интервал

Альтернативные размеры и интервалы

Раннеби и Экстрём (1997) обобщил метод MSE для аппроксимации других меры помимо меры Кульбака – Лейблера. Экстрём (1997) далее расширил метод, чтобы исследовать свойства оценок с использованием интервалов более высокого порядка, где м- интервал порядка будет определен как .

Многомерные распределения

Раннеби и др. (2005) обсудить расширенные методы максимального интервала для многомерный дело. Поскольку нет естественного порядка для , они обсуждают два альтернативных подхода: геометрический подход, основанный на Клетки Дирихле и вероятностный подход, основанный на метрике «мяч ближайшего соседа».

Смотрите также

Примечания

  1. ^ Похоже, что в статье допущены незначительные опечатки. Например, в разделе 4.2, уравнение (4.1), замена округления для , не должно содержать термин журнала. В разделе 1 уравнение (1.2), определяется как сам интервал, а отрицательная сумма журналов . Если регистрируется на этом шаге, результат всегда ≤ 0, так как разница между двумя соседними точками на кумулятивном распределении всегда ≤ 1, и строго <1, если только две точки на опорах. Кроме того, в разделе 4.3 на стр. 392 расчет показывает, что это дисперсия который имеет оценку MPS 6,87, а не стандартное отклонение . – редактор
  2. ^ В литературе соответствующие статистические данные называются статистикой Морана или Морана-Дарлинга. Например, Ченг и Стивенс (1989) проанализировать форму куда определяется, как указано выше. Вонг и Ли (2006) используйте ту же форму. Тем не мение, Beirlant и др. (2001) использует форму , с дополнительным фактором внутри записанной суммы. Дополнительные факторы будут иметь значение с точки зрения ожидаемого среднего и дисперсии статистики. Для единообразия в этой статье будет по-прежнему использоваться форма Ченг и Амин / Вонг и Ли. - редактор
  3. ^ Вонг и Ли (2006) исключить Константа Эйлера – Маскерони из их описания. - редактор

Рекомендации

Цитаты

Процитированные работы