WikiDer > Оценка Тейла – Сена

Theil–Sen estimator

Оценка Тейла – Сена для набора точек выборки с выбросами (черная линия) по сравнению с ненадежным обыкновенный метод наименьших квадратов линия для того же набора (синяя). Пунктирная зеленая линия представляет собой основную истину, из которой были созданы образцы.

В непараметрическая статистика, то Оценка Тейла – Сена это метод для крепко примерка линии для выборки точек на плоскости (простая линейная регрессия), выбрав медиана из склоны всех линий через пары точек. Его также называли Оценщик наклона Сена,[1][2] выбор уклона,[3][4] то метод единой медианы,[5] то Метод надежной подгонки линии Кендалла,[6] и Надежная линия Кендалла – Тейла.[7] Он назван в честь Анри Тейл и Пранаб К. Сен, опубликовавшие статьи по этому методу в 1950 и 1968 годах соответственно,[8] и после Морис Кендалл из-за его отношения к Коэффициент ранговой корреляции Кендалла тау.[9]

Эта оценка может быть вычислена эффективно и нечувствительна к выбросы. Это может быть значительно точнее, чем ненадежная простая линейная регрессия (наименьшие квадраты) для перекошенный и гетероскедастический данных и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенный данные с точки зрения статистическая мощность.[10] Его назвали «самым популярным непараметрическим методом оценки линейного тренда».[2]

Определение

Как определено Тейл (1950), оценка Тейла – Сена множества двумерных точек (Икся,уя) это медиана м склонов (уjуя)/(ИксjИкся) определяется по всем парам точек выборки. Сен (1968) расширил это определение для обработки случая, когда две точки данных имеют одинаковые Икс координировать. В определении Сена берется медиана наклонов, определенных только для пар точек, имеющих различные Икс координаты.[8]

Однажды склон м был определен, можно определить линию из точек выборки, установив у-перехват б быть средним значением уяmxя. Подходящая линия - это линия у = mx + б с коэффициентами м и б в наклон – форма пересечения.[11] Как заметил Сен, такой выбор наклона делает Коэффициент ранговой корреляции Кендалла тау становятся приблизительно равными нулю, когда он используется для сравнения значений Икся с их связанными остатки уяmxяб. Интуитивно это говорит о том, что расстояние, на которое линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится эта точка слева или справа от набора данных. Выбор б не влияет на коэффициент Кендалла, но приводит к тому, что медианная невязка становится приблизительно равной нулю; то есть линия соответствия проходит выше и ниже равного количества точек.[9]

А доверительный интервал для оценки наклона может быть определен как интервал, содержащий средние 95% наклонов линий, определяемых парами точек[12] и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно моделированию, приблизительно 600 пар образцов достаточно для определения точного доверительного интервала.[10]

Вариации

Вариант оценки Тейла – Сена, повторная медианная регрессия из Сигель (1982), определяет для каждой точки выборки (Икся,уя), медиана мя склонов (уjуя)/(ИксjИкся) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценка Тейла – Сена, но известные алгоритмы для его эффективного вычисления более сложны и менее практичны.[13]

Другой вариант объединяет точки выборки по рангу их Икс-координаты: точка с наименьшей координатой соединяется с первой точкой над медианной координатой, вторая наименьшая точка соединяется со следующей точкой над медианной и т. д. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость, исследуя значительно меньше пар, чем оценка Тейла – Сена.[14]

Вариации оценки Тейла – Сена на основе взвешенные медианы также были изучены, исходя из принципа, что пары образцов, Икс-координаты различаются сильнее, скорее всего, имеют точный наклон и, следовательно, должны получить больший вес.[15]

Для сезонных данных может оказаться целесообразным сгладить сезонные вариации данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному сезону года, и находя медианное значение наклонов линий, определенных это более ограниченный набор пар.[16]

Статистические свойства

Оценка Тейла – Сена представляет собой объективный оценщик истинного наклона в простая линейная регрессия.[17] Для многих дистрибутивов ошибка ответа, эта оценка имеет высокую асимптотическая эффективность относительно наименьших квадратов предварительный расчет.[18] Оценщикам с низкой эффективностью требуется больше независимых наблюдений, чтобы получить такую ​​же выборочную дисперсию эффективных несмещенных оценщиков.

Оценка Тейла – Сена более крепкий чем оценка методом наименьших квадратов, потому что он гораздо менее чувствителен к выбросы. Оно имеет точка разрушения из

Это означает, что он может выдерживать произвольное искажение до 29,3% входных точек данных без ухудшения его точности.[11] Однако точка срыва уменьшается для многомерных обобщений метода.[19] Более высокая точка пробоя, 50%, соответствует другому надежному алгоритму подбора линий, повторная медианная оценка Зигеля.[11]

Оценка Тейла – Сена равна эквивариантный под каждым линейное преобразование переменной ответа, что означает, что сначала преобразование данных, а затем подгонка к строке или сперва подгонка строки, а затем ее преобразование таким же образом, дают один и тот же результат.[20] Однако он не эквивариантен при аффинные преобразования переменных предиктора и отклика.[19]

Алгоритмы и реализация

Срединный уклон набора п точки выборки могут быть вычислены точно путем вычисления всех О(п2) линии через пары точек, а затем применяя линейное время алгоритм поиска медианы. В качестве альтернативы, это может быть оценено путем выборки пар точек. Эта проблема эквивалентна под проективная двойственность, к задаче поиска точки пересечения в расположение линий это медиана Икс-координация среди всех таких пунктов пересечения.[21]

Проблема точного, но более эффективного выбора наклона, чем алгоритм квадратичного времени методом грубой силы, широко изучалась в вычислительная геометрия. Известно несколько различных методов вычисления оценки Тейла – Сена точно в О(п журнал п) время, либо детерминированно[3] или используя рандомизированные алгоритмы.[4] Повторная медианная оценка Зигеля также может быть построена с той же временной границей.[22] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции для целых чисел требуется постоянное время, оценка Тейла – Сена может быть построена еще быстрее, за рандомизированное ожидаемое время .[23]

Оценка наклона с приблизительно средним рангом, имеющая ту же точку разбивки, что и оценка Тейла – Сена, может быть сохранена в модель потока данных (в котором точки выборки обрабатываются одна за другой алгоритмом, не имеющим достаточного постоянного хранилища для представления всего набора данных) с использованием алгоритма, основанного на ε-сети.[24]

в р статистический пакет, как оценка Тейла – Сена, так и повторная медианная оценка Зигеля доступны через mblm библиотека.[25]Бесплатная автономная Visual Basic приложение для оценки Тейла – Сена, KTRLine, был предоставлен Геологическая служба США.[26]Оценка Тейла – Сена также была реализована в Python как часть SciPy и scikit-learn библиотеки.[27]

Приложения

Оценка Тейла – Сена была применена к астрономия из-за его способности обрабатывать цензурированные регрессионные модели.[28] В биофизика, Фернандес и Леблан (2005) предложить его использование для приложений дистанционного зондирования, таких как оценка площади листа по данным отражательной способности, из-за его "простоты вычислений, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и ... ограниченной априорной информации относительно ошибок измерения" ".[29] Для измерения сезонных экологических данных, таких как качество воды, вариант оценки Тейла – Сена с поправкой на сезонные колебания был предложен как предпочтительный по сравнению с оценкой методом наименьших квадратов из-за его высокой точности при наличии искаженных данных.[16] В Информатика, метод Тейла – Сена использовался для оценки тенденций изменения старение программного обеспечения.[30] В метеорология и климатология, он использовался для оценки долгосрочных тенденций возникновения и скорости ветра.[31]

Смотрите также

Заметки

  1. ^ Гилберт (1987).
  2. ^ а б Эль-Шаарави и Пигорш (2001).
  3. ^ а б Cole et al. (1989); Кац и Шарир (1993); Брённиманн и Шазель (1998).
  4. ^ а б Дилленкур, Маунт и Нетаньяху (1992); Матушек (1991); Бланк и Варенхольд (2006).
  5. ^ Massart et al. (1997).
  6. ^ Сокал и Рольф (1995); Дайтэм (2011).
  7. ^ Гранато (2006)
  8. ^ а б Тейл (1950); Сен (1968)
  9. ^ а б Сен (1968); Осборн (2008).
  10. ^ а б Уилкокс (2001).
  11. ^ а б c Руссеу и Лерой (2003)С. 67, 164.
  12. ^ Для определения доверительных интервалов необходимо выбрать пары точек. с заменой; это означает, что набор пар, используемый в этом вычислении, включает пары, в которых обе точки идентичны друг другу. Эти пары всегда находятся за пределами доверительного интервала, потому что они не определяют четко определенного значения наклона, но их использование как часть расчета приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
  13. ^ Логан (2010), Раздел 8.2.7 Робастная регрессия; Матушек, Маунт и Нетаньяху (1998)
  14. ^ Де Мут (2006).
  15. ^ Jaeckel (1972); Шольц (1978); Сиверс (1978); Биркес и Додж (1993).
  16. ^ а б Хирш, Слэк и Смит (1982).
  17. ^ Сен (1968), Теорема 5.1, с. 1384; Ван и Ю (2005).
  18. ^ Сен (1968), Раздел 6; Уилкокс (1998).
  19. ^ а б Уилкокс (2005).
  20. ^ Сен (1968), п. 1383.
  21. ^ Cole et al. (1989).
  22. ^ Матушек, Маунт и Нетаньяху (1998).
  23. ^ Чан и Патрашку (2010).
  24. ^ Багчи и др. (2007).
  25. ^ Логан (2010), п. 237; Ваннест, Дэвис и Паркер (2013)
  26. ^ Ваннест, Дэвис и Паркер (2013); Гранато (2006)
  27. ^ Сообщество SciPy (2015); Перссон и Мартинс (2016)
  28. ^ Акритас, Мерфи и ЛаВэлли (1995).
  29. ^ Фернандес и Леблан (2005).
  30. ^ Вайдьянатан и Триведи (2005).
  31. ^ Романич и др. (2014).

использованная литература