WikiDer > Оценка Тейла – Сена
В непараметрическая статистика, то Оценка Тейла – Сена это метод для крепко примерка линии для выборки точек на плоскости (простая линейная регрессия), выбрав медиана из склоны всех линий через пары точек. Его также называли Оценщик наклона Сена,[1][2] выбор уклона,[3][4] то метод единой медианы,[5] то Метод надежной подгонки линии Кендалла,[6] и Надежная линия Кендалла – Тейла.[7] Он назван в честь Анри Тейл и Пранаб К. Сен, опубликовавшие статьи по этому методу в 1950 и 1968 годах соответственно,[8] и после Морис Кендалл из-за его отношения к Коэффициент ранговой корреляции Кендалла тау.[9]
Эта оценка может быть вычислена эффективно и нечувствительна к выбросы. Это может быть значительно точнее, чем ненадежная простая линейная регрессия (наименьшие квадраты) для перекошенный и гетероскедастический данных и хорошо конкурирует с методом наименьших квадратов даже для нормально распределенный данные с точки зрения статистическая мощность.[10] Его назвали «самым популярным непараметрическим методом оценки линейного тренда».[2]
Определение
Как определено Тейл (1950), оценка Тейла – Сена множества двумерных точек (Икся,уя) это медиана м склонов (уj − уя)/(Иксj − Икся) определяется по всем парам точек выборки. Сен (1968) расширил это определение для обработки случая, когда две точки данных имеют одинаковые Икс координировать. В определении Сена берется медиана наклонов, определенных только для пар точек, имеющих различные Икс координаты.[8]
Однажды склон м был определен, можно определить линию из точек выборки, установив у-перехват б быть средним значением уя − mxя. Подходящая линия - это линия у = mx + б с коэффициентами м и б в наклон – форма пересечения.[11] Как заметил Сен, такой выбор наклона делает Коэффициент ранговой корреляции Кендалла тау становятся приблизительно равными нулю, когда он используется для сравнения значений Икся с их связанными остатки уя − mxя − б. Интуитивно это говорит о том, что расстояние, на которое линия соответствия проходит выше или ниже точки данных, не коррелирует с тем, находится эта точка слева или справа от набора данных. Выбор б не влияет на коэффициент Кендалла, но приводит к тому, что медианная невязка становится приблизительно равной нулю; то есть линия соответствия проходит выше и ниже равного количества точек.[9]
А доверительный интервал для оценки наклона может быть определен как интервал, содержащий средние 95% наклонов линий, определяемых парами точек[12] и может быть быстро оценен путем выборки пар точек и определения 95% интервала выбранных наклонов. Согласно моделированию, приблизительно 600 пар образцов достаточно для определения точного доверительного интервала.[10]
Вариации
Вариант оценки Тейла – Сена, повторная медианная регрессия из Сигель (1982), определяет для каждой точки выборки (Икся,уя), медиана мя склонов (уj − уя)/(Иксj − Икся) линий, проходящих через эту точку, а затем определяет общую оценку как медиану этих медиан. Он может допускать большее количество выбросов, чем оценка Тейла – Сена, но известные алгоритмы для его эффективного вычисления более сложны и менее практичны.[13]
Другой вариант объединяет точки выборки по рангу их Икс-координаты: точка с наименьшей координатой соединяется с первой точкой над медианной координатой, вторая наименьшая точка соединяется со следующей точкой над медианной и т. д. Затем он вычисляет медиану наклонов линий, определенных этими парами точек, набирая скорость, исследуя значительно меньше пар, чем оценка Тейла – Сена.[14]
Вариации оценки Тейла – Сена на основе взвешенные медианы также были изучены, исходя из принципа, что пары образцов, Икс-координаты различаются сильнее, скорее всего, имеют точный наклон и, следовательно, должны получить больший вес.[15]
Для сезонных данных может оказаться целесообразным сгладить сезонные вариации данных, рассматривая только пары точек выборки, которые принадлежат одному и тому же месяцу или одному сезону года, и находя медианное значение наклонов линий, определенных это более ограниченный набор пар.[16]
Статистические свойства
Оценка Тейла – Сена представляет собой объективный оценщик истинного наклона в простая линейная регрессия.[17] Для многих дистрибутивов ошибка ответа, эта оценка имеет высокую асимптотическая эффективность относительно наименьших квадратов предварительный расчет.[18] Оценщикам с низкой эффективностью требуется больше независимых наблюдений, чтобы получить такую же выборочную дисперсию эффективных несмещенных оценщиков.
Оценка Тейла – Сена более крепкий чем оценка методом наименьших квадратов, потому что он гораздо менее чувствителен к выбросы. Оно имеет точка разрушения из
Это означает, что он может выдерживать произвольное искажение до 29,3% входных точек данных без ухудшения его точности.[11] Однако точка срыва уменьшается для многомерных обобщений метода.[19] Более высокая точка пробоя, 50%, соответствует другому надежному алгоритму подбора линий, повторная медианная оценка Зигеля.[11]
Оценка Тейла – Сена равна эквивариантный под каждым линейное преобразование переменной ответа, что означает, что сначала преобразование данных, а затем подгонка к строке или сперва подгонка строки, а затем ее преобразование таким же образом, дают один и тот же результат.[20] Однако он не эквивариантен при аффинные преобразования переменных предиктора и отклика.[19]
Алгоритмы и реализация
Срединный уклон набора п точки выборки могут быть вычислены точно путем вычисления всех О(п2) линии через пары точек, а затем применяя линейное время алгоритм поиска медианы. В качестве альтернативы, это может быть оценено путем выборки пар точек. Эта проблема эквивалентна под проективная двойственность, к задаче поиска точки пересечения в расположение линий это медиана Икс-координация среди всех таких пунктов пересечения.[21]
Проблема точного, но более эффективного выбора наклона, чем алгоритм квадратичного времени методом грубой силы, широко изучалась в вычислительная геометрия. Известно несколько различных методов вычисления оценки Тейла – Сена точно в О(п журнал п) время, либо детерминированно[3] или используя рандомизированные алгоритмы.[4] Повторная медианная оценка Зигеля также может быть построена с той же временной границей.[22] В моделях вычислений, в которых входные координаты являются целыми числами и в которых побитовые операции для целых чисел требуется постоянное время, оценка Тейла – Сена может быть построена еще быстрее, за рандомизированное ожидаемое время .[23]
Оценка наклона с приблизительно средним рангом, имеющая ту же точку разбивки, что и оценка Тейла – Сена, может быть сохранена в модель потока данных (в котором точки выборки обрабатываются одна за другой алгоритмом, не имеющим достаточного постоянного хранилища для представления всего набора данных) с использованием алгоритма, основанного на ε-сети.[24]
в р статистический пакет, как оценка Тейла – Сена, так и повторная медианная оценка Зигеля доступны через mblm
библиотека.[25]Бесплатная автономная Visual Basic приложение для оценки Тейла – Сена, KTRLine
, был предоставлен Геологическая служба США.[26]Оценка Тейла – Сена также была реализована в Python как часть SciPy и scikit-learn библиотеки.[27]
Приложения
Оценка Тейла – Сена была применена к астрономия из-за его способности обрабатывать цензурированные регрессионные модели.[28] В биофизика, Фернандес и Леблан (2005) предложить его использование для приложений дистанционного зондирования, таких как оценка площади листа по данным отражательной способности, из-за его "простоты вычислений, аналитических оценок доверительных интервалов, устойчивости к выбросам, проверяемых предположений относительно остатков и ... ограниченной априорной информации относительно ошибок измерения" ".[29] Для измерения сезонных экологических данных, таких как качество воды, вариант оценки Тейла – Сена с поправкой на сезонные колебания был предложен как предпочтительный по сравнению с оценкой методом наименьших квадратов из-за его высокой точности при наличии искаженных данных.[16] В Информатика, метод Тейла – Сена использовался для оценки тенденций изменения старение программного обеспечения.[30] В метеорология и климатология, он использовался для оценки долгосрочных тенденций возникновения и скорости ветра.[31]
Смотрите также
- Разбавление регрессии, для другой проблемы, влияющей на предполагаемые наклоны тренда
Заметки
- ^ Гилберт (1987).
- ^ а б Эль-Шаарави и Пигорш (2001).
- ^ а б Cole et al. (1989); Кац и Шарир (1993); Брённиманн и Шазель (1998).
- ^ а б Дилленкур, Маунт и Нетаньяху (1992); Матушек (1991); Бланк и Варенхольд (2006).
- ^ Massart et al. (1997).
- ^ Сокал и Рольф (1995); Дайтэм (2011).
- ^ Гранато (2006)
- ^ а б Тейл (1950); Сен (1968)
- ^ а б Сен (1968); Осборн (2008).
- ^ а б Уилкокс (2001).
- ^ а б c Руссеу и Лерой (2003)С. 67, 164.
- ^ Для определения доверительных интервалов необходимо выбрать пары точек. с заменой; это означает, что набор пар, используемый в этом вычислении, включает пары, в которых обе точки идентичны друг другу. Эти пары всегда находятся за пределами доверительного интервала, потому что они не определяют четко определенного значения наклона, но их использование как часть расчета приводит к тому, что доверительный интервал становится шире, чем он был бы без них.
- ^ Логан (2010), Раздел 8.2.7 Робастная регрессия; Матушек, Маунт и Нетаньяху (1998)
- ^ Де Мут (2006).
- ^ Jaeckel (1972); Шольц (1978); Сиверс (1978); Биркес и Додж (1993).
- ^ а б Хирш, Слэк и Смит (1982).
- ^ Сен (1968), Теорема 5.1, с. 1384; Ван и Ю (2005).
- ^ Сен (1968), Раздел 6; Уилкокс (1998).
- ^ а б Уилкокс (2005).
- ^ Сен (1968), п. 1383.
- ^ Cole et al. (1989).
- ^ Матушек, Маунт и Нетаньяху (1998).
- ^ Чан и Патрашку (2010).
- ^ Багчи и др. (2007).
- ^ Логан (2010), п. 237; Ваннест, Дэвис и Паркер (2013)
- ^ Ваннест, Дэвис и Паркер (2013); Гранато (2006)
- ^ Сообщество SciPy (2015); Перссон и Мартинс (2016)
- ^ Акритас, Мерфи и ЛаВэлли (1995).
- ^ Фернандес и Леблан (2005).
- ^ Вайдьянатан и Триведи (2005).
- ^ Романич и др. (2014).
использованная литература
- Акритас, Майкл Дж .; Мерфи, Сьюзен А.; ЛаВалли, Майкл П. (1995), «Оценка Тейла-Сена с дважды цензурированными данными и приложениями к астрономии», Журнал Американской статистической ассоциации, 90 (429): 170–177, Дои:10.1080/01621459.1995.10476499, JSTOR 2291140, Г-Н 1325124.
- Багчи, Амитабха; Чаудхари, Амитабх; Эппштейн, Дэвид; Гудрич, Майкл Т. (2007), «Детерминированная выборка и подсчет диапазонов в потоках геометрических данных», ACM-транзакции на алгоритмах, 3 (2): Ст. №16, arXiv:cs / 0307027, Дои:10.1145/1240233.1240239, Г-Н 2335299, S2CID 123315817.
- Биркес, Дэвид; Додж, Ядола (1993), «6.3 Оценка линии регрессии», Альтернативные методы регрессии, Серия Уайли по вероятности и статистике, 282, Wiley-Interscience, стр. 113–118, ISBN 978-0-471-56881-0.
- Бланк, Хенрик; Варенхольд, Ян (2006), "Рандомизированный выбор откосов на месте", Международный симпозиум по алгоритмам и сложности, Конспект лекций по информатике, 3998, Берлин: Springer-Verlag, стр. 30–41, Дои:10.1007/11758471_6, ISBN 978-3-540-34375-2, Г-Н 2263136.
- Брённиманн, Эрве; Шазель, Бернар (1998), «Выбор оптимального откоса с помощью вырубки», Теория вычислительной геометрии и приложения, 10 (1): 23–29, Дои:10.1016 / S0925-7721 (97) 00025-4, Г-Н 1614381.
- Чан, Тимоти М.; Пэтрашку, Михай (2010), «Подсчет инверсий, автономный подсчет ортогональных диапазонов и связанные проблемы», Материалы двадцать первого ежегодного симпозиума ACM-SIAM по дискретным алгоритмам (SODA '10) (PDF), стр. 161–173.
- Коул, Ричард; Salowe, Jeffrey S .; Steiger, W. L .; Семереди, Эндре (1989), "Оптимальный по времени алгоритм выбора уклона", SIAM Журнал по вычислениям, 18 (4): 792–810, Дои:10.1137/0218055, Г-Н 1004799.
- Де Мут, Э. Джеймс (2006), Базовая статистика и приложения для фармацевтической статистики, Биостатистика, 16 (2-е изд.), CRC Press, стр. 577, г. ISBN 978-0-8493-3799-4.
- Дилленкур, Майкл Б.; Маунт, Дэвид М.; Нетаньяху, Натан С. (1992), "Рандомизированный алгоритм выбора наклона", Международный журнал вычислительной геометрии и приложений, 2 (1): 1–27, Дои:10.1142 / S0218195992000020, Г-Н 1159839.
- Дитам, Кальвин (2011), Выбор и использование статистики: руководство биолога (3-е изд.), Джон Уайли и сыновья, стр. 230, ISBN 978-1-4051-9839-4.
- Эль-Шаарави, Абдель Х .; Пигорш, Уолтер В. (2001), Энциклопедия окружающей среды, том 1, Джон Уайли и сыновья, стр. 19, ISBN 978-0-471-89997-6.
- Фернандес, Ричард; Леблан, Сильвен Г. (2005), «Параметрические (модифицированные методом наименьших квадратов) и непараметрические (Тейла – Сена) линейные регрессии для прогнозирования биофизических параметров при наличии ошибок измерения», Дистанционное зондирование окружающей среды, 95 (3): 303–316, Bibcode:2005RSEnv..95..303F, Дои:10.1016 / j.rse.2005.01.005.
- Гилберт, Ричард О. (1987), "Непараметрическая оценка наклона 6.5 Сена", Статистические методы мониторинга загрязнения окружающей среды, John Wiley and Sons, стр. 217–219, ISBN 978-0-471-28878-7.
- Гранато, Грегори Э. (2006), «Глава A7: Робастная линия Кендалла – Тейла (KTRLine - версия 1.0) - визуальная базовая программа для расчета и построения графиков надежных непараметрических оценок коэффициентов линейной регрессии между двумя непрерывными переменными», Гидрологический анализ и интерпретация, Методы и методы геологической разведки США, 4, Геологическая служба США.
- Хирш, Роберт М.; Slack, Джеймс Р .; Смит, Ричард А. (1982), "Методы анализа тенденций для ежемесячных данных о качестве воды", Исследование водных ресурсов, 18 (1): 107–121, Bibcode:1982WRR .... 18..107H, Дои:10.1029 / WR018i001p00107.
- Jaeckel, Луи А. (1972), "Оценка коэффициентов регрессии путем минимизации дисперсии остатков", Анналы математической статистики, 43 (5): 1449–1458, Дои:10.1214 / aoms / 1177692377, Г-Н 0348930.
- Кац, Мэтью Дж .; Шарир, Миха (1993), «Выбор оптимального откоса с помощью расширителей», Письма об обработке информации, 47 (3): 115–122, Дои:10.1016 / 0020-0190 (93) 90234-Z, Г-Н 1237287.
- Логан, Мюррей (2010), Биостатистический дизайн и анализ с использованием R: Практическое руководство, ISBN 9781444362473
- Massart, D. L .; Vandeginste, B.G.M .; Buydens, L.MC .; Де Йонг, S .; Lewi, P.J .; Смейерс-Вербеке, Дж. (1997), «12.1.5.1 Метод единой медианы», Справочник по хемометрике и квалиметрии: Часть A, Обработка данных в науке и технологиях, 20А, Elsevier, стр. 355–356, ISBN 978-0-444-89724-4.
- Матушек, Иржи (1991), "Рандомизированный оптимальный алгоритм выбора уклона", Письма об обработке информации, 39 (4): 183–187, Дои:10.1016 / 0020-0190 (91) 90177-Дж, Г-Н 1130747.
- Матушек, Иржи; Маунт, Дэвид М.; Нетаньяху, Натан С. (1998), «Эффективные рандомизированные алгоритмы для оценки повторяющейся средней линии», Алгоритмика, 20 (2): 136–150, Дои:10.1007 / PL00009190, Г-Н 1484533, S2CID 17362967.
- Осборн, Джейсон В. (2008), Лучшие практики количественных методов, Sage Publications, Inc., стр. 273, г. ISBN 9781412940658.
- Перссон, Магнус Вильхельм; Мартинс, Луис Фелипе (2016), Освоение анализа данных Python, Packt Publishing, стр. 177, ISBN 9781783553303
- Романич, Джордже; Дурич, Младжен; Йовичич, Илия; Ломпар, Милош (2014), «Долгосрочные тренды ветра Кошава в период 1949–2010 гг.», Международный журнал климатологии, 35 (2): 288–302, Bibcode:2015IJCli..35..288R, Дои:10.1002 / joc.3981.
- Руссей, Питер Дж.; Лерой, Анник М. (2003), Надежная регрессия и обнаружение выбросов, Ряд Уайли по вероятности и математической статистике, 516, Wiley, п. 67, ISBN 978-0-471-48855-2.
- Шольц, Фридрих-Вильгельм (1978), «Средневзвешенные оценки регрессии», Анналы статистики, 6 (3): 603–609, Дои:10.1214 / aos / 1176344204, JSTOR 2958563, Г-Н 0468054.
- Сообщество SciPy (2015), "scipy.stats.mstats.theilslopes", Справочное руководство SciPy v0.15.1
- Сен, Пранаб Кумар (1968), «Оценки коэффициента регрессии на основе тау Кендалла», Журнал Американской статистической ассоциации, 63 (324): 1379–1389, Дои:10.2307/2285891, JSTOR 2285891, Г-Н 0258201.
- Сигел, Эндрю Ф. (1982), «Надежная регрессия с использованием повторяющихся медиан» Биометрика, 69 (1): 242–244, Дои:10.1093 / biomet / 69.1.242.
- Сиверс, Джеральд Л. (1978), "Взвешенная ранговая статистика для простой линейной регрессии", Журнал Американской статистической ассоциации, 73 (363): 628–631, Дои:10.1080/01621459.1978.10480067, JSTOR 2286613.
- Сокал, Роберт Р.; Рольф, Ф. Джеймс (1995), Биометрия: принципы и практика статистики в биологических исследованиях (3-е изд.), Macmillan, p. 539, г. ISBN 978-0-7167-2411-7.
- Тейл, Х. (1950), "Рангово-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III", Nederl. Акад. Wetensch., Proc., 53: 386–392, 521–525, 1397–1412, Г-Н 0036489.
- Вайдьянатхан, Кальянараман; Триведи, Кишор С. (2005), «Комплексная модель омоложения программного обеспечения», Транзакции IEEE о надежных и безопасных вычислениях, 2 (2): 124–137, Дои:10.1109 / TDSC.2005.15, S2CID 15105513.
- Vannest, Kimberly J .; Дэвис, Джон Л .; Паркер, Ричард I. (2013), Исследование отдельных случаев в школах: практические рекомендации для школьных специалистов, Рутледж, стр. 55, ISBN 9781136173622
- Ван, Сюэцинь; Ю, Цицин (2005), "Беспристрастность оценки Тейла – Сена", Журнал непараметрической статистики, 17 (6): 685–695, Дои:10.1080/10485250500039452, Г-Н 2165096, S2CID 121061001.
- Wilcox, Rand R. (1998), "Примечание об оценке регрессии Тейла – Сена, когда регрессор является случайным, а член ошибки является гетероскедастическим", Биометрический журнал, 40 (3): 261–268, Дои:10.1002 / (SICI) 1521-4036 (199807) 40: 3 <261 :: AID-BIMJ261> 3.0.CO; 2-V.
- Уилкокс, Рэнд Р. (2001), «Оценка Тейла – Сена», Основы современных статистических методов: существенное повышение мощности и точности, Springer-Verlag, стр. 207–210, ISBN 978-0-387-95157-7.
- Уилкокс, Рэнд Р. (2005), «Оценка 10.2 Тейла – Сена», Введение в робастную оценку и проверку гипотез, Academic Press, стр. 423–427, ISBN 978-0-12-751542-7.