WikiDer > Статистика оценок

Estimation statistics

Статистика оценок это платформа анализа данных, которая использует комбинацию размеры эффекта, доверительные интервалы, точное планирование и метаанализ планировать эксперименты, анализировать данные и интерпретировать результаты.^[1] Он отличается от проверка значимости нулевой гипотезы (NHST), который считается менее информативным.^[2]^[3] Статистика оценок, или просто оценка, также известен как новая статистика,^[3] различие, введенное в области психология, медицинские исследования, науки о жизни и широкий спектр других экспериментальных наук, где NHST все еще широко распространены,^[4] несмотря на то, что статистические оценки рекомендуются в качестве предпочтительных в течение нескольких десятилетий.^[5]^[6]

Основная цель методов оценки - сообщить размер эффекта (а точечная оценка) вместе с его доверительный интервал, последнее из которых связано с точностью оценки.^[7] Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники оценки см. Отчет п ценить как бесполезное отвлечение от важного дела по сообщению о величине эффекта с его доверительными интервалами,^[8] и считаю, что оценка должна заменить проверку значимости для анализа данных.^[9]

История

В физике долгое время использовался метод средневзвешенных значений, похожий на метаанализ.^[10]

Статистика оценок в современную эпоху началась с разработки стандартизированный размер эффекта к Джейкоб Коэн в 1960-е гг. Синтез исследований с использованием оценочной статистики был впервые предложен Джин В. Гласс с развитием метода метаанализ в 1970-е гг.^[11] Методы оценки были усовершенствованы, поскольку Ларри Хеджес, Майкл Боренштейн, Дуг Альтман, Мартин Гарднер, Джефф Камминг и другие. В регулярный обзорв сочетании с метаанализом - это родственный метод, широко используемый в медицинских исследованиях. В настоящее время более 60 000 ссылок на «метаанализ» PubMed. Несмотря на широкое распространение метаанализа, структура оценки до сих пор не используется рутинно в первичных биомедицинских исследованиях.^[4]

В 1990-е годы редактор Кеннет Ротман запретили использование p-значений из журнала Эпидемиология; авторы были на высоком уровне, но это не изменило их аналитическое мышление.^[12]

В последнее время методы оценки применяются в таких областях, как нейробиология,^[13] психологическое образование^[14] и психология.^[15]

В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка, а не проверка гипотез.^[16] В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как значения P, которые не могут передать важную информацию о величине эффекта».^[17]

В 2019 году Общество неврологии журнал eNeuro ввел политику, рекомендующую использование оценочных графиков в качестве предпочтительного метода для представления данных ^[18]

Методология

Многие тесты значимости имеют аналог для оценки;^[19] почти в каждом случае результат теста (или его p-значение) можно просто заменить величиной эффекта и оценкой точности. Например, вместо использования T-тест Стьюдента, аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95% доверительный интервал. Соответствующие методы могут использоваться для парный t-тест и множественные сравнения. Точно так же для регрессионного анализа аналитик сообщит коэффициент детерминации (Р²) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики предостерегают от сообщения только нескольких цифр. Скорее, рекомендуется анализировать и представлять данные с помощью визуализации данных.^[2]^[6]^[7] Примеры подходящих визуализаций включают Диаграмма разброса для регрессии и графики Гарднера-Альтмана для двух независимых групп.^[20] В то время как графики групп исторических данных (гистограммы, коробчатые диаграммы и графики скрипки) не отображают сравнение, графики оценки добавляют вторую ось для явной визуализации размера эффекта.^[21]

Заговор Гарднера – Альтмана. Оставили: Обычная столбиковая диаграмма со звездочками, чтобы показать, что разница является «статистически значимой». Правильно: График Гарднера – Альтмана, на котором показаны все точки данных, а также средняя разница и ее доверительные интервалы.

График Гарднера – Альтмана

График средней разности Гарднера – Альтмана был впервые описан Мартин Гарднер и Дуг Альтман в 1986 г .;^[20] это статистический график, предназначенный для отображения данных из двух независимых групп.^[6] Также есть версия, подходящая для парные данные. Ключевые инструкции для создания этой диаграммы следующие: (1) отображать все наблюдаемые значения для обеих групп рядом; (2) поместите вторую ось справа, смещенную, чтобы показать шкалу средней разности; и (3) построить среднюю разность с ее доверительным интервалом в виде маркера с планками ошибок.^[3] Графики Гарднера-Альтмана могут быть созданы с помощью специального кода, используя Ggplot2, морской, или же DABEST; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как Статистика оценок приложение.

Сюжет Камминга. Отображаются все необработанные данные. Размер эффекта и 95% доверительный интервал нанесены на отдельные оси под необработанными данными. Для каждой группы суммарные измерения (среднее ± стандартное отклонение) показаны в виде линий с промежутками.

Камминг сюжет

Для нескольких групп Джефф Камминг представили использование вторичной панели для построения двух или более средних разностей и их доверительных интервалов, размещенных под панелью наблюдаемых значений;^[3] такое расположение позволяет легкое сравнение средних разностей («дельт») по нескольким группам данных. Графики Камминга могут быть построены с помощью Пакет ESCI, DABEST, или Приложение "Статистика оценок".

Другие методики

Помимо средней разницы, существует множество других размер эффекта типы, все с относительной выгодой. Основные типы включают размеры эффекта Коэна d-типа и коэффициент детерминации (Р²) за регрессивный анализ. Для ненормальных распределений есть еще ряд надежные размеры эффекта, включая Дельта Клиффа и Статистика Колмогорова-Смирнова.

Ошибки при проверке гипотез

В проверка гипотезы, основная цель статистических расчетов - получить p-значение, вероятность увидеть полученный результат или более экстремальный результат при допущении нулевая гипотеза правда. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу. Сторонники оценка отвергать обоснованность проверки гипотез^[3]^[7] по следующим причинам, среди прочего:

P-значения легко и часто неправильно интерпретируются. Например, p-значение часто ошибочно воспринимается как «вероятность того, что нулевая гипотеза верна».
Нулевая гипотеза всегда неверна для каждого набора наблюдений: всегда есть какой-то эффект, даже если он незначительный.^[22]
Проверка гипотез дает произвольно дихотомические ответы «да-нет», отбрасывая при этом важную информацию о величине.^[23]
Любое конкретное значение p возникает в результате взаимодействия размер эффекта, то размер образца (при прочих равных условиях больший размер выборки дает меньшее p-значение) и ошибка выборки.^[24]
При малой мощности моделирование показывает, что ошибка выборки делает p-значения чрезвычайно непостоянными.^[25]

Преимущества оценочной статистики

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемо. По определению, 95% доверительные интервалы имеют 95% шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95% доверительные интервалы также являются 83% интервалами прогноза: доверительный интервал одного эксперимента имеет 83% вероятность захвата среднего значения любого будущего эксперимента.^[3] Таким образом, знание 95% -ных доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.

Доказательная статистика

Психологические исследования восприятия статистики показывают, что оценки интервалов отчетности позволяют получить более точное восприятие данных, чем отчеты p-значений.^[26]

Точное планирование

Точность оценки формально определяется как 1 /отклонение, и, как и мощность, увеличивается (улучшается) с увеличением размера выборки. Нравиться мощностьвысокая точность стоит дорого; Заявки на грант на исследования в идеале должны включать анализ точности / затрат. Сторонники оценки считают, что точное планирование должно заменить мощность поскольку сама статистическая мощность концептуально связана с проверкой значимости.^[3]

Смотрите также

Рекомендации

^ Эллис, Пол. "Часто задаваемые вопросы о размере эффекта".
^ ^а ^б Коэн, Джейкоб. «Земля круглая (p <0,05)» (PDF).
^ ^а ^б ^c ^d ^е ^ж ^грамм Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Нью-Йорк: Рутледж.
^ ^а ^б Баттон, Кэтрин; Джон П. А. Иоаннидис; Клэр Мокрыш; Брайан А. Носек; Джонатан Флинт; Эмма С. Дж. Робинсон; Маркус Р. Мунафо (2013). «Сбой питания: почему небольшой размер выборки подрывает надежность нейробиологии». Обзоры природы Неврология. 14 (5): 365–76. Дои:10.1038 / номер 3475. PMID 23571845.
^ Альтман, Дуглас (1991). Практическая статистика для медицинских исследований. Лондон: Чепмен и Холл.
^ ^а ^б ^c Дуглас Альтман, изд. (2000). Статистика с уверенностью. Лондон: Вили-Блэквелл.
^ ^а ^б ^c Коэн, Джейкоб (1990). "Что я узнал (пока)". Американский психолог. 45 (12): 1304. Дои:10.1037 / 0003-066x.45.12.1304.
^ Эллис, Пол (31 мая 2010 г.). «Почему я не могу судить о своем результате, глядя на значение p?». Получено 5 июн 2013.
^ Кларидж-Чанг, Адам; Ассам, Прайсли Н. (2016). «Оценочная статистика должна заменить тестирование значимости». Методы природы. 13 (2): 108–109. Дои:10.1038 / nmeth.3729. PMID 26820542. S2CID 205424566.
^ Хеджес, Ларри (1987). «Как твердая наука, как мягкая наука». Американский психолог. 42 (5): 443. CiteSeerX 10.1.1.408.2317. Дои:10.1037 / 0003-066x.42.5.443.
^ Хант, Мортон (1997). Как наука подводит итоги: история метаанализа. Нью-Йорк: Фонд Рассела Сейджа. ISBN 978-0-87154-398-1.
^ Фидлер, Фиона (2004). «Редакторы могут привести исследователей к доверительному интервалу, но не могут заставить их задуматься». Психологическая наука. 15 (2): 119–126. Дои:10.1111 / j.0963-7214.2004.01502008.x. PMID 14738519. S2CID 21199094.
^ Йылдызоглу, Тугче; Вайслогель, Ян-Марек; Мохаммад, Фархан; Чан, Эдвин С.-Й .; Assam, Pryseley N .; Кларидж-Чанг, Адам (8 декабря 2015 г.). "Оценка обработки информации в системе памяти: применение метааналитических методов в генетике". PLOS Genet. 11 (12): e1005718. Дои:10.1371 / journal.pgen.1005718. ISSN 1553-7404. ЧВК 4672901. PMID 26647168.
^ Хентшке, Харальд; Майк К. Штюттген (декабрь 2011 г.). «Вычисление мер величины эффекта для наборов данных нейробиологии». Европейский журнал нейробиологии. 34 (12): 1887–1894. Дои:10.1111 / j.1460-9568.2011.07902.x. PMID 22082031.
^ Камминг, Джефф. «ESCI (Исследовательское программное обеспечение для доверительных интервалов)».
^ "Публикационное руководство Американской психологической ассоциации, шестое издание". Получено 17 мая 2013.
^ «Единые требования к рукописям, представляемым в биомедицинские журналы». Архивировано из оригинал 15 мая 2013 г.. Получено 17 мая 2013.
^ «Изменение способа представления, интерпретации и обсуждения наших результатов для восстановления доверия к нашим исследованиям».
^ Камминг, Джефф; Калин-Ягеман, Роберт (2016). Введение в новую статистику: оценка, открытая наука и не только. Рутледж. ISBN 978-1138825529.
^ ^а ^б Гарднер, М. Дж .; Альтман, Д. Г. (1986-03-15). «Доверительные интервалы, а не значения P: оценка, а не проверка гипотез». Британский медицинский журнал (под ред. Клинических исследований). 292 (6522): 746–750. Дои:10.1136 / bmj.292.6522.746. ISSN 0267-0623. ЧВК 1339793. PMID 3082422.
^ Хо, Джозес; Тумкая; Ариал; Чой; Кларидж-Чанг (2018). «Выходя за рамки значений P: ежедневный анализ данных с помощью графиков оценки». bioRxiv: 377978. Дои:10.1101/377978.
^ Коэн, Джейкоб (1994). «Земля круглая (p <0,05)». Американский психолог. 49 (12): 997–1003. Дои:10.1037 / 0003-066X.49.12.997.
^ Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований. Кембридж: Издательство Кембриджского университета.
^ Дентон Э. Моррисон, Рамон Э. Хенкель, изд. (2006). Противоречие теста значимости: читатель. Алдин Транзакция. ISBN 978-0202308791.
^ Камминг, Джефф. "Танец ценностей р".
^ Бейт-Маром, Р; Fidler, F .; Камминг, Г. (2008). «Статистическое познание: к научно обоснованной практике в статистике и статистическом образовании». Статистический журнал исследований в области образования. 7: 20–39.

[1] Эллис, Пол. "Часто задаваемые вопросы о размере эффекта".

[:0-2] а ^б Коэн, Джейкоб. «Земля круглая (p <0,05)» (PDF).

[cumming-3] а ^б ^c ^d ^е ^ж ^грамм Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Нью-Йорк: Рутледж.

[button-4] а ^б Баттон, Кэтрин; Джон П. А. Иоаннидис; Клэр Мокрыш; Брайан А. Носек; Джонатан Флинт; Эмма С. Дж. Робинсон; Маркус Р. Мунафо (2013). «Сбой питания: почему небольшой размер выборки подрывает надежность нейробиологии». Обзоры природы Неврология. 14 (5): 365–76. Дои:10.1038 / номер 3475. PMID 23571845.

[5] Альтман, Дуглас (1991). Практическая статистика для медицинских исследований. Лондон: Чепмен и Холл.

[:1-6] а ^б ^c Дуглас Альтман, изд. (2000). Статистика с уверенностью. Лондон: Вили-Блэквелл.

[cohen-7] а ^б ^c Коэн, Джейкоб (1990). "Что я узнал (пока)". Американский психолог. 45 (12): 1304. Дои:10.1037 / 0003-066x.45.12.1304.

[8] Эллис, Пол (31 мая 2010 г.). «Почему я не могу судить о своем результате, глядя на значение p?». Получено 5 июн 2013.

[9] Кларидж-Чанг, Адам; Ассам, Прайсли Н. (2016). «Оценочная статистика должна заменить тестирование значимости». Методы природы. 13 (2): 108–109. Дои:10.1038 / nmeth.3729. PMID 26820542. S2CID 205424566.

[10] Хеджес, Ларри (1987). «Как твердая наука, как мягкая наука». Американский психолог. 42 (5): 443. CiteSeerX 10.1.1.408.2317. Дои:10.1037 / 0003-066x.42.5.443.

[11] Хант, Мортон (1997). Как наука подводит итоги: история метаанализа. Нью-Йорк: Фонд Рассела Сейджа. ISBN 978-0-87154-398-1.

[12] Фидлер, Фиона (2004). «Редакторы могут привести исследователей к доверительному интервалу, но не могут заставить их задуматься». Психологическая наука. 15 (2): 119–126. Дои:10.1111 / j.0963-7214.2004.01502008.x. PMID 14738519. S2CID 21199094.

[13] Йылдызоглу, Тугче; Вайслогель, Ян-Марек; Мохаммад, Фархан; Чан, Эдвин С.-Й .; Assam, Pryseley N .; Кларидж-Чанг, Адам (8 декабря 2015 г.). "Оценка обработки информации в системе памяти: применение метааналитических методов в генетике". PLOS Genet. 11 (12): e1005718. Дои:10.1371 / journal.pgen.1005718. ISSN 1553-7404. ЧВК 4672901. PMID 26647168.

[14] Хентшке, Харальд; Майк К. Штюттген (декабрь 2011 г.). «Вычисление мер величины эффекта для наборов данных нейробиологии». Европейский журнал нейробиологии. 34 (12): 1887–1894. Дои:10.1111 / j.1460-9568.2011.07902.x. PMID 22082031.

[15] Камминг, Джефф. «ESCI (Исследовательское программное обеспечение для доверительных интервалов)».

[16] "Публикационное руководство Американской психологической ассоциации, шестое издание". Получено 17 мая 2013.

[17] «Единые требования к рукописям, представляемым в биомедицинские журналы». Архивировано из оригинал 15 мая 2013 г.. Получено 17 мая 2013.

[18] «Изменение способа представления, интерпретации и обсуждения наших результатов для восстановления доверия к нашим исследованиям».

[19] Камминг, Джефф; Калин-Ягеман, Роберт (2016). Введение в новую статистику: оценка, открытая наука и не только. Рутледж. ISBN 978-1138825529.

[:2-20] а ^б Гарднер, М. Дж .; Альтман, Д. Г. (1986-03-15). «Доверительные интервалы, а не значения P: оценка, а не проверка гипотез». Британский медицинский журнал (под ред. Клинических исследований). 292 (6522): 746–750. Дои:10.1136 / bmj.292.6522.746. ISSN 0267-0623. ЧВК 1339793. PMID 3082422.

[21] Хо, Джозес; Тумкая; Ариал; Чой; Кларидж-Чанг (2018). «Выходя за рамки значений P: ежедневный анализ данных с помощью графиков оценки». bioRxiv: 377978. Дои:10.1101/377978.

[earth-22] Коэн, Джейкоб (1994). «Земля круглая (p <0,05)». Американский психолог. 49 (12): 997–1003. Дои:10.1037 / 0003-066X.49.12.997.

[23] Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований. Кембридж: Издательство Кембриджского университета.

[24] Дентон Э. Моррисон, Рамон Э. Хенкель, изд. (2006). Противоречие теста значимости: читатель. Алдин Транзакция. ISBN 978-0202308791.

[25] Камминг, Джефф. "Танец ценностей р".

[26] Бейт-Маром, Р; Fidler, F .; Камминг, Г. (2008). «Статистическое познание: к научно обоснованной практике в статистике и статистическом образовании». Статистический журнал исследований в области образования. 7: 20–39.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

Navigation