WikiDer > Единичная регрессия
Эта статья требует внимания специалиста по статистике.Ноябрь 2013) ( |
В статистика, взвешенная регрессия это упрощенный и крепкий версия (Wainer & Thissen, 1976) из множественная регрессия анализ, в котором оценивается только член перехвата. То есть подходит под модель
где каждый из являются двоичными переменными, возможно, умноженными на произвольный вес.
Сравните это с более распространенной моделью множественной регрессии, где каждый предиктор имеет свой собственный оценочный коэффициент:
в социальные науки, взвешенная регрессия иногда используется для двоичных классификация, т.е. к предсказать ответ да-нет куда указывает "нет", "да". Его легче интерпретировать, чем множественную линейную регрессию (известную как линейный дискриминантный анализ в случае классификации).
Вес единицы
Единичная регрессия - это метод надежная регрессия это происходит в три этапа. Сначала выбираются предикторы для интересующего результата; в идеале для выбора должны быть веские эмпирические или теоретические основания. Во-вторых, предикторы преобразуются в стандартную форму. Наконец, предикторы складываются, и эта сумма называется вариацией, которая используется в качестве предиктора результата.
Метод Берджесса
Метод Берджесса впервые был представлен социологом Эрнест В. Берджесс в исследовании 1928 года для определения успеха или неудачи условно-досрочно освобожденных заключенных. Во-первых, он выбрал 21 переменную, которая, как считается, связана с успехом в условно-досрочном освобождении. Затем он преобразовал каждый предиктор в стандартную форму нуля или единицы (Берджесс, 1928). Когда предикторы имели два значения, значение, связанное с целевым результатом, кодировалось как одно. Берджесс выбрал успех условно-досрочного освобождения в качестве целевого результата, поэтому предсказатель, такой как история воровства был закодирован как «да» = 0 и «нет» = 1. Эти закодированные значения были затем добавлены для создания оценки предиктора, так что более высокие оценки предсказывали больше шансов на успех. Баллы могут варьироваться от нуля (нет предикторов успеха) до 21 (все 21 предиктор оцениваются как предсказывающие успех).
Для предикторов с более чем двумя значениями метод Берджесса выбирает оценку отсечения на основе субъективного суждения. Например, в исследовании с использованием метода Берджесса (Gottfredson & Snyder, 2005) было выбрано в качестве одного предиктора количество жалоб на правонарушительное поведение. При отказе от условно-досрочного освобождения в качестве целевого результата количество жалоб было закодировано следующим образом: «от нуля до двух жалоб» = 0 и «три или более жалоб» = 1 (Gottfredson & Snyder, 2005. p. 18).
Метод Керби
Метод Керби похож на метод Берджесса, но отличается двумя способами. Во-первых, в то время как метод Берджесса использует субъективное суждение для выбора порогового значения для многозначного предиктора с двоичным результатом, метод Керби использует классификацию и дерево регрессии (КОРЗИНА) анализ. Таким образом, выбор пороговой оценки основан не на субъективном суждении, а на статистическом критерии, таком как точка, в которой значение хи-квадрат является максимальным.
Второе отличие состоит в том, что в то время как метод Берджесса применяется к двоичному результату, метод Керби может применяться к многозначному результату, потому что анализ CART может определять граничные оценки в таких случаях, используя такой критерий, как точка, в которой t- значение максимальное. Поскольку анализ CART является не только двоичным, но и рекурсивным, результатом может быть то, что переменная-предиктор будет снова разделена, давая две оценки отсечения. Стандартная форма для каждого предиктора состоит в том, что оценка, равная единице, добавляется, когда анализ CART создает раздел.
Одно исследование (Kerby, 2003) выбрало в качестве предикторов пять признаков Большая пятерка личностных качеств, предсказывая многозначную меру суицидальные мысли. Затем показатели личности были преобразованы в стандартную форму с помощью анализа CART. Когда анализ CART дал одно разделение, результат был похож на метод Берджесса в том, что предиктор был закодирован как ноль или единица. Но для показателя невротизма результатом были две пороговые оценки. Поскольку более высокие баллы невротизма коррелировали с более суицидными мыслями, два пороговых значения привели к следующему кодированию: «низкий невротизм» = 0, «умеренный невротизм» = 1, «высокий невротизм» = 2 (Kerby, 2003).
zметод оценки
Другой метод может применяться, когда предикторы измеряются в непрерывной шкале. В таком случае каждый предиктор можно преобразовать в стандартная оценка, или же z-счет, чтобы все предикторы имели нулевое среднее значение и единичное стандартное отклонение. При использовании этого метода взвешенной регрессии вариация представляет собой сумму z- баллы (например, Dawes, 1979; Bobko, Roth, & Buster, 2007).
Литературный обзор
Первым эмпирическим исследованием с использованием взвешенной регрессии считается исследование социолога 1928 года. Эрнест В. Берджесс. Он использовал 21 переменную, чтобы предсказать успех или неудачу условно-досрочного освобождения, и результаты показывают, что удельные веса являются полезным инструментом при принятии решения о том, кого из заключенных освободить условно-досрочно. Из заключенных с лучшими оценками 98% действительно добились условно-досрочного освобождения; и из тех, кто набрал худшие результаты, только 24% действительно добились успеха (Burgess, 1928).
Математические вопросы, связанные с взвешенной регрессией, впервые были обсуждены в 1938 г. Сэмюэл Стэнли Уилкс, ведущий статистик, интересовавшийся многомерный анализ. Уилкс описал, как веса единиц могут использоваться на практике, когда данные для оценки бета-весов недоступны. Например, небольшой колледж может захотеть отобрать хороших студентов для поступления. Но у школы может не быть денег для сбора данных и проведения стандартного множественного регрессионного анализа. В этом случае школа может использовать несколько предикторов - оценки в старшей школе, результаты SAT, рейтинги учителей. Уилкс (1938) математически показал, почему единицы веса должны хорошо работать на практике.
Франк Шмидт (1971) провел имитационное исследование единичных весов. Его результаты показали, что Уилкс действительно был прав и что единицы веса, как правило, хорошо работают при моделировании практических занятий.
Робин Доус (1979) обсуждали использование единичных весов в прикладных исследованиях, имея в виду надежную красоту взвешенных единиц. Джейкоб Коэн также обсудили значение единиц веса и отметили их практическую полезность. Более того, он писал: «На практике в большинстве случаев нам лучше использовать единичные веса» (Коэн, 1990, стр. 1306).
Дэйв Керби (2003) показал, что удельные веса хорошо сравниваются со стандартной регрессией, делая это с перекрестная проверка исследование, то есть он вывел бета-веса в одной выборке и применил их ко второй выборке. Результатом интереса было суицидальное мышление, а прогностическими переменными были общие черты личности. В выборке перекрестной проверки корреляция между личностью и суицидальным мышлением была немного сильнее при взвешенной регрессии (р = 0,48), чем при стандартной множественной регрессии (р = .47).
Готтфредсон и Снайдер (2005) сравнили метод взвешенной регрессии Берджесса с другими методами с выборкой построения N = 1,924 и выборкой перекрестной проверки N = 7,552. Используя точечный бисериал Пирсона, размер эффекта в выборке перекрестной проверки для модели единичных весов был р = 0,392, что несколько больше, чем для логистической регрессии (р = 0,368) и прогнозный атрибутный анализ (р = 0,387), и меньше, чем множественная регрессия только в третьем десятичном разряде (р = .397).
В обзоре литературы по единичным весам Бобко, Рот и Бастер (2007) отметили, что «единичные веса и веса регрессии работают одинаково с точки зрения величины перекрестно проверенной множественной корреляции, и эмпирические исследования подтвердили этот результат в нескольких десятилетия »(с. 693).
Андреас Грефе применил подход равных весов к девяти установленным модели множественной регрессии для прогнозирования Президентские выборы в США. За десять выборов с 1976 по 2012 год одинаково взвешенные предикторы уменьшили ошибку прогноза исходных регрессионных моделей в среднем на четыре процента. Модель равных весов, включающая все переменные, обеспечивала откалиброванные прогнозы, которые уменьшили ошибку наиболее точной регрессионной модели на 29% процентов.[1]
Пример
Пример может прояснить, как единицы веса могут быть полезны на практике.
Бренна Брай и его коллеги (1982) обратились к вопросу о причинах употребления наркотиков у подростков. Предыдущие исследования использовали множественную регрессию; с помощью этого метода естественно искать лучший предсказатель с наибольшим бета-весом. Брай и его коллеги отметили, что одно из предыдущих исследований показало, что раннее употребление алкоголя является лучшим предсказателем. Другое исследование показало, что отчуждение от родителей было лучшим предсказателем. Еще одно исследование показало, что низкие оценки в школе являются лучшим предсказателем. Отсутствие репликации явно было проблемой, проблемой, которая могла быть вызвана отскоком бета-версий.
Брай и его коллеги предложили другой подход: вместо того, чтобы искать лучший предиктор, они смотрели на количество предикторов. Другими словами, они присвоили каждому предсказателю единичный вес. В их исследовании было шесть предикторов: 1) низкие оценки в школе, 2) отсутствие принадлежности к религии, 3) ранний возраст употребления алкоголя, 4) психологический стресс, 5) низкая самооценка и 6) отчуждение от родителей. Чтобы преобразовать предикторы в стандартную форму, каждый фактор риска оценивался как отсутствующий (оценивался как ноль) или как присутствующий (оценивался как один). Например, для младших классов в школе кодировка была следующей: «C или выше» = 0, «D или F» = 1. Результаты показали, что количество факторов риска было хорошим предиктором употребления наркотиков: подростки с более факторы риска чаще употребляли наркотики.
Модель, которую использовали Брай и его коллеги, заключалась в том, что потребители наркотиков ничем не отличаются от потребителей наркотиков. Скорее, они различаются по количеству проблем, с которыми им приходится сталкиваться. «Число факторов, с которыми индивидуум должен справиться, более важно, чем то, каковы именно эти факторы» (стр. 277). С учетом этой модели подходящим методом анализа является взвешенная регрессия.
Бета-веса
В стандартной множественной регрессии каждый предиктор умножается на число, которое называется бета-вес, регрессионный вес или же взвешенные коэффициенты регрессии (обозначается βW или BW).[нужна цитата] Прогноз получается добавлением этих продуктов вместе с константой. Когда веса выбираются так, чтобы дать лучший прогноз по некоторому критерию, модель, называемая правильная линейная модель. Следовательно, множественная регрессия - это правильная линейная модель. В отличие от этого, регрессия с единичным взвешиванием называется неправильной линейной моделью.
Спецификация модели
Стандартная множественная регрессия основана на предположении, что все соответствующие предикторы результата включены в регрессионную модель. Это предположение называется спецификацией модели. Считается, что модель указана, когда все соответствующие предикторы включены в модель, а все нерелевантные предикторы исключены из модели. В практических условиях исследование редко может априори определить все соответствующие предикторы. В этом случае модели не указываются, а оценки бета-весов страдают из-за смещения переменной. То есть веса бета-версии могут меняться от одной выборки к другой, что иногда называют проблемой прыгающих бета-версий. Именно эта проблема с отскакивающими бета-версиями делает взвешенную по единице регрессию полезным методом.
Смотрите также
Рекомендации
- ^ Грефе, Андреас (2015). «Улучшение прогнозов с использованием одинаково взвешенных предикторов» (PDF). Журнал бизнес-исследований. Эльзевир. 68 (8): 1792–1799. Дои:10.1016 / j.jbusres.2015.03.038.
- Бобко П., Рот П. Л. и Бастер М. А. (2007). «Полезность единичных весов в создании составных баллов: обзор литературы, применение к валидности контента и метаанализ». Организационные методы исследования, том 10, страницы 689-709. Дои:10.1177/1094428106294734
- Bry, B.H .; McKeon, P .; Пандина, Р. Дж. (1982). «Степень употребления наркотиков в зависимости от ряда факторов риска». Журнал аномальной психологии. 91 (4): 273–279. Дои:10.1037 / 0021-843X.91.4.273. PMID 7130523.
- Берджесс, Э. У. (1928). «Факторы, определяющие успех или неудачу условно-досрочного освобождения». В А. А. Брюсе (ред.), Принципы закона о бессрочном приговоре и условно-досрочном освобождении в Иллинойсе (стр. 205–249). Спрингфилд, Иллинойс: Совет по условно-досрочному освобождению штата Иллинойс. Книги Google
- Коэн, Джейкоб. (1990). «Вещи, которые я узнал (пока)». Американский психолог, том 45, страницы 1304-1312. Дои:10.1037 / 0003-066X.45.12.1304
- Доус, Робин М. (1979). «Надежная красота неправильных линейных моделей в принятии решений». Американский психолог, том 34, страницы 571-582. Дои:10.1037 / 0003-066X.34.7.571 . архивный pdf
- Готтфредсон, Д. М., и Снайдер, Н. Н. (июль 2005 г.). Математика классификации рисков: превращение данных в действенные инструменты для судов по делам несовершеннолетних. Питтсбург, Пенсильвания: Национальный центр ювенальной юстиции. NCJ 209158. Eric.ed.gov pdf
- Керби, Дэйв С. (2003). «Анализ CART с взвешенной регрессией для прогнозирования суицидальных мыслей по чертам Большой пятерки». Личность и индивидуальные различия, том 35, страницы 249-261. Дои:10.1016 / S0191-8869 (02) 00174-5
- Шмидт, Франк Л. (1971). «Относительная эффективность регрессии и простых единиц веса предиктора в прикладной дифференциальной психологии». Образовательные и психологические измерения, том 31, страницы 699-714. Дои:10.1177/001316447103100310
- Wainer, H., & Thissen, D. (1976). Три шага к устойчивой регрессии. Психометрика, том 41 (1), страницы 9–34. Дои:10.1007 / BF02291695
- Уилкс, С. С. (1938). «Системы взвешивания для линейных функций коррелированных переменных при отсутствии зависимой переменной». Психометрика. 3: 23–40. Дои:10.1007 / BF02287917.
дальнейшее чтение
- Дана, Дж., И Дауэс, Р. М. (2004). «Превосходство простых альтернатив регрессии для прогнозов социальных наук». Журнал образовательной и поведенческой статистики, том 29 (3), страницы 317-331. Дои:10.3102/10769986029003317
- Доус, Р. М., и Корриган, Б. (1974). Линейные модели в принятии решений. Психологический бюллетень, том 81, страницы 95–106. Дои:10,1037 / ч0037613
- Эйнхорн, Х. Дж., И Хогарт, Р. М. (1975). Схемы взвешивания единиц для принятия решений. Организационное поведение и деятельность человека, том 13 (2), страницы 171-192. Дои:10.1016/0030-5073(75)90044-6
- Хаким, М. (1948). Обоснованность метода предсказания условно-досрочного освобождения по методу Берджесса. Американский журнал социологии, том 53 (5), страницы 376-386. JSTOR
- Ньюман, Дж. Р., Сивер, Д., Эдвардс, В. (1976). Единичные и дифференциальные схемы взвешивания для принятия решений: метод исследования и некоторые предварительные результаты. Лос-Анджелес, Калифорния: Институт социальных исследований. архивный pdf
- Раджу, Н. С., Билджик, Р., Эдвардс, Дж. Э., Флир, П. Ф. (1997). Обзор методологии: оценка валидности и перекрестной валидности населения, а также использование равных весов в прогнозировании. Прикладное психологическое измерение, том 21 (4), страницы 291-305. Дои:10.1177/01466216970214001
- Ри, М. Дж., Карретта, Т. Р., и Эрлз, Дж. А. (1998). «В нисходящих решениях весовые переменные не имеют значения: следствие теоремы Уилка». Организационные методы исследования, том 1 (4), страницы 407-420. Дои:10.1177/109442819814003
- Уэйнер, Ховард (1976). «Оценка коэффициентов в линейных моделях: это не имеет значения» (PDF). Психологический бюллетень. 83 (2): 213. Дои:10.1037/0033-2909.83.2.213.архивный pdf
- Уайнер, Х. (1978). О чувствительности регрессии и регрессоров. Психологический бюллетень, том 85 (2), страницы 267-273. Дои:10.1037/0033-2909.85.2.267
внешняя ссылка
- Блог Chis Stucchio - Почему список за / против на 75% лучше вашего воображения машинное обучение алгоритм