WikiDer > Множественная корреляция

Multiple correlation

В статистика, коэффициент множественная корреляция является мерой того, насколько хорошо данную переменную можно предсказать, используя линейная функция набора других переменных. Это корреляция между значениями переменной и лучшими предсказаниями, которые могут быть вычислены линейно от прогнозных переменных.^[1]

Коэффициент множественной корреляции принимает значения от 0,00 до 1,00; более высокое значение указывает на высокую предсказуемость зависимая переменная от независимые переменные, со значением 1, указывающим, что прогнозы в точности верны, и значением 0, указывающим, что никакая линейная комбинация независимых переменных не является лучшим предсказателем, чем фиксированная значить зависимой переменной.^[2]

Коэффициент множественной корреляции известен как квадратный корень из коэффициент детерминации, но при определенных предположениях о том, что перехватчик включен и используются наилучшие возможные линейные предикторы, тогда как коэффициент детерминации определяется для более общих случаев, включая случаи нелинейного прогнозирования и те, в которых прогнозируемые значения не были получены из процедура подгонки модели.

Определение

Коэффициент множественной корреляции, обозначаемый р, это скаляр что определяется как Коэффициент корреляции Пирсона между прогнозируемыми и фактическими значениями зависимой переменной в модели линейной регрессии, которая включает перехватить.

Вычисление

Квадрат коэффициента множественной корреляции можно вычислить с помощью вектор ${ displaystyle mathbf {c} = {(r_ {x_ {1} y}, r_ {x_ {2} y}, dots, r_ {x_ {N} y})} ^ { top}}$ из корреляции ${ displaystyle r_ {x_ {n} y}}$ между переменными-предикторами ${ displaystyle x_ {n}}$ (независимые переменные) и целевая переменная ${ displaystyle y}$ (зависимая переменная), а корреляционная матрица ${ displaystyle R_ {xx}}$ корреляций между переменными-предикторами. Это дается

{ Displaystyle R ^ {2} = mathbf {c} ^ { top} R_ {xx} ^ {- 1} , mathbf {c},}

где ${ displaystyle mathbf {c} ^ { top}}$ это транспонировать из ${ displaystyle mathbf {c}}$ , и ${ displaystyle R_ {xx} ^ {- 1}}$ это обратный матрицы

{ displaystyle R_ {xx} = left ({ begin {array} {cccc} r_ {x_ {1} x_ {1}} & r_ {x_ {1} x_ {2}} & dots & r_ {x_ {1}) } x_ {N}} r_ {x_ {2} x_ {1}} & ddots && vdots vdots && ddots & r_ {x_ {N} x_ {1}} & dots && r_ {x_ {N} x_ {N}} end {array}} right).}

Если все переменные-предикторы некоррелированы, матрица ${ displaystyle R_ {xx}}$ - единичная матрица и ${ displaystyle R ^ {2}}$ просто равно ${ Displaystyle mathbf {c} ^ { top} , mathbf {c}}$ , сумма квадратов корреляций с зависимой переменной. Если переменные-предикторы коррелированы между собой, обратная корреляционная матрица ${ displaystyle R_ {xx}}$ объясняет это.

Квадрат коэффициента множественной корреляции также можно вычислить как долю дисперсии зависимой переменной, которая объясняется независимыми переменными, которая, в свою очередь, равна 1 минус необъяснимая доля. Необъяснимая дробь может быть вычислена как сумма квадратов остатков- то есть сумма квадратов ошибок прогнозирования, деленная на сумма квадратов отклонений значений зависимой переменной из его ожидаемое значение.

Свойства

Если более двух переменных связаны друг с другом, значение коэффициента множественной корреляции зависит от выбора зависимой переменной: регрессия ${ displaystyle y}$ на ${ displaystyle x}$ и ${ displaystyle z}$ будет вообще другой ${ displaystyle R}$ чем будет регресс ${ displaystyle z}$ на ${ displaystyle x}$ и ${ displaystyle y}$ . Например, предположим, что в конкретном примере переменная ${ displaystyle z}$ является некоррелированный с обоими ${ displaystyle x}$ и ${ displaystyle y}$ , в то время как ${ displaystyle x}$ и ${ displaystyle y}$ линейно связаны друг с другом. Затем регресс ${ displaystyle z}$ на ${ displaystyle y}$ и ${ displaystyle x}$ даст ${ displaystyle R}$ нуля, а регрессия ${ displaystyle y}$ на ${ displaystyle x}$ и ${ displaystyle z}$ даст строго положительный ${ displaystyle R}$ . Это следует из того, что соотношение ${ displaystyle y}$ с его лучшим предсказателем, основанным на ${ displaystyle x}$ и ${ displaystyle z}$ во всех случаях не меньше, чем соотношение ${ displaystyle y}$ с его лучшим предсказателем, основанным на ${ displaystyle x}$ в одиночку, и в этом случае с ${ displaystyle z}$ не имея объяснительной силы, он будет точно таким же большим.

использованная литература

дальнейшее чтение

Эллисон, Пол Д. (1998). Множественная регрессия: учебник. Лондон: Sage Publications. ISBN 9780761985334
Коэн, Джейкоб и др. (2002). Прикладная множественная регрессия: корреляционный анализ для поведенческих наук. ISBN 0805822232
Корона, Уильям Х. (1998). Статистические модели для социальных и поведенческих наук: множественная регрессия и модели с ограниченно зависимыми переменными. ISBN 0275953165
Эдвардс, Аллен Луи (1985). Множественная регрессия, дисперсионный и ковариационный анализ.. ISBN 0716710811
Кит, Тимоти (2006). Множественная регрессия и не только. Бостон: образование Пирсона.
Фред Н. Керлингер, Элазар Дж. Педхазур (1973). Множественная регрессия в поведенческих исследованиях. Нью-Йорк: Холт Райнхарт Уинстон. ISBN 9780030862113
Стэнтон, Джеффри М. (2001). «Гальтон, Пирсон и горох: краткая история линейной регрессии для инструкторов по статистике», Журнал статистики образования, 9 (3).

[1] Введение в множественную регрессию

[2] Коэффициент множественной корреляции

[1]

[2]

Navigation