WikiDer > Линейная функция предиктора

Linear predictor function

В статистика И в машинное обучение, а функция линейного предиктора это линейная функция (линейная комбинация) набора коэффициентов и объясняющих переменных (независимые переменные), значение которого используется для прогнозирования результата зависимая переменная.^[1] Такие функции обычно входят в линейная регрессия, где коэффициенты называются коэффициенты регрессии. Однако они также встречаются в различных типах линейные классификаторы (например. логистическая регрессия,^[2] перцептроны,^[3] опорные векторные машины,^[4] и линейный дискриминантный анализ^[5]), а также в различных других моделях, таких как Анализ главных компонентов^[6] и факторный анализ. Во многих из этих моделей коэффициенты называются «весами».

Определение

Базовая форма линейной функции-предиктора ${ Displaystyle f (я)}$ для точки данных я (состоящий из п объясняющие переменные), за я = 1, ..., п, является

{ displaystyle f (i) = beta _ {0} + beta _ {1} x_ {i1} + cdots + beta _ {p} x_ {ip},}

куда ${ displaystyle x_ {ik}}$ , за k = 1, ..., п, - значение k-я независимая переменная для точки данных я, и ${ displaystyle beta _ {0}, ldots, beta _ {p}}$ являются коэффициенты (коэффициенты регрессии, веса и т. д.), указывающие на относительный эффект конкретного объясняющая переменная на исход.

Обозначения

Обычно функцию-предиктор записывают в более компактной форме следующим образом:

Коэффициенты β₀, β₁, ..., β_п сгруппированы в один вектор β размера п + 1.
Для каждой точки данных я, дополнительная объяснительная псевдопеременная Икс_я0 добавляется с фиксированным значением 1, соответствующим перехватить коэффициент β₀.
Результирующие независимые переменные Икс_i0(= 1), Икс_я1, ..., Икс_ip затем группируются в один вектор Икс_я размера п + 1.

Векторное обозначение

Это позволяет записать функцию линейного предсказания следующим образом:

{ displaystyle f (i) = { boldsymbol { beta}} cdot mathbf {x} _ {i}}

используя обозначения для скалярное произведение между двумя векторами.

Матричная запись

Эквивалентная форма с использованием матричной записи выглядит следующим образом:

{ displaystyle f (i) = { boldsymbol { beta}} ^ { mathrm {T}} mathbf {x} _ {i} = mathbf {x} _ {i} ^ { mathrm {T} } { boldsymbol { beta}}}

куда ${ displaystyle { boldsymbol { beta}}}$ и ${ Displaystyle mathbf {х} _ {я}}$ считаются (п + 1)на 1 вектор-столбец, ${ displaystyle { boldsymbol { beta}} ^ { mathrm {T}}}$ это матрица транспонировать из ${ displaystyle { boldsymbol { beta}}}$ (так ${ displaystyle { boldsymbol { beta}} ^ { mathrm {T}}}$ это 1-к-(п + 1) вектор строки), и ${ displaystyle { boldsymbol { beta}} ^ { mathrm {T}} mathbf {x} _ {i}}$ указывает матричное умножение между 1-х(п + 1) вектор-строка и (п + 1)вектор-столбец размером 1 на 1, создавая матрицу размером 1 на 1, которая считается скаляр.

Линейная регрессия

Пример использования функции линейного предсказания приведен в линейная регрессия, где каждая точка данных связана с непрерывный исход у_я, и отношения написаны

{ displaystyle y_ {i} = f (i) + varepsilon _ {i} = { boldsymbol { beta}} ^ { mathrm {T}} mathbf {x} _ {i} + varepsilon _ {я},}

куда ${ Displaystyle varepsilon _ {я}}$ это срок нарушения или переменная ошибки - ан ненаблюдаемый случайная переменная который добавляет шум к линейной зависимости между зависимой переменной и функцией предиктора.

Штабелирование

В некоторых моделях (в частности, стандартной линейной регрессии) уравнения для каждой точки данных я = 1, ..., п складываются вместе и записываются в векторной форме как

{ displaystyle mathbf {y} = mathbf {X} { boldsymbol { beta}} + { boldsymbol { varepsilon}}, ,}

куда

{ displaystyle mathbf {y} = { begin {pmatrix} y_ {1} y_ {2} vdots y_ {n} end {pmatrix}}, quad mathbf {X} = { begin {pmatrix} mathbf {x} '_ {1} mathbf {x}' _ {2} vdots mathbf {x} '_ {n} end {pmatrix}} = { begin {pmatrix} x_ {11} & cdots & x_ {1p} x_ {21} & cdots & x_ {2p} vdots & ddots & vdots x_ {n1} & cdots & x_ {np} end {pmatrix}}, quad { boldsymbol { beta}} = { begin {pmatrix} beta _ {1} vdots beta _ {p} end {pmatrix }}, quad { boldsymbol { varepsilon}} = { begin {pmatrix} varepsilon _ {1} varepsilon _ {2} vdots varepsilon _ {n} end {pmatrix }}.}

Матрица Икс известен как матрица дизайна и кодирует всю известную информацию о независимые переменные. Переменные ${ Displaystyle varepsilon _ {я}}$ находятся случайные переменные, которые в стандартной линейной регрессии распределяются согласно стандартное нормальное распределение; они выражают влияние каких-либо неизвестных факторов на исход.

Это позволяет находить оптимальные коэффициенты через метод наименьших квадратов с помощью простых матричных операций. В частности, оптимальные коэффициенты ${ displaystyle { boldsymbol { hat { beta}}}}$ по методу наименьших квадратов можно записать следующим образом:

{ displaystyle { boldsymbol { hat { beta}}} = (X ^ { mathrm {T}} X) ^ {- 1} X ^ { mathrm {T}} mathbf {y}.}

Матрица ${ displaystyle (X ^ { mathrm {T}} X) ^ {- 1} X ^ { mathrm {T}}}$ известен как Псевдообратная матрица Мура-Пенроуза из Икс. Использование матрица обратная в этой формуле требует, чтобы Икс имеет полный ранг, т.е. нет идеального мультиколлинеарность среди различных объясняющих переменных (т. е. никакую независимую переменную невозможно точно предсказать на основе других). В таких случаях разложение по сингулярным числам может использоваться для вычисления псевдообратной матрицы.

Объясняющие переменные

Хотя предполагается, что ожидаемые результаты (зависимые переменные) случайные переменные, сами объясняющие переменные обычно не считаются случайными^{[нужна цитата]}. Вместо этого предполагается, что они являются фиксированными значениями, а любые случайные переменные (например, результаты) считаются условный на них^{[нужна цитата]}. В результате аналитик данных может преобразовывать независимые переменные произвольными способами, включая создание нескольких копий данной независимой переменной, каждая из которых преобразована с использованием другой функции. Другие распространенные методы - создание новых объясняющих переменных в виде переменные взаимодействия путем взятия произведения двух (а иногда и более) существующих независимых переменных.

Когда фиксированный набор нелинейных функций используется для преобразования значения (значений) точки данных, эти функции известны как базисные функции. Примером является полиномиальная регрессия, который использует линейную функцию предиктора, чтобы соответствовать произвольной степени многочлен взаимосвязь (до заданного порядка) между двумя наборами точек данных (т. е. один ценный объясняющая переменная и связанная с ней действительная зависимая переменная) путем добавления нескольких объясняющих переменных, соответствующих различным степеням существующей объясняющей переменной. Математически форма выглядит так:

{ displaystyle y_ {i} = beta _ {0} + beta _ {1} x_ {i} + beta _ {2} x_ {i} ^ {2} + cdots + beta _ {p} x_ {i} ^ {p}.}

В этом случае для каждой точки данных я, набор независимых переменных создается следующим образом:

{ displaystyle (x_ {i1} = x_ {i}, quad x_ {i2} = x_ {i} ^ {2}, quad ldots, quad x_ {ip} = x_ {i} ^ {p}) )}

а затем стандартный линейная регрессия запущен. Базовые функции в этом примере будут

{ displaystyle { boldsymbol { phi}} (x) = ( phi _ {1} (x), phi _ {2} (x), ldots, phi _ {p} (x)) = (x, x ^ {2}, ldots, x ^ {p}).}

Этот пример показывает, что функция линейного предсказания на самом деле может быть гораздо более мощной, чем кажется на первый взгляд: она действительно должна быть линейной только в коэффициенты. Модель может соответствовать всевозможным нелинейным функциям независимых переменных.

Нет особой необходимости в том, чтобы входные данные базисных функций были одномерными или одномерными (или их выходами, если на то пошло, хотя в таком случае K-мерное выходное значение, вероятно, будет рассматриваться как K отдельные базисные функции скалярного вывода). Примером этого является радиальные базисные функции (RBF), которые вычисляют некоторую преобразованную версию расстояния до некоторой фиксированной точки:

{ displaystyle phi ( mathbf {x}; mathbf {c}) = phi (|| mathbf {x} - mathbf {c} ||) = phi ({ sqrt {(x_ {1 } -c_ {1}) ^ {2} + ldots + (x_ {K} -c_ {K}) ^ {2}}})}

Примером может служить Гауссовский RBF, имеющий ту же функциональную форму, что и нормальное распределение:

{ displaystyle phi ( mathbf {x}; mathbf {c}) = e ^ {- b || mathbf {x} - mathbf {c} || ^ {2}}}

который быстро спадает по мере удаления от c увеличивается.

Возможное использование RBF - создание одной для каждой наблюдаемой точки данных. Это означает, что результат применения RBF к новой точке данных будет близок к 0, если только новая точка не находится рядом с точкой, вокруг которой был применен RBF. То есть применение радиальных базисных функций выберет ближайшую точку, и ее коэффициент регрессии будет доминировать. Результатом будет форма интерполяция ближайшего соседа, где прогнозы делаются путем простого использования прогноза ближайшей наблюдаемой точки данных, возможно, интерполяции между несколькими ближайшими точками данных, когда все они находятся на одинаковом расстоянии. Этот тип метод ближайшего соседа для предсказания часто считается диаметрально противоположным типу предсказания, используемому в стандартной линейной регрессии: но на самом деле преобразования, которые могут быть применены к независимым переменным в линейной функции предсказателя, настолько мощны, что даже метод ближайшего соседа может быть реализован как тип линейной регрессии.

Можно даже подобрать некоторые функции, которые кажутся нелинейными в коэффициентах, путем преобразования коэффициентов в новые коэффициенты, которые действительно кажутся линейными. Например, функция вида ${ displaystyle a + b ^ {2} x_ {i1} + { sqrt {c}} x_ {i2}}$ для коэффициентов ${ displaystyle a, b, c}$ можно преобразовать в соответствующую линейную функцию с помощью подстановок ${ displaystyle b '= b ^ {2}, c' = { sqrt {c}},}$ ведущий к ${ displaystyle a + b'x_ {i1} + c'x_ {i2},}$ который является линейным. Можно применить линейную регрессию и аналогичные методы, и они часто по-прежнему будут находить оптимальные коэффициенты, но их оценки ошибок и тому подобное будут неверными.

Объясняющие переменные могут быть любыми тип: ценный, двоичный, категоричныйи т. д. Основное различие между непрерывные переменные (например, доход, возраст, артериальное давлениеи т. д.) и дискретные переменные (например, пол, раса, политическая партия и т. д.). Дискретные переменные, относящиеся к более чем двум возможным вариантам, обычно кодируются с использованием фиктивные переменные (или индикаторные переменные), т.е. отдельные независимые переменные, принимающие значение 0 или 1, создаются для каждого возможного значения дискретной переменной, где 1 означает «переменная имеет данное значение», а 0 означает «переменная не имеет данного значения». Например, четырехсторонняя дискретная переменная группа крови с возможными значениями «A, B, AB, O» будут преобразованы в отдельные двусторонние фиктивные переменные: «is-A, is-B, is-AB, is-O», где только одна из них имеет значение 1 и все остальные имеют значение 0. Это позволяет сопоставить отдельные коэффициенты регрессии для каждого возможного значения дискретной переменной.

Обратите внимание, что для K категории, не все K фиктивные переменные не зависят друг от друга. Например, в приведенном выше примере группы крови только три из четырех фиктивных переменных являются независимыми в том смысле, что после того, как значения трех переменных известны, четвертая определяется автоматически. Таким образом, действительно необходимо закодировать только три из четырех возможностей как фиктивные переменные, и на самом деле, если все четыре возможности закодированы, общая модель становится нестандартной.идентифицируемый. Это вызывает проблемы для ряда методов, таких как простое решение в замкнутой форме, используемое в линейной регрессии. Решение состоит в том, чтобы избежать таких случаев, исключив одну из фиктивных переменных, и / или ввести регуляризация ограничение (что требует более мощного, как правило, итеративного метода нахождения оптимальных коэффициентов).

Navigation

Navigation

Themenportale