От машины опорных векторов к машине опорных векторов методом наименьших квадратов
Учитывая обучающий набор с входными данными и соответствующие метки двоичного класса , то SVM[2] классификатор, согласно ВапникОригинальная формулировка удовлетворяет следующим условиям:
Данные спирали: для синей точки данных, для красной точки данных
что эквивалентно
где является нелинейным отображением исходного пространства в многомерное или бесконечномерное пространство.
Неразделимые данные
В случае, если такой разделяющей гиперплоскости не существует, введем так называемые резервные переменные такой, что
Подставив выражением его в лагранжиане, сформированном из соответствующей цели и ограничений, мы получим следующую задачу квадратичного программирования:
где называется функция ядра. Решая эту задачу КП с ограничениями в (8), мы получим гиперплоскость в многомерном пространстве и, следовательно, классификатор в исходном пространстве.
Формулировка SVM методом наименьших квадратов
Версия классификатора SVM методом наименьших квадратов получается переформулировкой задачи минимизации как
с учетом ограничений равенства
Приведенная выше формулировка классификатора методом наименьших квадратов (LS-SVM) неявно соответствует регресс интерпретация с двоичными целями .
С помощью , у нас есть
с участием Обратите внимание, что эта ошибка также имеет смысл при подборе данных методом наименьших квадратов, так что те же конечные результаты сохраняются и для случая регрессии.
И то и другое и следует рассматривать как гиперпараметры для настройки степени регуляризации по сравнению с квадратичной ошибкой суммы. Решение зависит только от соотношения , поэтому в исходной формулировке используются только как параметр настройки. Мы используем оба и как параметры, чтобы обеспечить байесовскую интерпретацию LS-SVM.
Решение регрессора LS-SVM будет получено после построения Функция Лагранжа:
где , , , и являются константами. Обратите внимание, что условие Мерсера выполняется для всех и ценности в многочлен и случай RBF, но не для всех возможных вариантов и в случае MLP. Параметры шкалы , и определить масштабирование входов в полиноме, RBF и MLP функция ядра. Это масштабирование связано с пропускной способностью ядра в статистика, где показано, что полоса пропускания является важным параметром обобщающего поведения метода ядра.
Байесовская интерпретация LS-SVM
А Байесовский интерпретация SVM была предложена Smola et al. Они показали, что использование разных ядер в SVM можно рассматривать как определение разных априорная вероятность распределения на функциональном пространстве, как . Вот является константой и - оператор регуляризации, соответствующий выбранному ядру.
Общая байесовская система доказательств была разработана Маккеем,[3][4][5] и Маккей использовал это к проблеме регресса, вперед нейронная сеть и классификационная сеть. Предоставляемый набор данных , модель с вектором параметров и так называемый гиперпараметр или параметр регуляризации , Байесовский вывод построен с 3 уровнями вывода:
На уровне 1 при заданном значении , первый уровень вывода определяет апостериорное распределение по байесовскому правилу
Второй уровень вывода определяет значение , максимизируя
Третий уровень вывода в структуре доказательств ранжирует различные модели, исследуя их апостериорные вероятности.
Мы видим, что байесовская система доказательств представляет собой единую теорию для обучение Модель и выбор модели. Квок использовал байесовскую систему доказательств для интерпретации формулировки SVM и выбора модели. И он также применил байесовскую систему доказательств для поддержки векторной регрессии.
Теперь, учитывая точки данных и гиперпараметры и модели , параметры модели и оцениваются максимизацией апостериорного . Применяя правило Байеса, получаем
где - нормирующая постоянная, такая как интеграл по всем возможным и равно 1. Полагаем и не зависят от гиперпараметра , и условно независимы, т. е. полагаем
Когда , распределение приблизит равномерное распределение. Кроме того, мы предполагаем и являются распределением Гаусса, поэтому мы получаем априорное распределение и с участием быть
Вот - размерность пространства признаков, такая же, как размерность .
Вероятность предполагается, что зависит только от и . Мы предполагаем, что точки данных независимо распределены одинаково (i.i.d.), так что:
Чтобы получить функцию наименьших квадратов стоимости, предполагается, что вероятность точки данных пропорциональна:
Для ошибок принято гауссово распределение так как:
Предполагается, что и определяются таким образом, что центры классов и отображаются на цель -1 и +1 соответственно. Прогнозы элементов класса следовать многомерному распределению Гаусса, которое имеет дисперсию .
Комбинируя предыдущие выражения и пренебрегая всеми константами, правило Байеса становится
Оценки максимальной апостериорной плотности и получаются минимизацией отрицательного логарифма (26), так что мы приходим к (10).
использованная литература
^Suykens, J. A. K .; Vandewalle, J. (1999) "Метод наименьших квадратов опорных векторных машинных классификаторов", Письма нейронной обработки, 9 (3), 293–300.
^Вапник В. Сущность теории статистического обучения. Спрингер-Верлаг, Нью-Йорк, 1995.
^Маккей, Д. Дж. К. Байесовская интерполяция. Нейронные вычисления, 4 (3): 415–447, май 1992 г.
^Маккей, Д. Дж. С. Практическая байесовская структура для сетей обратного распространения. Нейронные вычисления, 4 (3): 448–472, май 1992 г.
^MacKay, D. J. C. Система доказательств, применяемая к классификационным сетям. Нейронные вычисления, 4 (5): 720–736, сентябрь 1992 г.
Список используемой литературы
J. A. K. Suykens, T. Van Gestel, J. De Brabanter, B. De Moor, J. Vandewalle, Машины опорных векторов методом наименьших квадратов, World Scientific Pub. Co., Сингапур, 2002 г. ISBN981-238-151-1
Суйкенс Дж. А. К., Вандевалле Дж., Метод наименьших квадратов поддерживает векторные машинные классификаторы. Письма нейронной обработки, т. 9, вып. 3, июнь 1999 г., стр. 293–300.
Владимир Вапник. Природа статистической теории обучения. Springer-Verlag, 1995. ISBN0-387-98780-0
Маккей, Д. Дж. С., Вероятные сети и правдоподобные прогнозы - Обзор практических байесовских методов для контролируемых нейронных сетей. Сеть: вычисления в нейронных системах, т. 6, 1995, стр. 469–505.
внешние ссылки
www.esat.kuleuven.be/sista/lssvmlab/ «Набор инструментов Лаборатории векторной машины поддержки наименьших квадратов (LS-SVMlab) содержит реализации Matlab / C для ряда алгоритмов LS-SVM».
www.kernel-machines.org «Поддержка векторных машин и методов на основе ядра (Smola & Schölkopf)».
www.gaussianprocess.org «Гауссовские процессы: моделирование данных с использованием априорных значений гауссовского процесса над функциями регрессии и классификации (Маккей, Уильямс)».
www.support-vector.net «Поддержка векторных машин и методов на основе ядра (Cristianini)».
dlib: Содержит реализацию SVM методом наименьших квадратов для крупномасштабных наборов данных.