WikiDer > Фактор локального выброса

Local outlier factor

В обнаружение аномалии, то фактор локального выброса (LOF) - алгоритм, предложенный Маркусом М. Бройнигом, Ханс-Петер Кригель, Raymond T. Ng и Jörg Sander в 2000 г. за поиск аномальных точек данных путем измерения локального отклонения данной точки данных относительно ее соседей.^[1]

LOF разделяет некоторые концепции с DBSCAN и ОПТИКА такие как понятия «базовое расстояние» и «расстояние достижимости», которые используются для оценки локальной плотности.^[2]

Основная идея

Основная идея LOF: сравнение локальной плотности точки с плотностями ее соседей. A имеет гораздо меньшую плотность, чем его соседи.

Фактор локального выброса основан на концепции локальной плотности, где локальность определяется как k ближайшие соседи, расстояние от которых используется для оценки плотности. Сравнивая локальную плотность объекта с локальной плотностью его соседей, можно идентифицировать области с аналогичной плотностью и точки, которые имеют значительно меньшую плотность, чем их соседи. Они считаются выбросы.

Локальная плотность оценивается типичным расстоянием, на котором точка может быть «достигнута» от ее соседей. Определение «расстояния достижимости», используемое в LOF, является дополнительной мерой для получения более стабильных результатов в кластерах. «Расстояние достижимости», используемое LOF, имеет некоторые тонкие детали, которые часто обнаруживаются неверными во вторичных источниках, например, в учебнике Этхема Алпайдина.^[3]

Формальный

Позволять $k -расстояние(А)$ быть расстоянием до объекта А к k-й ближайший сосед. Обратите внимание, что набор k Ближайшие соседи включают все объекты на этом расстоянии, которое в случае "связи" может быть больше, чем k объекты. Обозначим множество k ближайшие соседи как $N k (А)$ .

Иллюстрация расстояния достижимости. Объекты B и C иметь такое же расстояние достижимости (

k = 3

), пока

D

это не k ближайший сосед

Это расстояние используется для определения того, что называется расстояние достижимости:

$достижимость-расстояние k (А, B) = max {k -расстояние(B), d (А, B)}$

На словах расстояние достижимости объекта А из B истинное расстояние между двумя объектами, но по крайней мере $k -расстояние$ из B. Объекты, принадлежащие k ближайшие соседи B («ядро» B, видеть Кластерный анализ DBSCAN) считаются одинаково удаленными. Причина такого расстояния - получить более стабильные результаты^{[нужна цитата]}. Обратите внимание, что это не расстояние в математическом определении, поскольку он не симметричен. (Хотя это распространенная ошибка^[4] всегда использовать $k -дистанция (A)$ , это дает немного другой метод, называемый Simplified-LOF^[4])

В плотность локальной достижимости объекта А определяется

$lrd k (А): = 1 /(\sum B\in N k (А) достижимость-расстояние k (А, Б) / | N k (А) |)$

что является обратной величиной среднего расстояния достижимости объекта А из его соседи. Обратите внимание, что это не средняя доступность соседей из А (который по определению будет $k -дистанция (A)$ ), но расстояние, на котором А может быть достигнуто" из его соседи. В случае дублирования точек это значение может стать бесконечным.

Затем локальные плотности достижимости сравниваются с плотностями соседей, используя

$LOF k (А): = \sum B\in N k (А) lrd k (В) / lrd k (А) / | N k (А) | = \sum B\in N k (А) lrd k (В) / | N k (А) | \cdot Lrd k (А)$

какой средняя локальная плотность досягаемости соседей делится на собственную локальную плотность достижимости объекта. Значение примерно $1$ указывает, что объект сопоставим со своими соседями (и, следовательно, не является выбросом). Значение ниже $1$ указывает на более плотную область (которая будет выступом), а значения значительно больше, чем $1$ указать выбросы.

$LOF (k) ~ 1$ средства Такая же плотность, как у соседей,

$LOF (k) <1$ средства Более высокая плотность, чем у соседей (Inlier),

$LOF (k)> 1$ средства Более низкая плотность, чем у соседей (выброс)

Преимущества

Показатели LOF, представленные ELKI. Хотя верхний правый кластер имеет плотность, сопоставимую с выбросами вблизи нижнего левого кластера, они обнаруживаются правильно.

Благодаря локальному подходу LOF может идентифицировать выбросы в наборе данных, которые не были бы выбросами в другой области набора данных. Например, точка на «небольшом» расстоянии от очень плотного кластера является выбросом, в то время как точка в разреженном кластере может иметь аналогичные расстояния до своих соседей.

Хотя геометрическая интуиция LOF применима только к векторным пространствам низкой размерности, алгоритм может применяться в любом контексте, при этом может быть определена функция различия. Экспериментально было показано, что он очень хорошо работает в многочисленных конфигурациях, часто превосходя конкурентов, например, в обнаружение сетевых вторжений^[5] и по обработанным контрольным данным классификации.^[6]

Семейство методов LOF можно легко обобщить и затем применить к различным другим задачам, таким как обнаружение выбросов в географических данных, видеопотоках или авторских сетях.^[4]

Недостатки и расширения

Полученные значения частное-значения и трудно интерпретировать. Значение 1 или даже меньше указывает на явный выброс, но нет четкого правила, когда точка является выбросом. В одном наборе данных значение 1,1 может уже быть выбросом, в другом наборе данных и параметризации (с сильными локальными колебаниями) значение 2 все еще может быть выбросом. Эти различия также могут возникать в наборе данных из-за местоположения метода. Существуют расширения LOF, которые пытаются улучшить LOF в следующих аспектах:

Функция упаковки для обнаружения выбросов^[7] запускает LOF на нескольких проекциях и объединяет результаты для улучшения качества обнаружения в больших измерениях. Это первый ансамблевое обучение подход к обнаружению выбросов, другие варианты см. в исх.^[8]
Вероятность локального выброса (Петля)^[9] - это метод, основанный на LOF, но использующий недорогую локальную статистику, чтобы стать менее чувствительным к выбору параметра. k. Кроме того, полученные значения масштабируются до диапазона значений $[0:1]$ .
Интерпретация и унификация результатов выбросов^[10] предлагает нормализацию значений выбросов LOF к интервалу $[0:1]$ использование статистического масштабирования для увеличения удобство использования и можно увидеть улучшенную версию идей LoOP.
Об оценке резко отклоняющихся рейтингов и резко отклоняющихся результатов^[11] предлагает методы измерения сходства и разнообразия методов для построения расширенного обнаружения выбросов ансамбли использование вариантов LOF и других алгоритмов и улучшение подхода Feature Bagging, описанного выше.
Пересмотрено обнаружение локальных выбросов: обобщенное представление о местности с приложениями для пространственного, видео и сетевого обнаружения выбросов^[4] обсуждает общий паттерн в различных методах обнаружения локальных выбросов (включая, например, LOF, упрощенную версию LOF и LoOP) и абстрагирует от этого в общей структуре. Затем эта структура применяется, например, для обнаружения выбросов в географических данных, видеопотоках и авторских сетях.

Рекомендации

^ Breunig, M. M .; Кригель, Х.-П.; Ng, R.T .; Сандер, Дж. (2000). LOF: определение локальных выбросов на основе плотности (PDF). Материалы Международной конференции ACM SIGMOD 2000 года по управлению данными. SIGMOD. С. 93–104. Дои:10.1145/335191.335388. ISBN 1-58113-217-4.
^ Breunig, M. M .; Кригель, Х.-П.; Ng, R.T .; Сандер, Дж. Р. (1999). «ОПТИКА-ОФ: Выявление локальных выбросов» (PDF). Принципы интеллектуального анализа данных и обнаружения знаний. Конспект лекций по информатике. 1704. п. 262. Дои:10.1007/978-3-540-48247-5_28. ISBN 978-3-540-66490-1.
^ Алпайдин, Этхем (2020). Введение в машинное обучение (Четвертое изд.). Кембридж, Массачусетс. ISBN 978-0-262-04379-3. OCLC 1108782604.
^ ^а ^б ^c ^d Schubert, E .; Зимек, А .; Кригель, Х. -П. (2012). «Обнаружение локальных выбросов пересмотрено: обобщенное представление о местности с приложениями для пространственного, видео и сетевого обнаружения выбросов». Интеллектуальный анализ данных и обнаружение знаний. 28: 190–237. Дои:10.1007 / s10618-012-0300-z. S2CID 19036098.
^ Lazarevic, A .; Озгур, А .; Эртоз, Л .; Srivastava, J .; Кумар, В. (2003). «Сравнительное исследование схем обнаружения аномалий при обнаружении сетевых вторжений» (PDF). Proc. 3-я Международная конференция SIAM по интеллектуальному анализу данных: 25–36. Архивировано из оригинал (PDF) на 2013-07-17. Получено 2010-05-14.CS1 maint: использует параметр авторов (связь)
^ Campos, Guilherme O .; Зимек, Артур; Сандер, Йорг; Кампелло, Рикардо Дж. Г. Б .; Миченкова, Барбора; Шуберт, Эрих; Согласие, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний. 30 (4): 891–927. Дои:10.1007 / s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
^ Lazarevic, A .; Кумар, В. (2005). «Функция упаковки для обнаружения выбросов». Proc. 11-я Международная конференция ACM SIGKDD по открытию знаний в области интеллектуального анализа данных: 157–166. Дои:10.1145/1081870.1081891. ISBN 159593135X. S2CID 2054204.
^ Зимек, А .; Кампелло, Р. Дж. Г. Б .; Сандер, Дж. Р. (2014). «Ансамбли для неконтролируемого обнаружения выбросов». Информационный бюллетень ACM SIGKDD Explorations. 15: 11–22. Дои:10.1145/2594473.2594476. S2CID 8065347.
^ Кригель, Х.-П.; Kröger, P .; Schubert, E .; Зимек, А. (2009). LoOP: вероятность локальных выбросов (PDF). Материалы 18-й конференции ACM по управлению информацией и знаниями. ЦИКМ '09. С. 1649–1652. Дои:10.1145/1645953.1646195. ISBN 978-1-60558-512-3.
^ Кригель, Х.; Kröger, P .; Schubert, E .; Зимек, А. (2011). Интерпретация и унификация результатов выбросов. Материалы Международной конференции SIAM 2011 по интеллектуальному анализу данных. С. 13–24. CiteSeerX 10.1.1.232.2719. Дои:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.
^ Schubert, E .; Wojdanowski, R .; Зимек, А .; Кригель, Х. (2012). Об оценке резко отклоняющихся рейтингов и оценок выбросов. Материалы Международной конференции SIAM 2012 по интеллектуальному анализу данных. С. 1047–1058. CiteSeerX 10.1.1.300.7205. Дои:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.

[1] Breunig, M. M .; Кригель, Х.-П.; Ng, R.T .; Сандер, Дж. (2000). LOF: определение локальных выбросов на основе плотности (PDF). Материалы Международной конференции ACM SIGMOD 2000 года по управлению данными. SIGMOD. С. 93–104. Дои:10.1145/335191.335388. ISBN 1-58113-217-4.

[2] Breunig, M. M .; Кригель, Х.-П.; Ng, R.T .; Сандер, Дж. Р. (1999). «ОПТИКА-ОФ: Выявление локальных выбросов» (PDF). Принципы интеллектуального анализа данных и обнаружения знаний. Конспект лекций по информатике. 1704. п. 262. Дои:10.1007/978-3-540-48247-5_28. ISBN 978-3-540-66490-1.

[3] Алпайдин, Этхем (2020). Введение в машинное обучение (Четвертое изд.). Кембридж, Массачусетс. ISBN 978-0-262-04379-3. OCLC 1108782604.

[generalized-4] а ^б ^c ^d Schubert, E .; Зимек, А .; Кригель, Х. -П. (2012). «Обнаружение локальных выбросов пересмотрено: обобщенное представление о местности с приложениями для пространственного, видео и сетевого обнаружения выбросов». Интеллектуальный анализ данных и обнаружение знаний. 28: 190–237. Дои:10.1007 / s10618-012-0300-z. S2CID 19036098.

[5] Lazarevic, A .; Озгур, А .; Эртоз, Л .; Srivastava, J .; Кумар, В. (2003). «Сравнительное исследование схем обнаружения аномалий при обнаружении сетевых вторжений» (PDF). Proc. 3-я Международная конференция SIAM по интеллектуальному анализу данных: 25–36. Архивировано из оригинал (PDF) на 2013-07-17. Получено 2010-05-14.CS1 maint: использует параметр авторов (связь)

[CamposZimek2016-6] Campos, Guilherme O .; Зимек, Артур; Сандер, Йорг; Кампелло, Рикардо Дж. Г. Б .; Миченкова, Барбора; Шуберт, Эрих; Согласие, Ира; Хоул, Майкл Э. (2016). «Об оценке неконтролируемого обнаружения выбросов: меры, наборы данных и эмпирическое исследование». Интеллектуальный анализ данных и обнаружение знаний. 30 (4): 891–927. Дои:10.1007 / s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.

[7] Lazarevic, A .; Кумар, В. (2005). «Функция упаковки для обнаружения выбросов». Proc. 11-я Международная конференция ACM SIGKDD по открытию знаний в области интеллектуального анализа данных: 157–166. Дои:10.1145/1081870.1081891. ISBN 159593135X. S2CID 2054204.

[8] Зимек, А .; Кампелло, Р. Дж. Г. Б .; Сандер, Дж. Р. (2014). «Ансамбли для неконтролируемого обнаружения выбросов». Информационный бюллетень ACM SIGKDD Explorations. 15: 11–22. Дои:10.1145/2594473.2594476. S2CID 8065347.

[9] Кригель, Х.-П.; Kröger, P .; Schubert, E .; Зимек, А. (2009). LoOP: вероятность локальных выбросов (PDF). Материалы 18-й конференции ACM по управлению информацией и знаниями. ЦИКМ '09. С. 1649–1652. Дои:10.1145/1645953.1646195. ISBN 978-1-60558-512-3.

[10] Кригель, Х.; Kröger, P .; Schubert, E .; Зимек, А. (2011). Интерпретация и унификация результатов выбросов. Материалы Международной конференции SIAM 2011 по интеллектуальному анализу данных. С. 13–24. CiteSeerX 10.1.1.232.2719. Дои:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.

[11] Schubert, E .; Wojdanowski, R .; Зимек, А .; Кригель, Х. (2012). Об оценке резко отклоняющихся рейтингов и оценок выбросов. Материалы Международной конференции SIAM 2012 по интеллектуальному анализу данных. С. 1047–1058. CiteSeerX 10.1.1.300.7205. Дои:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Navigation