| Эта статья требует внимания специалиста по статистике. Пожалуйста, добавьте причина или разговаривать в этот шаблон, чтобы объяснить проблему со статьей. Статистика WikiProject может помочь нанять эксперта. (Февраль 2010 г.) |
SUBCLU это алгоритм для кластеризация многомерных данных Карин Кайлинг, Ханс-Петер Кригель и Пер Крёгер.[1] Это кластеризация подпространств алгоритм, основанный на алгоритме кластеризации на основе плотности DBSCAN. SUBCLU может найти кластеры в параллельно оси подпространств и использует вверх дном, жадный стратегия оставаться эффективной.
Подход
SUBCLU использует монотонность критерии: если кластер найден в подпространстве , то каждое подпространство также содержит кластер. Однако кластер в подпространстве не обязательно кластер в , поскольку кластеры должны быть максимальными, и в кластере может содержаться больше объектов. который содержит . Однако плотно связанный набор в подпространстве также является плотносвязным множеством в .
Этот свойство закрытия вниз используется SUBCLU аналогично Алгоритм априори: сначала все одномерные подпространства сгруппированы. Все кластеры в подпространстве более высокого измерения будут подмножествами кластеров, обнаруженных в этой первой кластеризации. SUBCLU, следовательно, рекурсивно производит -мерные подпространства кандидатов путем объединения -мерные подпространства с разделением кластеров атрибуты. После удаления нерелевантных кандидатов DBSCAN применяется к подпространству-кандидату, чтобы узнать, содержит ли оно еще кластеры. Если это так, то подпространство-кандидат используется для следующей комбинации подпространств. Чтобы улучшить время работы DBSCAN, только точки, о которых известно, что они принадлежат кластерам в одном -мерное подпространство (выбранное таким образом, чтобы кластеров было как можно меньше). Из-за свойства закрытия вниз другая точка не может быть частью -мерный кластер в любом случае.
Псевдокод
SUBCLU принимает два параметра, и , которые выполняют ту же роль, что и в DBSCAN. На первом этапе DBSCAN используется для поиска одномерных кластеров в каждом подпространстве, охватываемом одним атрибутом:
- // На втором этапе -мерные кластеры строятся из -мерные:
Набор содержит все -мерные подпространства, о которых известно, что они содержат кластеры. Набор содержит наборы кластеров, найденных в подпространствах. В выбирается для минимизации запусков DBSCAN (и количества точек, которые необходимо учитывать при каждом запуске) для поиска кластеров в подпространствах-кандидатах.
Подпространства-кандидаты генерируются очень похоже на Алгоритм априори генерирует частые кандидаты в наборы элементов: пары -мерные подпространства сравниваются, и если они отличаются только одним атрибутом, они образуют -мерный кандидат. Однако обнаруживается и ряд нерелевантных кандидатов; они содержат -мерное подпространство, не содержащее кластера. Следовательно, эти кандидаты удаляются на втором этапе:
- // Обрезка нерелевантных подпространств-кандидатов
Доступность
Пример реализации SUBCLU доступен в Фреймворк ELKI.
Рекомендации