WikiDer > Индекс Дэвиса – Боулдина - Википедия
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
В Индекс Дэвиса – Болдина (DBI), введенный Дэвидом Л. Дэвисом и Дональдом В. Боулдином в 1979 году, является метрикой для оценки алгоритмы кластеризации.[1] Это внутренняя схема оценки, при которой проверка того, насколько хорошо была выполнена кластеризация, осуществляется с использованием количественных характеристик и характеристик, присущих набору данных. Это имеет недостаток, заключающийся в том, что хорошее значение, сообщаемое этим методом, не означает наилучшего поиска информации.[нужна цитата]
Предварительные мероприятия
Данный п размерные точки, пусть Cя быть кластером точек данных. Позволять Иксj быть п-мерный вектор признаков, присвоенный кластеру Cя.
Здесь это центроид из Cя и Тя это размер кластера я. Sя - мера разброса внутри кластера. Обычно значение п равно 2, что делает это Евклидово расстояние функция между центроидом кластера и отдельными векторами признаков. Можно использовать многие другие метрики расстояния в случае коллекторы и данные более высокой размерности, где евклидово расстояние может быть не лучшим показателем для определения кластеров. Важно отметить, что эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации для получения значимых результатов.
- мера разделения кластера и кластер .
- это kй элемент , а таких элементов в А поскольку это n-мерный центроид.[непоследовательный]
Здесь k индексирует особенности данных, и это, по сути, Евклидово расстояние между центрами скоплений я и j когда п равно 2.
Определение
Позволять ря, j быть мерой того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать Mя, j разделение между яth и jth кластер, который в идеале должен быть как можно больше, и Sя- разброс внутри кластера для кластера i, который должен быть как можно меньше. Следовательно, индекс Дэвиса – Боулдина определяется как отношение Sя и Mя, j так что эти свойства сохраняются:
- .
- .
- Когда и тогда .
- Когда и тогда .
При такой формулировке, чем ниже значение, тем лучше разделение кластеров и «герметичность» внутри кластеров.
Решение, удовлетворяющее этим свойствам:
Это используется для определения Dя:
Если N - количество кластеров:
БД называется индексом Дэвиса – Боулдина. Это зависит как от данных, так и от алгоритма. Dя выбирает наихудший сценарий, и это значение равно ря, j для наиболее похожего кластера на кластер я. У этой формулировки может быть много вариаций, таких как выбор среднего значения кластерного сходства, средневзвешенного значения и так далее.
Объяснение
Эти условия ограничивают индекс, определенный таким образом, симметричным и неотрицательным. Из-за способа его определения как функции отношения разброса внутри кластера к расстоянию между кластерами меньшее значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим кластером, усредненное по всем кластерам, где сходство определяется как Sя над. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса-Боулдина. Этот индекс, определенный таким образом, является средним по всем я кластеров, и, следовательно, хорошей мерой для определения того, сколько кластеров на самом деле существует в данных, является построение графика в сравнении с количеством кластеров, для которых они вычисляются. Номер я для которого это значение является наименьшим, является хорошей мерой количества кластеров, в которые можно идеально классифицировать данные. Это имеет применение при определении ценности k в kсредний алгоритм, где значение k неизвестно априори. Набор инструментов SOM содержит MATLAB выполнение.[2] Реализация MATLAB также доступна через MATLAB Statistics and Machine Learning Toolbox, используя команду «evalclusters».[3] А Ява реализация находится в ELKI, и его можно сравнить со многими другими индексами качества кластеризации.
Смотрите также
внешняя ссылка
- http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.17.2072
- https://books.google.com/books?id=HY8gB2OIqSoC
- http://nl.mathworks.com/help/stats/clustering.evaluation.daviesbouldinevaluation-class.html
Примечания и ссылки
- ^ Дэвис, Дэвид Л .; Боулдин, Дональд В. (1979). «Мера разделения кластеров». IEEE Transactions по анализу шаблонов и машинному анализу. ПАМИ-1 (2): 224–227. Дои:10.1109 / TPAMI.1979.4766909.
- ^ «Реализация Matlab». Получено 12 ноября 2011.
- ^ «Оцените решения кластеризации - MATLAB evalclusters».