WikiDer > Статистика Хопкинса
Эта статья нужны дополнительные цитаты для проверка. (Август 2017 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
В Статистика Хопкинса (введено Брайаном Хопкинсом и Джон Гордон Скеллам) - способ измерения кластерная тенденция набора данных.[1] Он принадлежит к семейству тестов с разреженной выборкой. Он действует как проверка статистической гипотезы где нулевая гипотеза в том, что данные генерируются Точечный процесс Пуассона и поэтому равномерно распределены случайным образом.[2] Значение, близкое к 1, обычно указывает на то, что данные сильно кластеризованы, случайные данные обычно приводят к значениям около 0,5, а равномерно распределенные данные имеют тенденцию приводить к значениям, близким к 0.[3]
Предварительные мероприятия
Типичная формулировка статистики Хопкинса приводится ниже.[2]
- Позволять быть набором точки данных.
- Рассмотрим случайную выборку (без замены) точки данных с членами .
- Создать набор из равномерно случайно распределенные точки данных.
- Определите две меры расстояния,
- расстояние от ближайшего соседа в , и
- расстояние количество случайно выбранных от ближайшего соседа в .
Определение
С указанными выше обозначениями, если данные размерность, то статистика Хопкинса определяется как:
Примечания и ссылки
- ^ Хопкинс, Брайан; Скеллам, Джон Гордон (1954). «Новый метод определения типа распространения растительных особей». Анналы ботаники. Annals Botany Co. 18 (2): 213–227.
- ^ а б Банерджи, А. (2004). «Проверка кластеров с использованием статистики Хопкинса». Международная конференция IEEE по нечетким системам: 149–153. Дои:10.1109 / FUZZY.2004.1375706.
- ^ Аггарвал, Чару С. (2015). Сбор данных. Чам: Издательство Springer International. п. 158. Дои:10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1.