WikiDer > Термин Дискриминация
Термин Дискриминация это способ ранжировать ключевые слова по их полезности для поиск информации.
Обзор
Этот метод похож на tf-idf но он занимается поиском ключевых слов, подходящих для поиск информации и те, которые нет. Пожалуйста, обратитесь к Векторная модель пространства первый.
В этом методе используется концепция Векторная пространственная плотность что менее плотный матрица вхождений есть, тем лучше будет запрос на поиск информации.
Оптимальный индексный термин - это термин, который может отличать два разных документа друг от друга и связывать два одинаковых документа. С другой стороны, неоптимальный индексный термин не может отличить два разных документа от двух похожих документов.
Значение дискриминации - это разница в плотности векторного пространства матрицы вхождений по сравнению с векторным пространством той же матрицы без плотности индексного члена.
Позволять: матрица вхождений - матрица вхождений без индексного члена и быть плотностью . Затем: значение дискриминации индексного члена. является:
Как вычислить
Учитывая матрица встречаемости: и одно ключевое слово:
- Найдите глобальный документ центроид: (это просто средний вектор документа)
- Найдите среднее Евклидово расстояние из каждого вектора документа, к
- Найдите среднее евклидово расстояние от каждого вектора документа, к ИГНОРИРОВАНИЕ
- Разница между двумя значениями на шаге выше - это значение дискриминации для ключевого слова
Чем выше значение, тем лучше, потому что включение ключевого слова приведет к лучшему поиску информации.
Качественные наблюдения
Ключевые слова, которые редкий должны быть плохими дискриминаторами, потому что у них плохие отзывать,тогда как ключевые слова, которые частый должны быть плохими дискриминаторами, потому что у них плохие точность.
Рекомендации
- Дж. Солтон, А. Вонг и К. С. Янг (1975) "Модель векторного пространства для автоматического индексирования," Коммуникации ACM, т. 18, н. 11, страницы 613–620. (Статья, в которой впервые была представлена модель векторного пространства)
- Джан Ф., Озкарахан Э. А. (1987), «Вычисление значений различения терминов / документов с использованием концепции коэффициента покрытия». Журнал Американского общества информационных наук, т. 38, н. 3, страницы 171-183.