WikiDer > Термин Дискриминация

Term Discrimination

Термин Дискриминация это способ ранжировать ключевые слова по их полезности для поиск информации.

Обзор

Этот метод похож на tf-idf но он занимается поиском ключевых слов, подходящих для поиск информации и те, которые нет. Пожалуйста, обратитесь к Векторная модель пространства первый.

В этом методе используется концепция Векторная пространственная плотность что менее плотный матрица вхождений есть, тем лучше будет запрос на поиск информации.

Оптимальный индексный термин - это термин, который может отличать два разных документа друг от друга и связывать два одинаковых документа. С другой стороны, неоптимальный индексный термин не может отличить два разных документа от двух похожих документов.

Значение дискриминации - это разница в плотности векторного пространства матрицы вхождений по сравнению с векторным пространством той же матрицы без плотности индексного члена.

Позволять: ${displaystyle A}$  матрица вхождений ${displaystyle A_ {k}}$  - матрица вхождений без индексного члена  ${displaystyle k}$ и  ${displaystyle Q (A)}$  быть плотностью  ${displaystyle A}$ . Затем: значение дискриминации индексного члена.  ${displaystyle k}$  является:  ${displaystyle DV_ {k} = Q (A) -Q (A_ {k})}$

Как вычислить

Учитывая матрица встречаемости: ${displaystyle A}$ и одно ключевое слово: ${displaystyle k}$

Найдите глобальный документ центроид: ${displaystyle C}$ (это просто средний вектор документа)
Найдите среднее Евклидово расстояние из каждого вектора документа, ${displaystyle D_ {i}}$ к ${displaystyle C}$
Найдите среднее евклидово расстояние от каждого вектора документа, ${displaystyle D_ {i}}$ к ${displaystyle C}$ ИГНОРИРОВАНИЕ ${displaystyle k}$
Разница между двумя значениями на шаге выше - это значение дискриминации для ключевого слова ${displaystyle K}$

Чем выше значение, тем лучше, потому что включение ключевого слова приведет к лучшему поиску информации.

Качественные наблюдения

Ключевые слова, которые редкий должны быть плохими дискриминаторами, потому что у них плохие отзывать,тогда как ключевые слова, которые частый должны быть плохими дискриминаторами, потому что у них плохие точность.

Navigation

Navigation

Themenportale

WikiDer > Термин Дискриминация

Содержание

Обзор

Как вычислить

Качественные наблюдения

Рекомендации