WikiDer > Марковская дискриминация
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом.Июль 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Марковская дискриминация в фильтрации спама - это метод, используемый в CRM114 и другие фильтры спама для более точного моделирования статистического поведения спама и не спама, чем в простых Байесовские методы. Простая байесовская модель письменного текста содержит только словарь юридических слов и их относительные вероятности. Марковская модель складывает относительные вероятности перехода, которые для одного слова предсказывают, каким будет следующее слово. Он основан на теории Цепи Маркова к Андрей Марков, отсюда и название. По сути, байесовский фильтр работает только с отдельными словами, а марковский фильтр работает с фразами или целыми предложениями.
Есть два типа Марковские модели; видимая марковская модель и скрытая марковская модель или HMM. Разница в том, что с видимой марковской моделью текущее слово считается содержащим все состояние языковой модели, тогда как скрытая марковская модель скрывает состояние и предполагает только то, что текущее слово вероятностно связано с фактическим внутренним состояние языка.
Например, в видимой марковской модели слово «the» должно с точностью предсказывать следующее слово, в то время как в скрытой марковской модели весь предыдущий текст подразумевает фактическое состояние и предсказывает следующие слова, но фактически не гарантирует это состояние или предсказание. Так как последний случай встречается при фильтрации спама, почти всегда используются скрытые марковские модели. В частности, из-за ограничений хранилища конкретный тип скрытой марковской модели называется Марковское случайное поле особенно применимо, обычно с размером клики от четырех до шести токенов.
Смотрите также
Эта статья включает Список ссылок, связанное чтение или внешняя ссылка, но его источники остаются неясными, потому что в нем отсутствует встроенные цитаты. (Ноябрь 2010 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
Эта статья нужны дополнительные цитаты для проверка. (Июль 2012 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
Рекомендации
- Чхабра С., Йеразунис В. С. и Сифкес К. 2004. Фильтрация спама с использованием модели марковского случайного поля с переменными схемами взвешивания. В материалах четвертой международной конференции IEEE по интеллектуальному анализу данных (1–04 ноября 2004 г.). ICDM. IEEE Computer Society, Вашингтон, округ Колумбия, Мажарул