WikiDer > Модель мешка слов
В модель-мешок слов упрощенное представление, используемое в обработка естественного языка и поиск информации (ИК). В этой модели текст (например, предложение или документ) представлен как сумка (мультимножество) слов, не обращая внимания на грамматику и даже порядок слов, но сохраняя множественность. Модель мешка слов также была используется для компьютерного зрения.[1]
Модель мешка слов обычно используется в методах классификация документов где (частота) появления каждого слова используется как особенность для обучения классификатор.[2]
Раннее упоминание «мешка слов» в лингвистическом контексте можно найти в Зеллиг Харрисстатья 1954 г. Распределительная структура.[3]
Пример реализации
Следующее моделирует текстовый документ с использованием набора слов. Вот два простых текстовых документа:
(1) Джон любит смотреть фильмы. Мэри тоже любит фильмы.
(2) Мэри также любит смотреть футбольные матчи.
На основе этих двух текстовых документов для каждого документа составляется список следующим образом:
"Джон","нравится","к","смотреть","фильмы","Мэри","нравится","фильмы","тоже""Мэри","также","нравится","к","смотреть","футбол","игры"
Представляя каждый мешок слов как Объект JSON, и приписывая соответствующие JavaScript Переменная:
BoW1 = {"Джон":1,"нравится":2,"к":1,"смотреть":1,"фильмы":2,"Мэри":1,"тоже":1};BoW2 = {"Мэри":1,"также":1,"нравится":1,"к":1,"смотреть":1,"футбол":1,"игры":1};
Каждый ключ - это слово, а каждое значение - это количество вхождений этого слова в данный текстовый документ.
Порядок элементов свободный, например, {"too": 1, "Mary": 1, "movies": 2, "John": 1, "watch": 1, "like": 2, "to": 1}
также эквивалентен BoW1. Этого мы и ожидаем от строгого Объект JSON представление.
Примечание: если другой документ подобен объединению этих двух,
(3) Джон любит смотреть фильмы. Мэри тоже любит фильмы. Еще Мэри любит смотреть футбольные матчи.
его представление в JavaScript будет:
BoW3 = {"Джон":1,"нравится":3,"к":2,"смотреть":2,"фильмы":2,"Мэри":2,"тоже":1,"также":1,"футбол":1,"игры":1};
Итак, как мы видим в алгебра мешков, "объединение" двух документов в пакете слов формально является несвязный союз, суммируя кратности каждого элемента.
.
Заявление
На практике модель набора слов в основном используется как инструмент для создания признаков. После преобразования текста в «мешок слов» мы можем вычислить различные меры для характеристики текста. Наиболее распространенным типом характеристик или характеристик, рассчитываемых по модели «мешка слов», является частота термина, а именно, сколько раз термин встречается в тексте. В приведенном выше примере мы можем создать следующие два списка для записи частот терминов всех отдельных слов (BoW1 и BoW2, упорядоченные как в BoW3):
(1) [1, 2, 1, 1, 2, 1, 1, 0, 0, 0](2) [0, 1, 1, 1, 0, 1, 0, 1, 1, 1]
Каждая запись в списках относится к счетчику соответствующей записи в списке (это также представление гистограммы). Например, в первом списке (который представляет документ 1) первые две записи - «1,2»:
- Первая запись соответствует слову «Джон», которое является первым словом в списке, и его значение равно «1», поскольку «Джон» появляется в первом документе один раз.
- Вторая запись соответствует слову «нравится», которое является вторым словом в списке, и его значение равно «2», потому что «нравится» встречается в первом документе дважды.
Это представление списка (или вектора) не сохраняет порядок слов в исходных предложениях. Это лишь главная особенность модели «Мешок слов». Этот вид представления имеет несколько успешных применений, таких как фильтрация электронной почты.[1]
Однако частота терминов не обязательно является лучшим представлением текста. Общие слова, такие как «the», «a», «to», почти всегда являются терминами, наиболее часто встречающимися в тексте. Таким образом, наличие большого количества необработанных данных не обязательно означает, что соответствующее слово более важно. Чтобы решить эту проблему, один из самых популярных способов «нормализовать» частоту терминов - это взвесить термин на величину, обратную частоте документа, или tf – idf. Кроме того, для конкретной цели классификации под наблюдением были разработаны альтернативы для учета метки класса документа.[4] Наконец, для некоторых проблем вместо частот используется двоичное (присутствие / отсутствие или 1/0) взвешивание (например, эта опция реализована в WEKA программная система машинного обучения).
п-грамма модель
Модель «мешок слов» представляет собой беспорядочное представление документа - имеет значение только количество слов. Например, в приведенном выше примере «Джон любит смотреть фильмы. Мэри тоже любит фильмы», набор слов не показывает, что глагол «нравится» всегда следует за именем человека в этом тексте. В качестве альтернативы п-грамма модель может хранить эту пространственную информацию. Применяя к тому же примеру выше, биграмма Модель проанализирует текст на следующие единицы и сохранит частоту термина для каждой единицы, как и раньше.
[ "Джон любит", "любит", "смотреть", "смотреть фильмы", "Мэри любит", "любит фильмы", "фильмы тоже",]
Концептуально мы можем рассматривать модель мешка слов как частный случай модели n-грамм с n = 1. Для n> 1 модель называется шинглинг (куда ш эквивалентно п обозначающее количество сгруппированных слов). Видеть языковая модель для более подробного обсуждения.
Реализация Python
из keras.preprocessing.text импорт Токенизаторприговор = [«Джон любит смотреть фильмы. Мэри тоже любит фильмы».]def print_bow(приговор: ул) -> Никто: токенизатор = Токенизатор() токенизатор.fit_on_texts(приговор) последовательности = токенизатор.text_to_sequences(приговор) word_index = токенизатор.word_index поклон = {} за ключ в word_index: поклон[ключ] = последовательности[0].считать(word_index[ключ]) Распечатать(поклон) printf("Пакет слов, предложение 1: п{поклон}") printf("Мы нашли {len (word_index)} уникальных токенов".)print_bow(приговор)
Уловка хеширования
Распространенной альтернативой использованию словарей является трюк с хешированием, где слова отображаются непосредственно в индексы с помощью хеш-функции.[5] Таким образом, для хранения словаря не требуется памяти. Конфликты хеширования обычно устраняются через освободившуюся память для увеличения количества хэш-сегментов. На практике хеширование упрощает реализацию моделей набора слов и улучшает масштабируемость.
Пример использования: фильтрация спама
В Байесовская фильтрация спама, сообщение электронной почты моделируется как неупорядоченный набор слов, выбранных из одного из двух распределений вероятностей: одно представляет спам и один, представляющий законную электронную почту («хам»). Представьте, что есть два буквальных мешка, наполненных словами. Один пакет заполнен словами, найденными в спам-сообщениях, а другой - словами, найденными в законных сообщениях электронной почты. Хотя любое данное слово, вероятно, находится где-то в обоих пакетах, пакет «спам» будет содержать слова, связанные со спамом, такие как «акции», «Виагра» и «купить», значительно чаще, а пакет «ветчина» будет содержать больше слов, связанных с друзьями или работой пользователя.
Чтобы классифицировать сообщение электронной почты, байесовский фильтр спама предполагает, что сообщение представляет собой кучу слов, случайным образом вытесненных из одного из двух пакетов, и использует Байесовская вероятность чтобы определить, в какой сумке он, скорее всего, находится.
Смотрите также
- Аддитивное разглаживание
- Модель мешка слов в компьютерном зрении
- Классификация документов
- Матрица документов-терминов
- Извлечение признаков
- Уловка хеширования
- Машинное обучение
- MinHash
- н-грамм
- Обработка естественного языка
- Векторная модель пространства
- шинглинг
- tf-idf
Примечания
- ^ а б Сивич, Йозеф (апрель 2009 г.). «Эффективный визуальный поиск видео, транслируемого как текстовый поиск» (PDF). IEEE TRANSACTIONS ПО АНАЛИЗУ ШАБЛОНОВ И МАШИННОМУ ИНТЕЛЛЕКТУ, ТОМ. 31, NO. 4. IEEE. С. 591–605.
- ^ МакТир и др., 2016 г., стр. 167.
- ^ Харрис, Зеллиг (1954). «Распределительная структура». Слово. 10 (2/3): 146–62. Дои:10.1080/00437956.1954.11659520.
И этот набор комбинаций элементов становится фактором, влияющим на последующие выборы ... ибо язык - это не просто набор слов, а инструмент с особыми свойствами, которые были сформированы в процессе его использования.
- ^ Ёнджун Ко (2012). «Исследование схем взвешивания терминов с использованием информации о классах для классификации текста». СИГИР'12. ACM.
- ^ Weinberger, K. Q .; Дасгупта А .; Langford J .; Смола А .; Аттенберг, Дж. (2009). «Функция хеширования для крупномасштабного многозадачного обучения». Материалы 26-й ежегодной международной конференции по машинному обучению: 1113–1120. arXiv:0902.2206. Bibcode:2009arXiv0902.2206W.
Рекомендации
- МакТир, Майкл (и др.) (2016). Разговорный интерфейс. Издательство Springer International.