Эта статья может потребоваться переписан соответствовать требованиям Википедии стандарты качества, поскольку он содержит только словарное определение термина и умозрительное утверждение, что когда-нибудь в будущем это понятие станет важным.Вы можете помочь. В страница обсуждения может содержать предложения.(Сентябрь 2010 г.)
эта статья требует внимания эксперта в области вычислений. Пожалуйста, добавьте причина или говорить в этот шаблон, чтобы объяснить проблему со статьей. WikiProject Computing может помочь нанять эксперта.(Декабрь 2017 г.)
Автоматическая индексация это компьютеризированный процесс сканирования больших объемов документы против контролируемый словарный запас, таксономия, тезаурус или онтология и использование этих контролируемых условий для быстро и эффективно индексировать большие электронный документ депозитарии. Эти ключевые слова или язык применяются путем обучения системы правилам, определяющим, каким словам соответствовать. К этому есть дополнительные части, такие как синтаксис, использование, близость и другие алгоритмы, основанные на системе и то, что требуется для индексации. Это учитывается с помощью логических операторов для сбора и извлечения информации об индексировании из текста.[1] По количеству документов экспоненциально увеличивается с распространением Интернет, автоматическое индексирование станет важным для поддержания способности находить релевантную информацию в море нерелевантных Информация. Системы естественного языка используются для обучения системы, основанной на семи различных методах, чтобы помочь с этим морем нерелевантной информации. Это морфологический, лексический, синтаксический, числовой, фразеологический, семантический и прагматический методы. Каждый из них выглядит и разные части скорости и условий для создания домена для конкретной информации, которая покрывается для индексации. Это используется в автоматизированном процессе индексации.[1]
В автоматизированном процессе могут возникать проблемы, которые в основном вызваны двумя факторами: 1) сложностью языка; и 2) недостаток интуитивности и сложность экстраполяции концепций из утверждений со стороны вычислительной технологии.[2] Это в первую очередь лингвистические проблемы, а конкретные проблемы связаны с семантическими и синтаксическими аспектами языка.[2] Эти проблемы возникают из-за определенных ключевых слов. С помощью этих ключевых слов вы можете определить точность системы на основе совпадений, промахов и шума. Эти термины относятся к точным совпадениям, ключевым словам, которые компьютерная система пропустила, а не человек, и ключевым словам, выбранным компьютером и отсутствующим у человека. Статистика точности, основанная на этом, должна быть выше 85% для Hits из 100% для индексации человека. Таким образом, промахи и шум составляют 15% или меньше. Эта шкала обеспечивает основу для того, что считается хорошей системой автоматической индексации, и показывает, где возникают проблемы.[1]
История
Некоторые ученые отмечают, что тема автоматического индексирования привлекала внимание еще в 1950-х годах, особенно в связи с потребностью в более быстром и полном доступе к научной и технической литературе.[3] Это внимание к индексации началось с обработки текста между 1957 и 1959 годами Х. Lunh через серию опубликованных статей. Лун предположил, что компьютер может обрабатывать сопоставление ключевых слов, сортировку и анализ контента. Это было началом автоматической индексации и формулы извлечения ключевых слов из текста на основе частотного анализа. Позже было определено, что одной частоты недостаточно для хороших дескрипторов, однако это положило начало пути к тому, где мы сейчас находимся с Автоматическим индексированием.[4] Это было подчеркнуто информационным взрывом, предсказанным в 1960-е гг.[5] и возник благодаря появлению информационных технологий и всемирной паутины. Прогноз был подготовлен Мурсом, где была создана схема с ожидаемой ролью вычислений для обработки текста и поиска информации. В этом прогнозе говорилось, что машины будут использоваться для хранения документов в больших коллекциях и что мы будем использовать эти машины для выполнения поиска. Мурс также предсказал онлайновый аспект и среду поиска для индексирования баз данных. Это привело Мурса к созданию машины индукционного вывода, которая произвела революцию в индексировании.[4] Это явление потребовало разработки системы индексации, способной справиться с задачей хранения и организации огромного количества данных и облегчить доступ к информации.[6][7] Новое электронное оборудование еще больше усовершенствовало автоматизированное индексирование, поскольку оно преодолело барьер, налагаемый старыми бумажными архивами, позволяя кодировать информацию на молекулярном уровне.[5] С этим новым электронным оборудованием были разработаны инструменты для помощи пользователям. Они использовались для управления файлами и были организованы в различные категории, такие как PDM Suite, такие как Outlook или Lotus Note, и инструменты Mind Mapping, такие как MindManager и Freemind. Это позволяет пользователям сосредоточиться на хранении и построении когнитивной модели.[8] Автоматическое индексирование также частично связано с появлением поля под названием компьютерная лингвистика, который руководил исследованиями, в результате которых были разработаны такие методы, как применение компьютерного анализа к структуре и значению языков.[3][9] Автоматическое индексирование дополнительно стимулируется исследованиями и разработками в области искусственный интеллект и самоорганизующаяся система также называется думающей машиной.[3]
Смотрите также
Индексирование тем - процесс, который автоматизирован за счет автоматической индексации
^ абcХлава, Марджори М. (31 января 2005 г.). «Автоматическое индексирование: вопрос степени». Бюллетень Американского общества информационных наук и технологий. 29 (1): 12–15. Дои:10.1002 / bult.261.
^ абКливленд, Ана; Кливленд, Дональд (2013). Введение в индексирование и реферирование: четвертое издание. Санта-Барбара, Калифорния: ABC-CLIO. п. 289. ISBN9781598849769.
^ абcРиаз, Мухаммад (1989). Расширенные практики индексирования и абстрагирования. Дели: Атлантические издатели и дистрибьюторы. п. 263.
^ абИсторическая справка: последние тридцать лет информационного поиска Salton, Gerard Journal Американского общества информационных наук (1986–1998); Sep 1987; 38, 5; ProQuest стр. 375
^ абТоррес-Морено, Хуан-Мануэль (2014). Автоматическое суммирование текста. Хобокен, Нью-Джерси: Джон Уайли и сыновья. стр. xii. ISBN9781848216686.
^Капетаниос, Эпаминонд; Сугумаран, Виджаян; Естественный язык и информационные системы: 13-я Международная конференция по применению естественного языка в информационных системах, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Proceedings, Myra (2008). Естественный язык и информационные системы: 13-я Международная конференция по приложениям естественного языка к информационным системам, NLDB 2008, Лондон, Великобритания, 24-27 июня 2008 г., Материалы. Берлин: Springer Science & Business Media. п. 350. ISBN978-3-540-69857-9.CS1 maint: несколько имен: список авторов (ссылка на сайт)