WikiDer > Расширенный WordNet
Тема этой статьи может не соответствовать Википедии общее руководство по известности. (Август 2010 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
В Расширенный WordNet это проект в Техасский университет в Далласе (и финансируется Национальный фонд науки), цель которого - улучшить WordNet путем семантического анализа блески, таким образом делая информацию, содержащуюся в этих определениях, доступной для систем автоматической обработки знаний. Он находится в свободном доступе под Лицензия в стиле BSD. Хотя он не обновлялся с ноября 2004 г. (самая последняя версия основана на WordNet 2.0), он по-прежнему остается полезным ресурсом.
Формат базы данных
База данных доступна в виде набора из четырех XML файлы - по одному на глаголы, наречия, существительные и прилагательные. Следующая информация извлечена из глоссов:
В качестве примера доступна следующая информация для синсет отлично, первоклассно, сказочно:
Блеск:
высочайшего качества
Значение смысла слова:
pos ="В" >из</wf> pos =«ДТ» >в</wf> pos ="JJS" лемма ="наибольший" качество ="нормальный" wnsn ="1" >наибольший</wf> pos =«НН» лемма ="качественный" качество ="нормальный" wnsn ="2" >качественный</wf>
Дерево разбора:
(TOP (S (NP (JJ отлично)) (VP (VBZ) (NP (NP (NN что-то)) (PP (IN) (NP (DT) (JJS наивысшее) (NN качество))))) (..)))
Логическая форма:
отлично: JJ (x1) -> of: IN (x1, x2) высшее: JJ (x2) качество: NN (x2)
Качество данных
Каждый глянец первым отмечен с помощью Маркер Брилла. Затем блески анализируются с использованием обоих Чарняксинтаксический анализатор и собственный Коллинза парсер стилей. Затем каждому проанализированному блеску присваивается уровень качества:
- Золото: те, которые были проверены вручную
- Серебро: те, где оба парсера дали одинаковый результат.
- Нормальный: те, в которых были созданы разные выходные данные - в этих ситуациях используется выход внутреннего парсера.
Рекомендации
внешняя ссылка
Страница в настоящее время недоступна