WikiDer > Корпус письменного татарского языка - Википедия

Корпус письменного татарского языка
Тип сайта	исследовательский / образовательный проект
Доступно в	Английский / русский / татарский
Основан	2011; 9 лет назад
Штаб-квартира	Казань, Россия
Учредитель (и)	Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р.
URL	корпус.tatar/ en
Запущен	15 марта 2012 г.; 8 лет назад
Текущее состояние	Проект активно развивается.

Corpus of Written Tatar - Wikipedia

Корпус письменного татарского языка (Татарский корпус) - электронный корпус из Татарский язык, который был доступен в Интернете. Сборник татарских текстов в электронном виде предназначен для тех, кто интересуется строением, нынешним состоянием и перспективами татарского языка. Корпус письменности татарского языка незаменим для всех, кто хочет изучать татарский язык методами корпусная лингвистика.
Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar.
Доступен на татарском, русском и английском языках.

Размер корпуса

Объем Корпуса татарского языка на конец 2014 года составляет более 116 млн слов. Количество предложений - 10 млн, количество разных словоформ - около 1,5 млн.
Чтобы предотвратить копирование, тексты хранятся в Корпусе как смешанные предложения.

Доступ

Доступ к Татарскому корпусу для исследовательских целей бесплатный.

О процессе создания Корпуса

Создание Корпуса татарского языка было инициировано в 2010 году группой энтузиастов. Задача считалась актуальной, так как она обеспечила бы необходимую базу данных текстов для работы над системами машинного перевода на татарский язык, а также была незаменима при решении задач синтеза и распознавания татарской речи.

Практическое значение и области использования

Основная цель корпуса письменного татарского языка - помощь в исследовании татарской лексики. Кроме того, корпус можно использовать при изучении языка и в качестве источника моделей для различных типов документов.
Корпус письменного татарского языка позволяет пользователю выполнять поиск слов по определенным признакам, видеть слова в их контексте, а также предоставляет пользователю данные о частоте.

Контекстный (статистический) корпус

Этот тип поиска позволяет видеть правый, левый и семантический контексты конкретного слова, отсортированные по частоте.
Правый контекст - слова, помещенные сразу после текущего слова.
Левый контекст - слова, помещенные непосредственно перед текущим словом.
Семантический контекст - слова, находящиеся в одном предложении с текущим словом, т.е. между словами существует какая-то подразумеваемая семантическая связь.

Комплексный морфологический поиск

В 2014 году была проведена морфологическая разметка татарского корпуса. В основе метаязыка грамматических надписей лежит система тегов для тюркских языков, разработанная международным проектом Apertium. Этот проект направлен на разработку системы автоматического перевода для большого количества языков. Основными аргументами в пользу выбора морфологического теггера Apertium для маркировки корпуса являются:
- высокое качество морфологической аннотации;
- это проект с открытым исходным кодом: весь исходный код и данные доступны для всех бесплатно.
Разработанная нами в 2015-2016 гг. Система комплексного морфологического поиска позволяет производить поиск в Корпусе по различным комбинациям таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало слова, средняя часть, конец слова. , и расстояние между искомыми словами. Максимальная длина поискового запроса - пять токенов + соответственно четыре расстояния между ними.

Татарский Синтез речи

Корпус письменного татарского языка предлагает пользователю уникальную возможность прослушать предложения, найденные в поиске, а также прослушать любой другой текст, который пользователь вводит в это средство, см. http://search.corpus.tatar/search/sintez_en.html.

Статистические данные

Создатели Корпуса татарского языка загружают различные дополнительные статистические данные, как только они становятся доступными в результате обработки Корпуса, см. http://corpus.tatar/stat_en.htm.

Недостатки и перспективы

Отсутствие офлайн-версии корпуса.
Автоматическое устранение неоднозначности.

Авторы

Создатели Корпуса:

Сайхунов М.Р. (кандидат филологических наук, научный сотрудник Института информатики)
Ибрагимов Т.И. (Кандидат филологических наук, доцент кафедры прикладной лингвистики Казанского федерального университета)
Хусаинов Р.Р. (инженер ООО «ГДК»)

С помощью:

Республиканский центр развития традиционной культуры
Отделение исследований волжских языков Университета Турку (Финляндия)
Компания «RX5»
Редакция научно-популярного журнала "Фән һәм Тел"

Литература^[1]

внешняя ссылка

Корпус татарской письменности (Corpus of tatar language) - Официальный сайт

[1] ttp://corpus.tatar/articles_en.htm

[1]

Navigation

Navigation

Themenportale

WikiDer > Корпус письменного татарского языка - Википедия

Содержание

Размер корпуса

Доступ

О процессе создания Корпуса

Практическое значение и области использования

Контекстный (статистический) корпус

Комплексный морфологический поиск

Татарский Синтез речи

Статистические данные

Недостатки и перспективы

Авторы

Литература^[1]

Рекомендации

внешняя ссылка

Navigation

WikiDer > Корпус письменного татарского языка - Википедия

Размер корпуса

Доступ

О процессе создания Корпуса

Практическое значение и области использования

Контекстный (статистический) корпус

Комплексный морфологический поиск

Татарский Синтез речи

Статистические данные

Недостатки и перспективы

Авторы

Литература[1]

Рекомендации

внешняя ссылка

Литература^[1]