WikiDer > Корпус письменного татарского языка - Википедия
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Тип сайта | исследовательский / образовательный проект |
---|---|
Доступно в | Английский / русский / татарский |
Основан | 2011 |
Штаб-квартира | Казань, Россия |
Учредитель (и) | Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р. |
URL | корпус |
Запущен | 15 марта 2012 г. |
Текущее состояние | Проект активно развивается. |
Корпус письменного татарского языка (Татарский корпус) - электронный корпус из Татарский язык, который был доступен в Интернете. Сборник татарских текстов в электронном виде предназначен для тех, кто интересуется строением, нынешним состоянием и перспективами татарского языка. Корпус письменности татарского языка незаменим для всех, кто хочет изучать татарский язык методами корпусная лингвистика.
Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar.
Доступен на татарском, русском и английском языках.
Размер корпуса
Объем Корпуса татарского языка на конец 2014 года составляет более 116 млн слов. Количество предложений - 10 млн, количество разных словоформ - около 1,5 млн.
Чтобы предотвратить копирование, тексты хранятся в Корпусе как смешанные предложения.
Доступ
Доступ к Татарскому корпусу для исследовательских целей бесплатный.
О процессе создания Корпуса
Создание Корпуса татарского языка было инициировано в 2010 году группой энтузиастов. Задача считалась актуальной, так как она обеспечила бы необходимую базу данных текстов для работы над системами машинного перевода на татарский язык, а также была незаменима при решении задач синтеза и распознавания татарской речи.
Практическое значение и области использования
Основная цель корпуса письменного татарского языка - помощь в исследовании татарской лексики. Кроме того, корпус можно использовать при изучении языка и в качестве источника моделей для различных типов документов.
Корпус письменного татарского языка позволяет пользователю выполнять поиск слов по определенным признакам, видеть слова в их контексте, а также предоставляет пользователю данные о частоте.
Контекстный (статистический) корпус
Этот тип поиска позволяет видеть правый, левый и семантический контексты конкретного слова, отсортированные по частоте.
Правый контекст - слова, помещенные сразу после текущего слова.
Левый контекст - слова, помещенные непосредственно перед текущим словом.
Семантический контекст - слова, находящиеся в одном предложении с текущим словом, т.е. между словами существует какая-то подразумеваемая семантическая связь.
Комплексный морфологический поиск
В 2014 году была проведена морфологическая разметка татарского корпуса. В основе метаязыка грамматических надписей лежит система тегов для тюркских языков, разработанная международным проектом Apertium. Этот проект направлен на разработку системы автоматического перевода для большого количества языков. Основными аргументами в пользу выбора морфологического теггера Apertium для маркировки корпуса являются:
- высокое качество морфологической аннотации;
- это проект с открытым исходным кодом: весь исходный код и данные доступны для всех бесплатно.
Разработанная нами в 2015-2016 гг. Система комплексного морфологического поиска позволяет производить поиск в Корпусе по различным комбинациям таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало слова, средняя часть, конец слова. , и расстояние между искомыми словами. Максимальная длина поискового запроса - пять токенов + соответственно четыре расстояния между ними.
Татарский Синтез речи
Корпус письменного татарского языка предлагает пользователю уникальную возможность прослушать предложения, найденные в поиске, а также прослушать любой другой текст, который пользователь вводит в это средство, см. http://search.corpus.tatar/search/sintez_en.html.
Статистические данные
Создатели Корпуса татарского языка загружают различные дополнительные статистические данные, как только они становятся доступными в результате обработки Корпуса, см. http://corpus.tatar/stat_en.htm.
Недостатки и перспективы
- Отсутствие офлайн-версии корпуса.
- Автоматическое устранение неоднозначности.
Авторы
Создатели Корпуса:
- Сайхунов М.Р. (кандидат филологических наук, научный сотрудник Института информатики)
- Ибрагимов Т.И. (Кандидат филологических наук, доцент кафедры прикладной лингвистики Казанского федерального университета)
- Хусаинов Р.Р. (инженер ООО «ГДК»)
С помощью:
- Республиканский центр развития традиционной культуры
- Отделение исследований волжских языков Университета Турку (Финляндия)
- Компания «RX5»
- Редакция научно-популярного журнала "Фән һәм Тел"
Литература[1]
- Татар теленең язма корпусы // «Мәдәни җомга» (2012 № 20)
- Татар теленең язма корпусы // "Фән һәм Тел" (2012 №1-2)
- Татар теленең язма корпусы һәм тел мәсьәләләре // "Мәдәни җомга" (2012 №32)
- Построение структурно-функциональной модели ценностной ориентации татарского этноса (по материалам письменного корпуса татарского языка) // Языки России и ближнего зарубежья как иностранные: преподавание и изучение: материалы Международной научно-практической конференции (28-29 ноября 2013 г.)
- Письменный корпус татарского языка: идеи, проблемы, решения // Нематериальное культурное наследие тюркских народов как ресурс: сборник материалов Международной научно-практической конференции (16-19 июля 2014 г.)
- Письменный корпус татарского языка с озвучением визуализированных предложений как инструмент лингвистических исследований // Сопоставительная филология и полилингвизм: Материалы Всероссийской научно-практической конференции (Казань, 19–21 ноября 2014 г.)
- Письменный корпус татарского языка: структурные и функциональные характеристики // Актуальные проблемы диалектологии языков народов России: Материалы XIV Всероссийской научной конференции (Уфа, 20-22 ноября 2014 г.)
- Татар теле, татарлар һәм ассимиляция күренеше // "Фнни Татарстан" (2015 №1)
- Языковая ситуация этнической общности (на материале корпуса татарской письменности) // «Татарика» (2015 №4)
- Языковое состояние этнической общности на материале Письменного корпуса татарского языка // «Татарика» (2015 №4).
- Фонология татарского языка в плане теории фонемы И.А. Бодуэна де Куртенэ // И.А. Бодуэн де Куртенэ и мировая лингвистика: международная конференция: V Бодуэновские чтения (Казанский федеральный университет, 12-15 октября 2015 г.)