WikiDer > EuroMatrixPlus

EuroMatrixPlus

В EuroMatrixPlus - это проект, который проходил с марта 2009 года по февраль 2012 года. EuroMatrixPlus стал преемником проекта под названием Евроматрикс (С сентября 2006 г. по февраль 2009 г.) и продолжил дальнейшее развитие и улучшение машинный перевод (MT) системы для языков Евросоюз (ЕВРОПА).

Цели проекта

EuroMatrixPlus сосредоточился на достижении нескольких целей:

Продолжить продвижение технологии машинного перевода (создать системы машинного перевода для всех официальных языков ЕС и предоставить другим исследователям машинного перевода существующие данные и инфраструктуру).
Постоянно расширять и исследовать различные подходы и методы машинного перевода; оставаться открытым для новых комбинаций методов МП.
Довести МП до пользователей. Пользователи пост-редактируют результаты статистических моделей, и система учится на обратной связи и улучшается. Две группы пользователей были нацелены на:
- Профессиональные переводчики и бюро переводов
- Пользователи, которые добровольно переводят тексты на свой родной язык
Участвовать в исследованиях машинного перевода в Европе.
Создать образец приложения для автоматического перевода новостей и веб-страниц и сделать это приложение свободно доступным.

Исход

EuroMatrixPlus внес свой вклад в развитие машиностроения несколькими способами. Он продолжил разработку статистической системы машинного перевода с открытым исходным кодом. Моисей. Проект работал над исследованиями в гибридные подходы к МП (комбинация основанный на правилах и статистический техники). Проектом были организованы несколько «MT Marathons» и ежегодные оценочные кампании. По результатам проекта выпущено 196 научных публикаций.

Результаты работы были сгруппированы в десять рабочих пакетов:^[1]

WP1: Богатый статистический перевод на основе дерева
WP2: Гибридный машинный перевод
WP3: Расширенные методы обучения машинному обучению
WP4: Инструменты и данные с открытым исходным кодом
WP5: Среда перевода "WikiTrans"
WP6: Интегрированный рабочий процесс локализации
WP7: Оценочная кампания
WP8: Управление проектами и распространение
WP9: Интеграция словацких языковых ресурсов
WP10: Статистический перевод на основе HPSG

Программное обеспечение и данные

Вот список программного обеспечения и данных, выпущенных проектом:^[2]

Appraise - инструмент с открытым исходным кодом для ручной оценки результатов MT
БУРГЕР - Болгарский ресурс
BulTreeBank - Древесный банк Болгарии
Набор инструментов CSLM - бесплатный инструмент для обучения языковых моделей непрерывного пространства (CSLM) для решения больших задач
Caitra - инструмент для постредактирования результатов МП
Europarl - Параллельный корпус Европейского парламента
IRSTLM toolkit - инструмент для обучения языковых моделей
Joshua - декодер статистического машинного перевода с открытым исходным кодом для иерархического и синтаксического машинного перевода
MT Server Land - архитектура с открытым исходным кодом для MT
Моисей - статистическая МП
MultiUN Corpora - параллельный корпус, извлеченный с веб-сайта Организации Объединенных Наций
PCEDT 2.0 - Чешско-английский филиал в Праге Treebank
PEDT 2.0 - английская часть чешско-английского Dependency Treebank в Праге
Словацкий корпус - англо-словацкий и чешско-словацкий, а также словацко-английский и словацко-чешский параллельный корпус
Словацкий treebank - древовидный банк зависимостей
TermEx - Инструмент для извлечения статистической терминологии, подходящий для RBMT
Treex, TectoMT

Финансирование

Спонсором проекта EuroMatrixPlus выступила Программа ЕС по технологиям информационного общества.

Общая стоимость проекта составила 5 942 121 евро, из которых Европейский Союз внес 4 266 896 евро.^[3]

Участники проекта

Чтобы обеспечить развитие машинного перевода, несколько организаций, которые являются экспертами в различных дисциплинах (лингвистика, информатика, математика, перевод), были объединены для сотрудничества в рамках EuroMatrixPlus.

Консорциум состоял как из академических, так и коммерческих партнеров. Академическими партнерами были Эдинбургский университет (Объединенное Королевство), DFKI - Немецкий исследовательский центр искусственного интеллекта (Германия), Карлов университет (Чехия), Университет Джона Хопкинса (Соединенные Штаты), Университет Ле-Мана (Франция), Fondazione Bruno Kessler (Италия), Дублинский городской университет (Ирландия). Два учреждения присоединились к проекту примерно через год. Это были Институт лингвистики Людовита Штура (Словацкая Республика) и IICT - Институт информационных и коммуникационных технологий Болгарской академии наук (Болгария).

Коммерческими партнерами были Lucy Software and Services GmbH (Германия) и CEET s.r.o. (Чехия).

Координация проекта осуществлялась DFKI с его лабораторией языковых технологий в Саарбрюккене. Главный исследователь и научный координатор был Ганс Ушкорейт, профессор компьютерной лингвистики в Саарский университет.

внешняя ссылка

[1] Пакеты работ

[2] Программное обеспечение и данные

[3] rdis.europa.eu/project/rcn/89512_en.html

[1]

[2]

[3]

Navigation