WikiDer > EuroMatrixPlus
Эта статья нужны дополнительные цитаты для проверка. (Апрель 2016 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
В EuroMatrixPlus - это проект, который проходил с марта 2009 года по февраль 2012 года. EuroMatrixPlus стал преемником проекта под названием Евроматрикс (С сентября 2006 г. по февраль 2009 г.) и продолжил дальнейшее развитие и улучшение машинный перевод (MT) системы для языков Евросоюз (ЕВРОПА).
Цели проекта
EuroMatrixPlus сосредоточился на достижении нескольких целей:
- Продолжить продвижение технологии машинного перевода (создать системы машинного перевода для всех официальных языков ЕС и предоставить другим исследователям машинного перевода существующие данные и инфраструктуру).
- Постоянно расширять и исследовать различные подходы и методы машинного перевода; оставаться открытым для новых комбинаций методов МП.
- Довести МП до пользователей. Пользователи пост-редактируют результаты статистических моделей, и система учится на обратной связи и улучшается. Две группы пользователей были нацелены на:
- Профессиональные переводчики и бюро переводов
- Пользователи, которые добровольно переводят тексты на свой родной язык
- Участвовать в исследованиях машинного перевода в Европе.
- Создать образец приложения для автоматического перевода новостей и веб-страниц и сделать это приложение свободно доступным.
Исход
EuroMatrixPlus внес свой вклад в развитие машиностроения несколькими способами. Он продолжил разработку статистической системы машинного перевода с открытым исходным кодом. Моисей. Проект работал над исследованиями в гибридные подходы к МП (комбинация основанный на правилах и статистический техники). Проектом были организованы несколько «MT Marathons» и ежегодные оценочные кампании. По результатам проекта выпущено 196 научных публикаций.
Результаты работы были сгруппированы в десять рабочих пакетов:[1]
- WP1: Богатый статистический перевод на основе дерева
- WP2: Гибридный машинный перевод
- WP3: Расширенные методы обучения машинному обучению
- WP4: Инструменты и данные с открытым исходным кодом
- WP5: Среда перевода "WikiTrans"
- WP6: Интегрированный рабочий процесс локализации
- WP7: Оценочная кампания
- WP8: Управление проектами и распространение
- WP9: Интеграция словацких языковых ресурсов
- WP10: Статистический перевод на основе HPSG
Программное обеспечение и данные
Вот список программного обеспечения и данных, выпущенных проектом:[2]
- Appraise - инструмент с открытым исходным кодом для ручной оценки результатов MT
- БУРГЕР - Болгарский ресурс
- BulTreeBank - Древесный банк Болгарии
- Набор инструментов CSLM - бесплатный инструмент для обучения языковых моделей непрерывного пространства (CSLM) для решения больших задач
- Caitra - инструмент для постредактирования результатов МП
- Europarl - Параллельный корпус Европейского парламента
- IRSTLM toolkit - инструмент для обучения языковых моделей
- Joshua - декодер статистического машинного перевода с открытым исходным кодом для иерархического и синтаксического машинного перевода
- MT Server Land - архитектура с открытым исходным кодом для MT
- Моисей - статистическая МП
- MultiUN Corpora - параллельный корпус, извлеченный с веб-сайта Организации Объединенных Наций
- PCEDT 2.0 - Чешско-английский филиал в Праге Treebank
- PEDT 2.0 - английская часть чешско-английского Dependency Treebank в Праге
- Словацкий корпус - англо-словацкий и чешско-словацкий, а также словацко-английский и словацко-чешский параллельный корпус
- Словацкий treebank - древовидный банк зависимостей
- TermEx - Инструмент для извлечения статистической терминологии, подходящий для RBMT
- Treex, TectoMT
Финансирование
Спонсором проекта EuroMatrixPlus выступила Программа ЕС по технологиям информационного общества.
Общая стоимость проекта составила 5 942 121 евро, из которых Европейский Союз внес 4 266 896 евро.[3]
Участники проекта
Чтобы обеспечить развитие машинного перевода, несколько организаций, которые являются экспертами в различных дисциплинах (лингвистика, информатика, математика, перевод), были объединены для сотрудничества в рамках EuroMatrixPlus.
Консорциум состоял как из академических, так и коммерческих партнеров. Академическими партнерами были Эдинбургский университет (Объединенное Королевство), DFKI - Немецкий исследовательский центр искусственного интеллекта (Германия), Карлов университет (Чехия), Университет Джона Хопкинса (Соединенные Штаты), Университет Ле-Мана (Франция), Fondazione Bruno Kessler (Италия), Дублинский городской университет (Ирландия). Два учреждения присоединились к проекту примерно через год. Это были Институт лингвистики Людовита Штура (Словацкая Республика) и IICT - Институт информационных и коммуникационных технологий Болгарской академии наук (Болгария).
Коммерческими партнерами были Lucy Software and Services GmbH (Германия) и CEET s.r.o. (Чехия).
Координация проекта осуществлялась DFKI с его лабораторией языковых технологий в Саарбрюккене. Главный исследователь и научный координатор был Ганс Ушкорейт, профессор компьютерной лингвистики в Саарский университет.