WikiDer > Язык сводной таблицы

Pivot language

А основной язык, иногда также называемый язык моста, является искусственный или же естественный язык используется в качестве промежуточного языка для перевода между множеством разных языков - для перевода между любой парой языков A и B, переводят A на основной язык P, затем с P на B. Использование основного языка позволяет избежать комбинаторный взрыв наличия переводчиков для каждой комбинации поддерживаемых языков, поскольку количество комбинаций языков линейно ( ${ displaystyle n-1}$ ), а не квадратичный ${ displaystyle left ( textstyle { binom {n} {2}} = { frac {n ^ {2} -n} {2}} right)}$ - нужно знать только язык A и опорный язык P (а кому-то еще язык B и опорный язык P), вместо того, чтобы нуждаться в разных переводчиках для каждой возможной комбинации A и B.

Недостатком сводного языка является то, что каждый шаг ретрансляции вносит возможные ошибки и двусмысленности - использование сводного языка включает два шага, а не один. Например, когда Эрнан Кортес общался с Мезоамериканец Индейцы, он говорил по-испански Жеронимо де Агилар, кто говорил майя к Малинцин, кто говорил Науатль местным жителям.

Примеры

английский, Французский, русский, и арабский часто используются в качестве основных языков. Интерлингва был использован в качестве основного языка на международных конференциях и был предложен в качестве основного языка для Евросоюз.^[1] эсперанто был предложен в качестве основного языка в Распределенный языковой перевод проект и был использован таким образом в Majstro Tradukvortaro на веб-сайте Esperanto Majstro.com. В Универсальный сетевой язык - это искусственный язык, специально разработанный для использования в качестве основного языка.

В вычислениях

Сводное кодирование также является распространенным методом перевода данных для компьютерных систем. Например, протокол Интернета, XML и языки высокого уровня представляют собой сводные коды компьютерных данных, которые затем часто преобразуются во внутренние двоичные форматы для конкретных компьютерных систем.

Unicode был разработан для использования в качестве базового кодирования между различными основными существующими кодировками символов, хотя его широкое распространение в качестве самостоятельного кодирования сделало это использование несущественным.

В машинном переводе

Текущий статистический машинный перевод (SMT) системы используют параллельные корпуса для исходных и целевых языков, чтобы достичь хороших результатов, но хорошие параллельные корпуса доступны не для всех языков. Сводный язык (p) обеспечивает мост между двумя языками, к которым существующие параллельные корпуса полностью или частично еще не доступны.

Сводный перевод может быть проблематичным из-за потенциального отсутствия точности информации, передаваемой при использовании разных корпусов. Из-за использования двух двуязычных корпусов (s-p и p-t) для создания моста s-t лингвистические данные неизбежно теряются. Машинный перевод на основе правил (RBMT) помогает системе спасти эту информацию, так что система полагается не только на статистику, но и на структурную лингвистическую информацию.

Для использования сводного языка в машинном переводе используются три основных метода: (1) триангуляция, который фокусируется на параллелизме фраз между источником и точкой поворота (s-p) и между точкой поворота и целью (p-t); (2) передача, который переводит все предложение исходного языка на основной язык, а затем на целевой язык; и (3) синтез, который создает собственный корпус для системного обучения.

В триангуляция метод (также называемый умножение таблицы фраз) вычисляет вероятность соответствия перевода и лексического веса в s-p и p-t, чтобы попытаться вызвать новую таблицу фраз s-t. В передача метод (также называемый стратегия перевода предложений) просто выполняет прямой перевод s в p, а затем другой перевод p в t без использования вероятностных тестов (как в триангуляции). В синтетический Метод использует существующий корпус s и пытается построить из него собственный синтетический корпус, который используется системой для обучения. Затем синтезируется двуязычный корпус s-p, чтобы обеспечить перевод p-t.

Прямое сравнение методов триангуляции и переноса для систем SMT показало, что триангуляция дает гораздо лучшие результаты, чем перенос.

Все три метода сводного языка повышают производительность систем SMT. Тем не менее синтетический техника не работает с RBMT, и производительность системы ниже ожидаемой. Гибридные системы SMT / RBMT обеспечивают лучшее качество перевода, чем системы строгого SMT, которые полагаются на плохие параллельные корпуса.

Ключевая роль систем RBMT заключается в том, что они помогают заполнить пробел, оставшийся в процессе преобразования s-p → p-t, в том смысле, что эти параллели включены в модель SMT для s-t.

Navigation

Navigation

Themenportale

WikiDer > Язык сводной таблицы

Содержание

Примеры

В вычислениях

В машинном переводе

Рекомендации