WikiDer > Удобство использования программного обеспечения для машинного перевода

Machine translation software usability

В разделах ниже приведены объективные критерии оценки удобства использования машинный перевод программный вывод.

Стационарность или каноническая форма

Сходятся ли повторяющиеся переводы в одном выражении на обоих языках? Т.е. показывает ли метод перевода стационарность или произвести каноническая форма? Становится ли перевод стационарным, не теряя первоначального смысла? Этот показатель подвергся критике за то, что он плохо коррелирует с BLEU (Двуязычный экзаменатор) баллов.[1]

Адаптируется к разговорной речи, арго или сленгу

Адаптирована ли система к разговорный язык, арго или же сленг? В французский язык имеет много правил для создания слов в речи и написании популярная культура. Два таких правила: (а) Обратное написание таких слов, как женщина к Meuf. (Это называется Верлан.) (б) Присоединение суффикса -ард существительному или глаголу, чтобы образовать существительное собственное. Например, существительное фалуч означает «студенческая шляпа». Слово Faluchard сформированный из фалуч в разговорной речи может означать, в зависимости от контекста, «группа студентов», «собрание студентов» и «поведение, типичное для студента». Переводчик Google по состоянию на 28 декабря 2006 г. не выводит составные слова, как, например, из правила (b), как показано здесь:

Il y une chorale falucharde mercredi, venez nombreux, les faluchards chantent des paillardes! ==> В среду проходит хоровое общество falucharde, приходят многие, поют распутные женщины!

Французский арго имеет три уровня использования:[2]

  1. знакомый или дружелюбный, приемлемый среди друзей, семьи и сверстников, но не на работе
  2. грубее или ругательства, приемлемые для друзей и сверстников, но не на работе или в семье
  3. Верлан или сленг гетто, приемлемый для низших классов, но не для среднего или высшего классов

Соединенные Штаты Национальный институт стандартов и технологий проводит ежегодные оценки [1] из машинный перевод системы на основе BLEU-4 критерий [2]. Комбинированный метод под названием IQmt, который включает BLEU и дополнительные показатели NIST, GTM, ROUGE и METEOR, был реализован Гименесом и Амиго. [3].

Правильный вывод

Грамматический ли вывод или правильно сформированный на целевом языке? Использование интерлингва должно быть полезным в этом отношении, потому что при фиксированном интерлингве человек должен иметь возможность написать грамматическое отображение на целевой язык из интерлингва. Рассмотрим следующие арабский язык ввод и английский язык результат перевода переводчиком Google по состоянию на 27 декабря 2006 г. [4]. Этот вывод переводчика Google не анализирует с использованием разумных английская грамматика:

وعن حوادث التدافع عند شعيرة رمي الجمرات -التي كثيرا ما يسقط فيها العديد من الضحايا- أشار الأمير نايف إلى إدخال "تحسينات كثيرة في جسر الجمرات ستمنع بإذن الله حدوث أي تزاحم". ==> И инциденты, связанные с ритуалом бросания карбункулов, которые часто выпадают там, где многие жертвы - принц Найеф указал на введение «многих улучшений в мосту карбункулов, который Бог остановит появление любых конкурирующих».

Сохранение семантики

Повторные переводы сохраняют семантика исходного предложения? Например, представьте, что следующий ввод на английском языке передается несколько раз на французский и обратно с помощью переводчика Google по состоянию на 27 декабря 2006 года:

Лучше на день раньше, чем на день позже. ==>

Améliorer un jour plus tôt qu'un jour tard. ==>

Улучшение на день раньше, чем на день позже. ==>

Вылейте améliorer un jour plus to qu'un jour tard. ==>

Улучшение на день раньше, чем на день позже.

Как отмечалось выше и в[1] такой вид двустороннего перевода - очень ненадежный метод оценки.

Надежность и безопасность

Интересная особенность переводчик Google по состоянию на 24 января 2008 г. (исправлено от 25 января 2008 г.) следующий результат при переводе с английского на испанский, который показывает встроенный шутить в англо-испанском словаре, который стал более пикантным с учетом последних событий:

Хит Леджер мертв ==>

Том Круз Está Muerto

Это поднимает вопрос надежности, если полагаться на систему машинного перевода, встроенную в Жизненно важная система в котором система перевода вводит данные Принятие важных для безопасности решений процесс. В то же время возникает вопрос о том, является ли программное обеспечение системы машинного перевода безопасный из хакеры.

Неизвестно, была ли эта функция Google Translate результатом шутки / взлома или, возможно, непреднамеренным последствием использования такого метода, как статистический машинный перевод. Репортеры из Сети CNET попросил Google объяснений 24 января 2008 г .; Google сказал только, что это «внутренняя проблема с Google Translate».[3] Неправильный перевод стал предметом множества шуток и спекуляций в Интернете.[4][5]

Если это непредвиденное последствие использования такого метода, как статистический машинный перевод, а не шутка / взлом, то это событие является демонстрацией потенциального источника критической ненадежности метода статистического машинного перевода.

В человеческих переводах, в частности со стороны переводчикиизбирательность переводчика при выполнении перевода часто комментируется, когда одна из двух сторон, обслуживаемых переводчиком, знает оба языка.

Это приводит к вопросу о том, можно ли рассматривать конкретный перевод проверяемый. В этом случае сходящийся двусторонний перевод будет своего рода проверкой.

Смотрите также

Примечания

  1. ^ а б Сомерс, Гарольд (2005). «Перевод в оба конца: для чего он нужен?». Материалы семинара по технологиям австралийского языка ALTW 2005. Сидней: 127–133.
  2. ^ "Агония Аргота", Chitlins & Camembert, 28 октября 2005 г.
  3. ^ "Ошибка Google Translate путает Хита Леджера и Тома Круза", Кэролайн Маккарти, Сети CNET, 24 января 2008 г.
  4. ^ «Том Круз» в переводе с испанского означает «Хит Леджер», gawker.com, 24 января 2008 г. В архиве 28 января 2008 г. Wayback Machine
  5. ^ "Tom Cruise está muerto", проект блога Рэя Леона, 24 января 2008 г. В архиве 29 октября 2008 г. Wayback Machine

Рекомендации