WikiDer > Параллельный текст

Parallel text

А параллельный текст текст, помещенный рядом с его переводом или переводами.^[1]^[2] Параллельное выравнивание текста - отождествление соответствующих предложений в обеих половинах параллельного текста. В Классическая библиотека Леба и Библиотека санскрита из глины два примера двуязычных серий текстов. Ссылка Библии могут содержать исходные языки и перевод или несколько переводов сами по себе, для удобства сравнения и изучения; Оригенс Hexapla (По-гречески "шестикратный") расположил рядом шесть версий Ветхого Завета. Самый известный пример - это Розеттский камень.

Большие коллекции параллельных текстов называются параллельные корпуса (видеть текстовый корпус). Выравнивание параллельных корпусов на уровне предложений является необходимым условием для многих областей лингвистический исследование. Во время перевода предложения могут быть разделены, объединены, удалены, вставлены или переупорядочены переводчиком. Это делает выравнивание нетривиальной задачей.

Типы параллельных корпусов

Можно выделить четыре основных типа корпусов.

А шумный параллельный корпус содержит двуязычные предложения, которые не совсем выровнены или имеют некачественный перевод. Тем не менее, большая часть его содержания - это двуязычные переводы определенного документа.

А сопоставимый корпус строится из двуязычных документов, не выровненных по предложениям и не переведенных, но документы тематически выровнены.

А квазисопоставимый корпус включает очень разнородные и непараллельные двуязычные документы, которые могут или не могут быть тематически согласованными.

Самые редкие параллельные корпуса - это корпуса, которые содержат переводы одного и того же документа на два или более языков, выровненные по крайней мере на уровне предложения.

Шум в корпусе

Большие корпуса, используемые в качестве учебных наборов для машинный перевод алгоритмы обычно извлекаются из больших массивов аналогичных источников, таких как базы данных новостных статей, написанных на первом и втором языках и описывающих похожие события.

Однако извлеченные фрагменты могут быть шумными, с добавлением дополнительных элементов в каждый корпус. Методы извлечения могут различать двуязычный элементы, представленные как в корпусе, так и в одноязычный элементы представлены только в одном корпусе, чтобы выделить более четкие параллельные фрагменты двуязычных элементов. Сопоставимые корпуса используются для непосредственного получения знаний для целей перевода. Однако трудно получить высококачественные параллельные данные, особенно для языков с ограниченными ресурсами.^[3]

Bitext

В области переводческие исследования а битекст представляет собой объединенный документ, состоящий из версий данного текста на исходном и целевом языках.

Битексты создаются программой, называемой инструмент для выравнивания, или инструмент bitext, который автоматически выравнивает исходную и переведенную версии одного и того же текста. Инструмент обычно сопоставляет эти два текста предложение за предложением. Коллекция битекстов называется база данных bitext или двуязычный корпус, и к нему можно обратиться с помощью инструмента поиска.

Битексты и память переводов

Bitexts имеют некоторое сходство с памятью переводов. Наиболее существенное различие заключается в том, что память переводов теряет исходный контекст, а битекст сохраняет исходный порядок предложений. Тем не менее, некоторые реализации памяти переводов, такие как Обмен памяти переводов (TMX), стандарт XML формат обмена памятью переводов между компьютерный перевод (CAT) программы, позволяют сохранить исходный порядок предложений.

Bitexts предназначены для просмотра людьми. переводчик, а не на машине. Таким образом, небольшие ошибки выравнивания или незначительные неточности, которые могут вызвать сбой памяти переводов, не имеют значения.

В своей оригинальной статье 1988 года Харрис также утверждал, что битекст показывает, как переводчики удерживают исходный и целевой текст вместе в своей умственной рабочей памяти по мере продвижения. Однако эта гипотеза не получила подтверждения.^[4]

Онлайн-битексты и память переводов также могут называться онлайн двуязычные согласования. Некоторые из них доступны в общедоступном Интернете, в том числе Linguée, Reverso, и Tradooit.^[5]^[6]^[7]

Смотрите также

внешняя ссылка

Параллельные корпуса

Многоязычный параллельный корпус JRC-Acquis всего тела Евросоюз (ЕС) закон: Acquis Communautaire с 231 языковой парой.^[1]
Параллельный корпус заседаний Европейского парламента, 1996-2011 гг.
Проект Opus направлен на сбор свободно доступных параллельных корпусов
Японско-английский двуязычный корпус статей Википедии Киото
COMPARA - португальский / английский параллельные корпуса
СРОК ПОИСКА - параллельные корпуса на английском / русском / французском языках (основные международные договоры, конвенции, соглашения и т. Д.
TradooIT - английский / французский / испанский - бесплатные онлайн-инструменты
Нунавут Хансард - английский / параллельный корпус инуктитут
ParaSol - Параллельный корпус славянских и других языков
Glosbe: многоязычный параллельный корпус с интерфейсом онлайн-поиска
InterCorp: многоязычный параллельный корпус 40 языков согласованы с чешским, интерфейс онлайн-поиска
myCAT - Оланто, concordancer (открытый исходный код AGPL) с онлайн-поиском по JCR и корпусу UNO
ТАУС, с интерфейсом онлайн-поиска.
лингватуры многоязычный параллельный корпус, интерфейс онлайн-поиска.
EUR-Lex Corpus - корпус построенный из EUR-Lex база данных состоит из Право Европейского Союза и другие публичные документы Евросоюз
Language Grid - платформа многоязычных сервисов, включающая параллельные текстовые сервисы

Документация

Инструменты для выравнивания

^ Ральф Штайнбергер Ральф; Бруно Пуликен; Анна Видигер; Камелия Игнат; Томаж Ерявец; Дэн Туфиш; Даниэль Варга (2006). JRC-Acquis: многоязычный параллельный корпус с 20+ языками. Труды 5-ой Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г..

[Chan2014-1] Син-Вай Чан (13 ноября 2014 г.). Энциклопедия переводческих технологий Рутледж. Рутледж. ISBN 978-1-317-60815-8.

[WilliamsSennrich2016-2] Филип Уильямс; Рико Сеннрих; Мэтт Пост; Филипп Коэн (1 августа 2016 г.). Статистический машинный перевод на основе синтаксиса. Издатели Morgan & Claypool. ISBN 978-1-62705-502-4.

[3] Волк, К. (2015). «Шумно-параллельная и сопоставимая методология фильтрации корпусов для извлечения двуязычных эквивалентных данных на уровне предложения». Информатика. 16 (2): 169–184. arXiv:1510.04500. Bibcode:2015arXiv151004500W. Дои:10.7494 / csci.2015.16.2.169. S2CID 12860633.

[4] Харрис, Б. Би-текст, новая концепция в теории перевода, Language Monthly (Великобритания) 54, стр. 8-10 марта 1988 г.

[5] Мари Женетт, «Насколько надежны двуязычные онлайн-конкордансеры ?: Исследование Linguee, TradooIT, WeBiText и ReversoContext и их надежность посредством сопоставительного анализа сложных предлогов с французского на английский», магистерская диссертация, Католический университет Лувена и Университет Осло, Весна 2016 полный текст

[6] "TradooIT - Concordancier bilingue".

[7] Ален Дезилетс, Бенуа Фарли, Марта Стоянович, Женевьева Патенауд, «WeBiText: создание больших разнородных воспоминаний о переводе из параллельного веб-контента», Труды из Перевод и компьютер 30:27-28 (2008) полный текст

[8] Ральф Штайнбергер Ральф; Бруно Пуликен; Анна Видигер; Камелия Игнат; Томаж Ерявец; Дэн Туфиш; Даниэль Варга (2006). JRC-Acquis: многоязычный параллельный корпус с 20+ языками. Труды 5-ой Международной конференции по языковым ресурсам и оценке (LREC'2006). Генуя, Италия, 24–26 мая 2006 г..

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[1]

Navigation