WikiDer > Инструменты и методы языковой документации

Language documentation tools and methods

Поле языковая документация в современном контексте включает в себя сложный и постоянно развивающийся набор инструментов и методов, и изучение и развитие их использования - и, особенно, выявление и продвижение передовых практик - можно рассматривать как подполу языковая документация собственно.[1] Среди них - этические принципы и принципы регистрации, рабочие процессы и методы, аппаратные средства и программные средства.[2]

Принципы и рабочие процессы

Исследователи языковой документации часто проводят лингвистические полевые исследования для сбора данных, на которых основана их работа, записывая аудиовизуальные файлы, которые документируют использование языка в традиционном контексте. Поскольку условия, в которых часто проводятся полевые лингвистические исследования, могут быть сложными с точки зрения логистики, не все типы записывающих устройств необходимы или идеальны, и часто приходится искать компромиссы между качеством, стоимостью и удобством использования. Также важно представить себе полный рабочий процесс и предполагаемые результаты; например, если создаются видеофайлы, может потребоваться некоторая обработка, чтобы подвергнуть аудиокомпонент обработке различными способами с помощью разных пакетов программного обеспечения.

Этика

Этические практики в языковой документации были в центре многих недавних дискуссий и дебатов.[3] В Лингвистическое общество Америки подготовил Заявление об этике, и поддерживает Блог обсуждения этики который в первую очередь ориентирован на этику в контексте языковой документации. Сама мораль этических протоколов была поставлена ​​под сомнение Джордж ван Дрим.[4] Большинство программ последипломного образования, которые включают в себя какую-либо форму документации и описания на языке, требуют, чтобы исследователи представили свои предлагаемые протоколы внутреннему наблюдательному совету учреждения, который обеспечивает соблюдение этических норм при проведении исследований. Как минимум, участники должны быть проинформированы о процессе и предполагаемом использовании записей, а также дать записанное звуковое или письменное разрешение на использование аудиовизуальных материалов для лингвистического исследования исследователем (ами). Многие участники захотят, чтобы их называли консультантами, но другие не захотят - это определит, нужно ли анонимизировать данные или ограничить общий доступ к ним.

Форматы данных

Соблюдение стандартов форматов имеет решающее значение для взаимодействия между программными инструментами. Многие отдельные архивы или репозитории данных имеют свои собственные стандарты и требования к данным, размещаемым на их серверах - знание этих требований должно определять стратегию сбора данных и используемые инструменты, а также должно быть частью план управления данными разработан до начала исследования. Ниже приведены некоторые примеры руководств из широко используемых репозиториев:

Самые актуальные стандарты архивов для видео используйте MPEG-4 (H264) в качестве формата кодирования или хранения, который включает аудиопоток AAC (обычно до 320 кбит / с). Аудио качество архива не менее WAV 44,1 кГц, 16 бит.

Принципы записи

Поскольку документирование языков часто затруднено, а многие языки, с которыми работают лингвисты, находятся под угрозой исчезновения (в ближайшем будущем на них могут не разговаривать), рекомендуется записывать с максимально возможным качеством с учетом ограничений записывающего устройства. Для видео это означает запись с разрешением HD (1080p или 720p) или выше, когда это возможно, в то время как для аудио это означает минимальную запись в несжатом PCM 44100 выборок в секунду, 16-битное разрешение. Возможно, однако, что хорошие методы записи (изоляция, выбор и использование микрофона, использование штатива для минимизации размытости) важнее разрешения. Микрофон, который дает четкую запись говорящего сказку (высокое соотношение сигнал / шум) в формате MP3 (возможно, через телефон), лучше, чем чрезвычайно шумная запись в формате WAV, когда все, что можно услышать, - это проезжающие машины. Чтобы гарантировать получение хороших записей, лингвисты должны как можно больше практиковаться со своими записывающими устройствами и сравнивать результаты, чтобы определить, какие методы дают наилучшие результаты.[5][2][6][7][8]

Рабочие процессы

Для многих лингвистов конечным результатом создания записей является анализ языка, часто исследование фонологических или синтаксических свойств языка с помощью различных программных инструментов. Это требует транскрипции аудио, как правило, в сотрудничестве с носителями языка, о котором идет речь. Для общей транскрипции медиафайлы можно воспроизводить на компьютере (или другом устройстве, поддерживающем воспроизведение) и приостанавливать транскрипцию в текстовом редакторе. Другие (кроссплатформенные) инструменты, помогающие в этом процессе, включают: Дерзость и Транскрайбер, а программа вроде ELAN (описано ниже) также может выполнять эту функцию.

Такие программы, как Ящик для инструментов или FLEx часто предпочитают лингвисты, которые хотят уметь подстрочный их тексты, поскольку эти программы создают словарь форм и правил синтаксического анализа, чтобы ускорить анализ. К сожалению, эти программы обычно не связывают медиафайлы (в отличие от ELAN, в которой предпочтительны связанные файлы), что затрудняет просмотр или прослушивание записей для проверки транскрипции. Есть в настоящее время обходной путь для Toolbox, который позволяет временным кодам ссылаться на аудиофайл и разрешать воспроизведение (всего текста или указанного предложения) из Toolbox - в этом рабочем процессе выравнивание текста по времени выполняется в Transcriber, а затем соответствующие временные коды и текст преобразуются в формате, понятном для Toolbox.

Оборудование

Видео + аудио рекордеры

Рекордеры, которые записывают видео, обычно также записывают и звук. Однако звук не всегда соответствует критериям минимальных потребностей и рекомендуемым передовым методам для языковой документации (несжатый формат WAV, 44,1 кГц, 16 бит) и часто не используется для лингвистических целей, таких как фонетический анализ. Многие видеоустройства вместо этого записывают в сжатый аудиоформат, такой как AAC или MP3, который объединяется с видеопотоком в оболочке различные виды. Исключениями из этого общего правила являются следующие устройства для записи видео и звука:

В Увеличить серии, особенно Q8, Q4n, и Q2n, которые записывают в несколько видео и аудио разрешений / форматов, в первую очередь WAV (44,1 / 48/96 кГц, 16/24-бит).

При использовании видеомагнитофона, который не записывает звук в формате WAV (например, большинства цифровых зеркальных камер), рекомендуется записывать звук отдельно на другое записывающее устройство, следуя некоторым из приведенных ниже рекомендаций. Как и в случае с аудиорекордерами, описанными ниже, многие видеомагнитофоны также принимают входы микрофонов различных типов (обычно через 1/8 дюйма или разъем TRS) - это может обеспечить высококачественную резервную аудиозапись, синхронизированную с записанным видео. , что может быть полезно в некоторых случаях (например, для транскрипции).

Магнитофоны и микрофоны

Рекордеры только для звука могут использоваться в сценариях, где видео нецелесообразно или по иным причинам нежелательно. В большинстве случаев выгодно сочетать использование записывающего устройства только для звука с одним или несколькими внешними микрофонами, однако многие современные устройства для записи звука включают встроенные микрофоны, которые можно использовать, если важны стоимость или скорость установки. Цифровые (твердотельные) записывающие устройства предпочтительны для большинства сценариев языковой документации. Современные цифровые рекордеры достигают очень высокого уровня качества при относительно низкой цене. Некоторые из самых популярных полевых регистраторов находятся в Увеличить диапазон, включая H1, H2, H4, H5 и H6. В H1 особенно подходит для ситуаций, в которых стоимость и удобство использования являются главными требованиями. Другими популярными рекордерами для ситуаций, когда размер является фактором, являются Olympus LS-серия и Цифровые диктофоны Sony (хотя в последнем случае убедитесь, что устройство может записывать в формате WAV / Linear PCM).

Несколько видов микрофон может эффективно использоваться в сценариях языковой документации, в зависимости от ситуации (особенно, включая такие факторы, как количество, положение и мобильность носителей) и бюджета. В общем, конденсаторные микрофоны следует выбирать, а не динамические микрофоны. Если конденсаторный микрофон имеет автономное питание (от батареи), это является преимуществом в большинстве случаев полевых работ; однако, когда питание не является основным фактором, можно также использовать модели с фантомным питанием. Стереомикрофон необходим, когда в записи участвует более одного динамика; это может быть достигнуто через массив из двух монофонических микрофонов или с помощью специального стереомикрофона.

В большинстве случаев следует использовать направленные микрофоны, чтобы изолировать голос говорящего от других потенциальных источников шума. Однако всенаправленные микрофоны могут быть предпочтительнее в ситуациях, когда большое количество динамиков размещается в относительно большом пространстве. Среди направленных микрофонов, кардиоидный микрофоны подходят для большинства приложений, однако в некоторых случаях гиперкардиоидный микрофон («дробовик») может быть предпочтительнее.

Качественные микрофоны для гарнитуры сравнительно дороги, но в контролируемых ситуациях могут производить записи исключительно высокого качества.[9] Lavalier или отворотные микрофоны могут использоваться в некоторых ситуациях, однако, в зависимости от микрофона, они могут производить записи, которые уступают микрофону гарнитуры для фонетического анализа и вызывают некоторые из тех же проблем, что и микрофоны гарнитуры с точки зрения ограничений. записи в один динамик - в то время как другие динамики могут быть слышны во время записи, они будут заземлены по отношению к говорящему с петличным микрофоном.[10]

Некоторые микрофоны хорошего качества, используемые для съемок фильмов и интервью, включают: Ружье Røde VideoMic и серия петличных Røde, Головные уборы Shure и Лавальеры Shure. В зависимости от диктофона и микрофона дополнительные кабели (XLR, стерео / моно преобразователь или Адаптер TRRS на TRS) будет необходимо.

Другие инструменты записи

Производство, хранение и управление электрической энергией

Компьютерные системы

Аксессуары

Программного обеспечения

Пока не существует единого программного пакета, который был бы разработан или мог бы обрабатывать все аспекты типичного рабочего процесса документации на языке. Вместо этого существует большое и постоянно увеличивающееся количество пакетов, предназначенных для обработки различных аспектов рабочего процесса, многие из которых значительно перекрываются. Некоторые из этих пакетов используют стандартные форматы и совместимы, тогда как другие гораздо менее совместимы.

SayMore

SayMore пакет языковой документации, разработанный SIL International в Даллас который в первую очередь ориентирован на начальные этапы языковой документации и нацелен на относительно несложный пользовательский интерфейс.

Основными функциями SayMore являются: (a) аудиозапись (b) импорт файлов с записывающего устройства (видео и / или аудио) (c) организация файлов (d) ввод метаданных на уровне сеанса и файла (e) ассоциация AV-файлов с доказательства информированного согласия и другие дополнительные объекты (например, фотографии) (f) сегментация AV-файла (g) транскрипция / перевод (h) СМЕЛЫЙаннотации в стиле «Осторожная речь» и устный перевод.

Файлы SayMore можно в дальнейшем экспортировать для аннотации в FLEx, а метаданные можно экспортировать в .csv и IMDI форматы для архивирования.

ELAN

ELAN разработан Языковой архив на Институт психолингвистики Макса Планка в Неймеген. ELAN - это полнофункциональный инструмент для транскрипции, особенно полезный для исследователей со сложными задачами / целями аннотации.

FLEx

FieldWorks Language Explorer, FLEx разработан SIL International, ранее называвшаяся Летним институтом лингвистики, Inc. в SIL International в Даллас. FLEx позволяет пользователю создавать «словарный запас» языка, то есть список слов с определениями и грамматической информацией, а также сохранять тексты с языка. В текстах каждое слово или часть слова (то есть «морфема») связаны с записью в лексиконе. Для новых проектов и для студентов, обучающихся впервые, FLEx теперь лучший инструмент для подстрочного перевода и составления словарей.

Ящик для инструментов

Набор инструментов полевого лингвиста (обычно называемый Toolbox) является предшественником FLEx и уже несколько десятилетий является одним из наиболее широко используемых пакетов языковой документации. Ранее известный как Обувная коробкаОсновные функции Toolbox - это построение лексической базы данных и подстилка текстов через взаимодействие с лексической базой данных. Как лексическая база данных, так и тексты могут быть экспортированы в среду обработки текста, в случае лексической базы данных с помощью Multi-Dictionary Formatter (МДФ) инструмент преобразования. Также можно использовать Toolbox в качестве среды транскрипции.[11] По сравнению с ELAN и FLEx, Toolbox имеет относительно ограниченную функциональность, и некоторые считают, что она имеет неинтуитивный дизайн и интерфейс. Тем не менее, большое количество проектов было реализовано в среде Shoebox / Toolbox за время ее существования, и пользовательская база продолжает пользоваться такими преимуществами, как знакомство, скорость и поддержка сообщества. Toolbox также имеет преимущество работы напрямую с удобочитаемыми текстовыми файлами, которые можно открывать в любом текстовом редакторе, легко манипулировать и архивировать. Файлы Toolbox также можно легко преобразовать для хранения в XML (рекомендуется для архивов), например, с помощью библиотек Python с открытым исходным кодом, таких как Xigt предназначен для вычислительного использования данных IGT.

Инструменты для автоматизации компонентов рабочего процесса

Документация по языку может быть частично автоматизирована с помощью ряда программных инструментов, в том числе:

  • Maus
  • Sox
  • Просодилаб Элайнер
  • eSpeak
  • HTK

Литература

Рецензируемый журнал Языковая документация и сохранение опубликовал большое количество статей, посвященных инструментам и методам языковой документации.

Смотрите также

Карта LRE Карта языковых ресурсов Доступен для поиска по типу ресурса, языку (языкам), типу языка, модальности, использованию ресурсов, доступности, состоянию производства, конференциям, названию ресурса

Каталог Ричарда Литтауэра на GitHubКаталог «открытого кода, который был бы полезен для документирования, сохранения, развития, сохранения или работы с исчезающими языками».

Страница программного обеспечения RNLDСтраница Research Network for Linguistic Diversity о лингвистическом программном обеспечении.

использованная литература

  1. ^ "Саммит LD Tools". sites.google.com. Получено 2016-06-02.
  2. ^ а б Бауэрн, Клэр (2008). Лингвистические полевые исследования - Springer. Дои:10.1057/9780230590168. ISBN 978-0-230-54538-0.
  3. ^ Остин, Питер К. 2010. «Сообщества, этика и права в языковой документации». В Питере К. Остине, ред., Языковая документация и описание, том 7. Лондон, SOAS: 34-54.
  4. ^ ван Дрим, Джордж (2016). "Исчезающие языковые исследования и моральная порочность этических протоколов". Языковая документация и сохранение 10: 243-252. HDL:10125/24693.
  5. ^ Ladefoged, Питер (2003). Фонетический анализ данных: введение в полевые и инструментальные методы. Молден, Массачусетс: Blackwell Pub. ISBN 978-0631232698. OCLC 51818554.
  6. ^ Chelliah, Shobhana L .; де Реус, Виллем Дж. (2011). Справочник по описательной лингвистической полевой работе. Дои:10.1007/978-90-481-9026-3. ISBN 978-90-481-9025-6.
  7. ^ Микинс, Фелисити; Грин, Дженнифер; Терпин, Myfany (2018). Понимание лингвистической полевой работы. Лондон. ISBN 9781351330114. OCLC 1029352513.
  8. ^ Тибергер, Николас, изд. (2011-11-24). Оксфордский справочник полевых лингвистических исследований. Издательство Оксфордского университета. Дои:10.1093 / oxfordhb / 9780199571888.001.0001. ISBN 9780191744112.
  9. ^ Švec, Jan G .; Гранквист, Сванте (01.11.2010). «Рекомендации по выбору микрофонов для исследования воспроизведения человеческого голоса». Американский журнал патологии речи и языка. 19 (4): 356–368. Дои:10.1044/1058-0360(2010/09-0091). ISSN 1058-0360. PMID 20601621.
  10. ^ Бриксен, Эдди (1996-05-01). «Спектральная деградация речи, фиксируемой миниатюрными микрофонами, установленными на голове и груди людей». Конвенция Общества звукорежиссеров 100.
  11. ^ Маргетс, Эндрю (2009). «Использование Toolbox с медиафайлами». Языковая документация и сохранение. 3 (1): 51–86. HDL:10125/4426.