WikiDer > Японский язык и компьютеры

Japanese language and computers
Японская клавиатура кана

Что касается Японский язык и компьютеры возникает много проблем адаптации, некоторые из которых Японский и другие общие для языки которые имеют очень большое количество символов. Количество символов, необходимых для написания английского, очень мало, поэтому можно использовать только один байт (28= 256 возможных значений) для кодирования одного английского символа. Однако количество символов в японском языке намного превышает 256 и, следовательно, не может быть закодировано с использованием одного байта. Таким образом, японский язык кодируется с использованием двух или более байтов в так называемой «двухбайтовой» или «многобайтовой» кодировке. Возникающие проблемы связаны с транслитерация и романизация, кодировка символов и ввод японского текста.

Кодировки символов

Есть несколько стандартных методов кодировать Японские символы для использования на компьютере, в том числе JIS, Shift-JIS, EUC, и Unicode. При отображении множества Кана это простое дело, кандзи оказалось сложнее. Несмотря на усилия, ни одна из схем кодирования не стала стандартом де-факто, и к 2000-м годам использовалось несколько стандартов кодирования. По состоянию на 2017 год доля использования UTF-8 в Интернете распространилось более чем на 90% по всему миру, а остальные 1,2% использовали Shift-JIS и EUC. Тем не менее, несколько популярных веб-сайтов, включая 2 канала и kakaku.com все еще используют Shift-JIS.[1]

До 2000-х годов большинство японцев электронные письма были в ISO-2022-JP («Кодировка JIS») и веб-страница в Shift-JIS и мобильные телефоны в Японии обычно используют какую-либо форму Расширенный код Unix.[2] Если программе не удается определить используемую схему кодирования, это может вызвать моджибаке (文字 化 け, «неправильно преобразованные, искаженные / мусорные символы», буквально «преобразованные символы») и, следовательно, нечитаемый текст на компьютерах.

Кандзи ПЗУ карта установлена ​​в ПК-98, в котором хранится около 3000 символов, и позволяет быстро их отображать. Он также имел баран хранить гайдзи.
Встроенные устройства все еще используют кана половинной ширины

Первой кодировкой, получившей широкое распространение, была JIS X 0201, который является однобайтовая кодировка что охватывает только стандартные 7-битные ASCII персонажи с катакана половинной ширины расширения. Это широко использовалось в системах, которые были недостаточно мощными и не имели хранилища для обработки иероглифов (включая старое встроенное оборудование, такое как кассовые аппараты), потому что преобразование кана-кандзи требовало сложного процесса, а вывод в кандзи требовал большого объема памяти и высокого разрешения. Это означает, что с помощью этой техники поддерживалась только катакана, а не кандзи. Некоторые встроенные дисплеи все еще имеют это ограничение.

Развитие кодировок кандзи стало началом раскола. Shift JIS поддерживает кандзи и полностью обратно совместим с JIS X 0201, и, следовательно, находится во многих встроенных электронных устройствах. Однако у Shift JIS есть досадное свойство: он часто ломает любой анализатор (программное обеспечение, считывающее закодированный текст), который специально не предназначен для его обработки.

Например, некоторые символы Shift-JIS включают обратная косая черта (005C "") во втором байте, который используется как escape-символ.

8d5c82ред82c882а2

Парсер, не поддерживающий Shift JIS, распознает 005C как недопустимую escape-последовательность и удалит ее.[3] Следовательно, фраза вызывает моджибаке.

8d 82ред82c882а2

Это может произойти, например, в C язык программирования при наличии Shift-JIS в текстовых строках. Этого не происходит в HTML, поскольку ASCII 0x00–0x3F (который включает ",% и" и некоторые другие используемые escape-символы и разделители строк) не отображаются как второй байт в Shift-JIS.

EUC, с другой стороны, гораздо лучше обрабатывается парсерами, которые были написаны для 7-битного ASCII (и, следовательно, EUC кодировки используются в UNIX, где большая часть кода обработки файлов исторически была написана только для английских кодировок). Но EUC не имеет обратной совместимости с JIS X 0201, первой основной японской кодировкой. Дальнейшие сложности возникают из-за того, что исходные стандарты электронной почты Интернета поддерживают только 7-битные протоколы передачи. Таким образом RFC 1468 ("ISO-2022-JP", часто называемый просто Кодировка JIS) был разработан для отправки и получения электронной почты.

Гайджи используется в субтитрах японского телевещания

В набор символов стандарты, такие как JIS, включены не все обязательные символы, поэтому гайдзи (外 字 "внешние символы") иногда используются для дополнения набора символов. Gaiji может быть в виде пакетов внешних шрифтов, в которых обычные символы были заменены новыми символами или новые символы были добавлены к неиспользуемым позициям символов. Однако гайдзи не практичны в Интернет среды, так как набор шрифтов должен быть передан вместе с текстом для использования гайджи. В результате такие символы записываются с аналогичными или более простыми символами на месте, или текст может потребоваться кодировать с использованием большего набора символов (например, Unicode), который поддерживает требуемый символ.[4]

Unicode был предназначен для решения всех проблем с кодировкой на всех языках. В UTF-8 кодировка, используемая для кодирования Unicode на веб-страницах, не имеет недостатков Shift-JIS. Юникод поддерживается международным программным обеспечением, что устраняет необходимость в гайдзи. Однако до сих пор существуют разногласия. Для японского языка иероглифы кандзи были единый с китайским; то есть символу, который считается одним и тем же в японском и китайском языках, присваивается один номер, даже если внешний вид на самом деле несколько отличается, а точный внешний вид остается на усмотрение шрифта, соответствующего языку. Этот процесс, называемый Ханьское объединение, вызвало споры.[нужна цитата] Предыдущие кодировки в Японии, Тайваньская область, Материковый Китай и Корея обрабатывают только один язык, а Unicode должен обрабатывать все. Однако обработка кандзи / китайского языка была разработана комитетом, состоящим из представителей всех четырех стран / регионов.[нужна цитата]

Ввод текста

В письменном японском языке используется несколько разных шрифтов: кандзи (Китайские иероглифы), 2 комплекта Кана (фонетические слоговые алфавиты) и латинские буквы. Хотя кана и латинские буквы можно набирать прямо на компьютере, ввод кандзи - более сложный процесс, поскольку кандзи гораздо больше, чем клавиш на большинстве клавиатур. Для ввода кандзи на современных компьютерах обычно сначала вводится чтение кандзи, затем редактор метода ввода (IME), также известный как интерфейсный процессор, показывает список подходящих кандзи, которые соответствуют фонетическому совпадению, и позволяет пользователю выбрать правильный кандзи. Более продвинутые IME работают не по словам, а по фразам, что увеличивает вероятность получения желаемых символов в качестве первого представленного варианта. Ввод значений кандзи может осуществляться через романизация (ромаджи ньюрёку, ロ ー マ 字 入 力) или прямой ввод каны (кана ньюрёку, か な 入 力). Ввод ромадзи более распространен на ПК и других полноразмерных клавиатурах (хотя прямой ввод также широко поддерживается), тогда как прямой ввод кана обычно используется на мобильных телефонах и аналогичных устройствах - каждая из 10 цифр (1–9,0) соответствует в один из 10 столбцов в Годзюон таблица каны, и несколько нажатий выберите строку.

Есть две основные системы для романизация японцев, известных как Кунрей-шики и Хепберн; на практике «клавиатура ромадзи» (также известная как Wāpuro Rmaji или "текстовый процессор ромадзи") обычно допускает вольную комбинацию обоих. Реализации IME могут даже обрабатывать ключи для букв, которые не используются в какой-либо схеме латинизации, например L, преобразовывая их в наиболее подходящий эквивалент. При вводе кана каждая клавиша на клавиатуре напрямую соответствует одной кане. В Клавиатура JIS система является национальным стандартом, но есть альтернативы, такие как клавиатура со сдвигом большого пальца, обычно используется профессиональными машинистками.

Направление текста

LibreOffice Writer поддерживает опцию нисходящего текста

На японском можно писать два направления. Йокогаки style пишет слева направо, сверху вниз, как в английском. Татегаки style сначала пишет сверху вниз, а затем перемещается справа налево.

Чтобы соревноваться с Ичитаро, Microsoft предоставила несколько обновлений для ранних японских версий Microsoft Word включая поддержку нисходящего текста, например Word 5.0 Power Up Kit и Word 98.[5][6]

QuarkXPress было самым популярным программным обеспечением DTP в Японии в 1990-х годах, даже имея длительный цикл разработки. Однако из-за отсутствия поддержки нисходящего текста его превзошли Adobe InDesign который получил сильную поддержку нисходящего текста через несколько обновлений.[7][8]

В настоящий момент,[когда?] обработка нисходящего текста не завершена. Например, HTML не поддерживает татегаки а японские пользователи должны использовать таблицы HTML для имитации. Тем не мение, CSS уровень 3 включает в себя собственность "режим письма"который может отображать татегаки когда дано значение "вертикальный-rl"(т.е. сверху вниз, справа налево). Текстовые редакторы и АКДС программное обеспечение имеет более полную поддержку для этого.

Смотрите также

Рекомендации

  1. ^ «【や じ う ま Watch】 ウ ェ ブ サ イ ト に お け る 文字 コ ー 、 UTF-8 が 90 % 超 え Shift_JIS や EUC-JP は? - INTERNET Watch». ИНТЕРНЕТ Смотреть. 2017-10-17. Получено 2019-05-11.
  2. ^ "文字 コ ー ド に つ い て". Корпорация ASH. 2002 г.. Получено 2019-05-14.
  3. ^ "Shift_JIS 文字 を 含 む ソ ー ス コ ー ド を gcc で コ ン パ イ 後 、 メ ッ ジ が 表示 さ れ る". Novell. 2006-02-10. Получено 2019-05-14.
  4. ^ 兵 ち ゃ ん (18.02.2016). "住 基 ネ ッ ト 統一 文字 コ ー ド に よ る 外 字 の 統一 に つ い て". Получено 2019-05-14.
  5. ^ «ASCII EXPRESS: イ ク ロ ソ フ ト が Access」 と 「Word 5.0 Power Up Kit」 を 発 ». ASCII. 18 (1). 1994.
  6. ^ «Microsoft Office 97 Powered by Word 98». web.archive.org. Microsoft. 2001-08-01. Архивировано из оригинал на 2001-08-01. Получено 2019-05-14.
  7. ^ エ デ ィ ッ ト -U. «DTP っ て 何 よ (4) [編 集 っ て 何 よ]». Получено 2019-05-14.
  8. ^ «ン チ Quark ユ ー ザ ー が 気 な QuarkXPress 8 の 機能 ト ッ プ 10 (3) 縦 書 き の 組) け ど ど う の よ?». Новости MyNavi. 2008-07-04. Получено 2019-05-14.

внешняя ссылка