WikiDer > Кодировка китайских иероглифов - Википедия
Эта статья нужны дополнительные цитаты для проверка. (Март 2016 г.) (Узнайте, как и когда удалить этот шаблон сообщения) |
В вычислениях Кодировки китайских иероглифов может использоваться для представления текста, написанного в CJK языки -Китайский, Японский, Корейский- и (редко) устаревшие вьетнамский, все из которых используют китайские иероглифы. Несколько универсальных кодировки символов вмещают китайские иероглифы, а некоторые из них были разработаны специально для китайского языка.
В добавление к Unicode (с набором Унифицированные идеограммы CJK) существуют локальные системы кодирования. Китайский Guobiao (или GB, «национальный стандарт») используется в Материковый Китай и Сингапур, и (в основном) тайваньские Big5 система используется в Тайвань, Гонконг и Макао как две основные «унаследованные» локальные системы кодирования. Guobiao обычно отображается с помощью упрощенные символы а Big5 обычно отображается с использованием традиционные персонажи. Однако не существует обязательной связи между системой кодирования и шрифтом, используемым для отображения символов; шрифт и кодировка обычно связаны вместе по практическим соображениям.
Вопрос о том, какую кодировку использовать, также может иметь политические последствия, поскольку ГБ является официальным стандартом Китайская Народная Республика а Big5 - это де-факто стандарт Тайвань.
В отличие от ситуации с Японский, было относительно мало открытого противодействия Unicode, который решает многие проблемы, связанные с GB и Big5. Юникод широко считается политически нейтральным, имеет хорошую поддержку как упрощенных, так и традиционных символов и может быть легко преобразован в GB и Big5 и обратно. Кроме того, Unicode имеет то преимущество, что он не ограничивается только китайским языком, так как он также может отображать многие другие наборы символов.
Guobiao
Строка кодировок символов Guobiao (GB) начинается с Упрощенный китайский кодировка ГБ 2312 опубликовано в 1980 году. Для GB2312 существовало две схемы кодирования: одно- или двухбайтовое 8-битное EUC-CN обычно используется кодирование, а 7-битное кодирование называется Гц[1] для сообщений уснетов.[2]:94 Традиционный вариант под названием ГБ / т 12345 был опубликован в 1990 году.
Форма EUC-CN позже была расширена на ГБК включать все Unicode 1.1 CJK Идеографы в 1993 году, отказавшись от модели ISO-2022. Таким образом, GBK включает Традиционный китайский символы в дополнение к упрощенным в GB2312.[3] GBK завоевал популярность благодаря широкому распространению Кодовая страница 936 реализация найдена в Microsoft Windows 95.
В 2000 г. ГБ 18030 был опубликован как преемник GBK. Эта новая кодировка включает четырехбайтовый UTF, который кодирует все кодовые точки Unicode, которые ранее не кодировались.[4] В 2005 году, ГБ 18030 был опубликован, чтобы содержать справочные глифы для скриптов, используемых этнические меньшинства в Китае, а также глифы из Унифицированные идеограммы CJK Расширение B в связи с обновлением Unicode.
Adobe-GB1 - соответствующая кодировка PostScript для кодировок GB.
Big5
Семейство кодировок символов Big5 начинается с первоначального определения, разработанного консорциумом пяти компаний на Тайване.[5] Это двухбайтовый набор символов (DBCS) как-то похоже на Shift JIS, часто в сочетании с MBCS, например ASCII. Существует довольно много поставщиков, а также официальных расширений, среди которых ETEN, HKSCS (Гонконг) и Big5-2003 (в составе CNS 11643 Тайваня) являются самыми известными.[6] Adobe-CNS1 - кодировка PostScript, соответствующая семейству кодировок Big5.
Преобразование
До ГБК который включает в себя как традиционные, так и упрощенные символы, преобразование между кодировками традиционного китайского и упрощенного китайского было осложнено необходимостью транскрибировать текст между двумя вариантами китайского языка, поскольку одна кодировка охватывает многие символы другого только в своем собственном варианте. Преобразование между традиционным и упрощенным китайским обычно проблематично, потому что упрощение некоторых традиционных форм объединяет два или более разных символа в одну упрощенную форму. Преобразование традиционного в упрощенное (многие к одному) технически просто. Обратное преобразование часто приводит к потере данных при преобразовании в ГБ 2312: при сопоставлении «один ко многим» при назначении традиционных глифов упрощенным глифам некоторые символы неизбежно будут неправильным выбором в некоторых случаях использования. Таким образом, упрощенное преобразование в традиционное часто требует контекста использования или общих списков фраз для разрешения конфликтов. Эта проблема меньше проблем с новыми стандартами, такими как GBK, GB18030 и Unicode которые имеют отдельные кодовые точки как для упрощенных, так и для традиционных символов.[нужна цитата]
Еще одна проблема заключается в том, что во многих системах кодирования отсутствуют символы. Хотя отсутствующие символы часто являются литературными и обычно не используются в обычном тексте, это действительно становится проблемой, потому что имена людей часто содержат эти символы. Пример проблемы - Тайваньский политик Ван Цзянь-Сюань у кого есть цзянь (建) символ в его имени, которого нет в некоторых системах символов, и бывший Премьер Китайской Народной Республики Чжу Жунцзи, чей Róng (镕) символа нет в GB2312. Новейший стандарт GB, GB18030 имеет полный репертуар символов Unicode 4.0, включая Unihan расширения в Дополнительная идеографическая плоскость.[2]:105
Смотрите также
Рекомендации
- ^ RFC 1843
- ^ а б Лунде, Кен (декабрь 2008 г.). CJKV Обработка информации. O'Reilly Media, Inc. ISBN 978-0-596-51447-1. Получено 11 сентября 2016.
- ^ «GB18030-2000 - Новый китайский национальный стандарт - GB 18030». 2012-08-25. Архивировано 25 августа 2012 года.. Получено 2016-10-13.CS1 maint: BOT: статус исходного URL-адреса неизвестен (связь)
- ^ Официальная таблица сопоставления между GB18030-2000 и Unicode. ICU - Международные компоненты Unicode. 2001-02-21. Проверено 13 октября 2016 г.
- ^ "[китайский mac] Наборы символов". Chinesemac.org. Получено 2016-10-13.
- ^ "Варианты Big5 в Mozilla: Mozilla 系列 與 Big5 中 文字 碼". moztw.org. Получено 2016-10-13.
дальнейшее чтение
- Лунде, Кен (2009). «Стандарты набора символов китайского языка - Китай». CJKV Обработка информации (2-е изд.). О'Рейли. ISBN 9780596514471.