Расширенный код Unix - Extended Unix Code

EUC-JIS-2004
Псевдоним (а)	EUC-JISx0213
Язык (и)	Японский, Айны, английский, русский
Стандарт	JIS X 0213
Классификация	Расширенный ASCII, кодирование с переменной шириной, Кодирование CJK, EUC
Расширяется	US-ASCII
Преобразует / кодирует	JIS X 0213, JIS X 0201 (Кана)
Предшествует	EUC-JP

EUC-JP
MIME / IANA	EUC-JP
Псевдоним (а)	Unixized JIS (UJIS), csEUCPkdFmtЯпонский
Язык (и)	Японский, английский, русский
Классификация	Расширенный ISO 646, кодирование с переменной шириной, Кодирование CJK, EUC
Расширяется	US-ASCII или же ISO 646: JP
Преобразует / кодирует	JIS X 0208, JIS X 0212, JIS X 0201
Преемник	EUC-JISx0213

EUC-CN
MIME / IANA	GB2312
Псевдоним (а)	csGB2312
Язык (и)	Упрощенный китайский, английский, русский
Стандарт	ГБ 2312 (1980)
Классификация	Расширенный ASCII, кодирование с переменной шириной, Кодирование CJK, EUC
Расширяется	US-ASCII
Расширения	748, ГБК, ГБ 18030, x-mac-chinesesimp
Преобразует / кодирует	ГБ 2312
Преемник	ГБК, ГБ 18030

Расширенный код Unix (EUC) является многобайтовым кодировка символов система, используемая в основном для Японский, Корейский, и упрощенный китайский.

Структура EUC основана на ISO-2022 стандарт, который определяет способ представления наборов символов, содержащих максимум 94 символа, или 8836 (94²) символов или 830584 (94³) символов, как последовательности 7-битных кодов. Формы EUC могут быть только в наборах символов, совместимых с ISO-2022. С помощью схемы EUC можно представить до четырех наборов кодированных символов (называемых G0, G1, G2 и G3 или кодовых наборов 0, 1, 2 и 3).

G0 почти всегда ISO-646 совместимый набор кодированных символов, например US-ASCII, ISO 646: KR (KS X 1003) или же ISO 646: JP (нижняя половина JIS X 0201), который вызывается в GL (т.е. с очищенным старшим битом). Исключением из US-ASCII является то, что 0x5C (обратная косая черта в US-ASCII) часто используется для обозначения Знак иены в EUC-JP (см. ниже) и выиграл знак в EUC-KR.

Чтобы получить форму EUC для символа ISO-2022, старший бит каждого 7-битного байта оригинала ISO 2022 коды устанавливаются (добавлением 128 к каждому из этих исходных 7-битных кодов); это позволяет программному обеспечению легко различать, есть ли конкретный байт в строка символов принадлежит коду ISO-646 или коду ISO-2022 (EUC).

Наиболее часто используемые коды EUC: кодировки переменной ширины с символом, принадлежащим G0 (совместимый с ISO-646 набором кодированных символов), принимающим один байт, и символом, принадлежащим G1 (принимаемым набором кодированных символов 94x94), представленным в двух байтах. В EUC-CN форма ГБ 2312 и EUC-KR являются примерами таких двухбайтовых кодов EUC. EUC-JP включает символы, представленные до трех байтов, тогда как один символ в EUC-TW может занимать до четырех байтов.

Современные приложения чаще используют UTF-8, который поддерживает все символы кодов EUC и многое другое, и, как правило, более переносим с меньшим количеством отклонений и ошибок от поставщиков. Однако EUC по-прежнему очень популярен, особенно EUC-KR для Южной Кореи.

EUC-CN

EUC-CN^[1] это обычная закодированная форма ГБ 2312 стандарт для упрощенные китайские иероглифы. В отличие от японского JIS X 0208 и ISO-2022-JP, ГБ 2312 обычно не используется в 7-битных ISO 2022 версия кода,^[а] хотя вариантная форма называется Гц (который разграничивает ГБ 2312 текст с последовательностями ASCII) иногда использовался на USENET.

Символ ASCII представлен в своей обычной кодировке. Персонаж из ГБ 2312 представлен двумя байтами, оба из диапазона 0xA1–0xFE.

Связанные системы кодирования упрощенного китайского

Код 748

Кодировка, относящаяся к EUC-CN, - это код «748», используемый в системе набора текста WITS, разработанной компанией Beijing Founder Technology (в настоящее время устарел ее новой системой набора текста FITS). Код 748 содержит все ГБ 2312, но не ISO 2022–Соответствующий и, следовательно, не настоящий код EUC. (Он использует 8-битный ведущий байт, но различает второй байт с его наиболее значимым набором битов и один с очищенным его наиболее значимым битом, и поэтому он более похож по структуре на Big5 и другие, не соответствующие требованиям ISO 2022 DBCS Системы кодирования.) Часть кода 748, отличная от GB2312, содержит традиционные и гонконгские символы и другие глифы, используемые при наборе газет.

GBK и GB 18030

ГБК является расширением ГБ 2312. Он определяет расширенную форму кодирования EUC-CN, способную представлять больший массив CJK персонажи поступает в основном из Unicode 1.1, включая традиционный китайский символы и символы, используемые только в Японский. Однако это не настоящий код EUC, потому что байты ASCII могут отображаться как байты следа (и С1 байты (не ограничиваясь одиночными сдвигами, могут отображаться как начальные или конечные байты), поскольку требуется большее пространство для кодирования.

Варианты ГБК реализуются Кодовая страница Windows 936 (в Майкрософт Виндоус кодовая страница для упрощенного китайского) и кодовой страницей IBM 1386.

На основе Unicode ГБ 18030 кодировка символов определяет расширение GBK, способное кодировать все Unicode. Однако Unicode закодирован как ГБ 18030 это кодирование с переменной шириной который может использовать до четырех байтов на символ из-за того, что требуется еще большее пространство для кодирования. Являясь расширением GBK, он является расширенным набором EUC-CN, но сам по себе не является настоящим кодом EUC. Будучи кодировкой Unicode, ее репертуар идентичен репертуару других Форматы преобразования Unicode Такие как UTF-8.

Mac OS Китайский упрощенный

Другие варианты EUC-CN, отклоняющиеся от механизма EUC, включают Mac OS Китайский упрощенный сценарий (известный как кодовая страница 10008 или x-mac-chinesesimp).^[2] Он использует байты 0x80, 0x81, 0x82, 0xA0, 0xFD, 0xFE и 0xFF для U с умлаутом (ü), два специальных символа метрики шрифта, неразрывное пространство, то знак авторского права (©), знак товарного знака (™) и многоточие (…) соответственно.^[1] Это отличается тем, что считается однобайтовым символом по сравнению с первым байтом двухбайтового символа как из EUC (где из них 0xFD и 0xFE определены как ведущие байты), так и из GBK (где из них 0x81, 0x82, 0xFD и 0xFE определены как ведущие байты).

Это использование совпадений 0xA0, 0xFD, 0xFE и 0xFF Вариант Shift_JIS от Apple.

EUC-JP

EUC-JP это кодирование с переменной шириной используется для представления элементов трех Японские стандарты набора символов, а именно JIS X 0208, JIS X 0212, и JIS X 0201. Другие имена для этой кодировки включают Unixized JIS (или же UJIS) и AT&T JIS.^[3] 0,1% всех веб-страниц используют EUC-JP с августа 2018 года,^[4] в то время как 3,2% японских веб-сайтов используют эту кодировку (реже, чем Shift JIS, или же UTF-8 ). Это называется Кодовая страница 954 компании IBM.^[5]^[6] У Microsoft есть два номера кодовой страницы для этой кодировки (51932 и 20932).

Эта схема кодирования позволяет легко смешивать 7-битный ASCII и 8-битный японский язык без необходимости использования escape-символов, используемых ISO-2022-JP, который основан на тех же стандартах набора символов, и без байтов ASCII, появляющихся как байты следа (в отличие от Shift JIS ).

Связанная и частично совместимая кодировка, называемая EUC-JISx0213 или же EUC-JIS-2004, кодирует JIS X 0201 и JIS X 0213^[7] (аналогично Shift_JISx0213, его аналог на основе Shift_JIS).

По сравнению с EUC-CN или EUC-KR, EUC-JP не получил такого широкого распространения на ПК и системах Macintosh в Японии, которые использовали Shift JIS или его расширения (Кодовая страница Windows 932 на Майкрософт Виндоус, и MacЯпонский на классическая Mac OS ), хотя он стал широко использоваться Unix или Unix-подобный операционные системы (кроме HP-UX ). Поэтому, используют ли японские веб-сайты EUC-JP или Shift_JIS, часто зависит от того, какую ОС использует автор.

Расширения поставщика для EUC-JP обычно назначались в рамках отдельных кодовых наборов,^[8] в отличие от использования недопустимых последовательностей EUC (как в популярных расширениях EUC-CN и EUC-KR).

Символы кодируются следующим образом:

Как EUC /ISO 2022 совместимая кодировка, C0 управляющие символы, пробел и DEL представлены как в ASCII.
Графический персонаж из ASCII (кодовый набор 0) представлен как его обычное однобайтовое представление в диапазоне 0x21 - 0x7E. Хотя некоторые варианты EUC-JP кодируют нижняя половина из JIS X 0201 здесь большинство кодирует ASCII,^[9] включая стандарт кодирования W3C / WHATWG, используемый HTML5,^[10] как и EUC-JIS-2004.^[7] Хотя это означает, что 0x5C обычно отображается в Unicode как U + 005C REVERSE SOLIDUS (ASCII обратная косая черта ), U + 005C может отображаться как Знак иены некоторыми шрифтами для японского языка, например в Microsoft Windows для совместимости с нижней половиной JIS X 0201.^[11]^[12]
Символ из JIS X 0208 (кодовый набор 1) представлен двумя байтами, оба в диапазоне 0xA1 - 0xFE. Это отличается от представления ISO-2022-JP наличием старшего бита. Этот кодовый набор может также содержать расширения поставщиков в некоторых вариантах EUC-JP. В EUC-JIS-2004 первый самолет JIS X 0213 кодируется здесь, что, по сути, является расширением стандартных JIS X 0208.^[7]
Персонаж из верхняя половина из JIS X 0201 (кана половинной ширины, кодовый набор 2) представлен двумя байтами, первый из которых - 0x8E, второй - обычный JIS X 0201 представление в диапазоне 0xA1 - 0xDF. Этот набор может содержать Расширения поставщиков IBM в некоторых вариантах.
Символ из JIS X 0212 (кодовый набор 3) представлен в EUC-JP тремя байтами, первый из которых равен 0x8F, а следующие два находятся в диапазоне 0xA1–0xFE, то есть с установленным старшим битом. Помимо стандартных JIS X 0212кодовый набор 3 некоторых вариантов EUC-JP может также содержать расширения в строках 83 и 84 для представления символов из расширений IBM Shift JIS, в которых отсутствуют стандартные сопоставления JIS X 0212, которые могут быть закодированы в любом из двух макетов, один из которых определяется самим IBM и один, определенный OSF.^[8]^[13] В EUC-JIS-2004 второй самолет JIS X 0213 здесь закодировано,^[7] который не конфликтует с выделенными строками в стандартных JIS X 0212.^[14] Некоторые реализации EUC-JIS-2004, например, используемая Python, разрешите оба JIS X 0212 и JIS X 0213 самолет 2 персонажа в этом наборе.^[14]

EUC-KR

EUC-KR
Структура кода EUC-KR
MIME / IANA	EUC-KR
Псевдоним (а)	Вансунг, IBM-970
Язык (и)	Корейский, английский, русский
Стандарт	KS X 2901 (KS C 5861)
Классификация	Расширенный ISO 646, кодирование с переменной шириной, Кодирование CJK, EUC
Расширяется	US-ASCII или же ISO 646: KR
Расширения	Mac OS корейский, IBM-949, Единый код хангыль (Windows-949)
Преобразует / кодирует	KS X 1001
Преемник	Единый код хангыль (веб-стандарты)

EUC-KR это кодирование с переменной шириной для представления корейского текста с использованием двух наборов кодированных символов, KS X 1001 (ранее KS C 5601)^[15]^[16] и либо ISO 646: KR (KS X 1003, ранее KS C 5636) или же US-ASCII, в зависимости от варианта. KS X 2901 (ранее KS C 5861) определяет кодировку и RFC 1557 назвал его EUC-KR.

Символ, взятый из KS X 1001 (G1, кодовый набор 1), кодируется как два байта в GR (0xA1–0xFE) и символ из KS X 1003 или US-ASCII (G0, кодовый набор 0) занимает один байт в GL (0x21–0x7E).

При использовании с ASCII он называется Кодовая страница 970 компании IBM.^[17]^[18]^[19] Он известен как Кодовая страница 51949 от Microsoft.^[20] Обычно его называют Wansung (Корейский: 완성, романизированный: Wanseong, горит заранее составленный^[21]') в Республика Корея.

По состоянию на июль 2020 г.^{[Обновить]}, 0,1% всех веб-страниц в мире используют EUC-KR,^[4] что вводит в заблуждение, поскольку 15,6% веб-страниц Южной Кореи используют (только страна, для которой предназначена кодировка),^[22] что делает его самым популярным не-UTF-8 / Кодировка Unicode для языка / веб-домена, в то время как только 8,4% веб-страниц используют корейский язык (что делает UTF-8 менее популярным в Южной Корее, чем во всех (по-видимому) странах мира).^[23] Включая расширения, это наиболее широко используемая устаревшая кодировка символов в Корее на всех трех основных платформах (macOS, другие Unix-подобные ОС и Windows), но его использование очень медленно переходило на UTF-8 поскольку он набирает популярность, особенно в Linux и macOS.

Как и в большинстве других кодировок, UTF-8 теперь предпочтительнее для нового использования, решая проблемы с согласованностью между платформами и поставщиками.

Связанные корейские системы кодирования

Единый код хангыль

Распространенным расширением EUC-KR является Единый код хангыль (통합형 한글 코드, Тонхабхён Хангыль Кодеу,^[24] или же 통합 완성형, Тонгаб Вансонхён), которая является корейской кодовой страницей по умолчанию в Microsoft Windows (кодовая страница 949, номер 1363 от IBM). Кодовая страница IBM 949 это другое, не связанное с этим расширение EUC-KR.

Унифицированный код хангыль расширяет EUC-KR за счет использования кодов, которые не соответствуют структуре EUC, для включения дополнительных слоговых блоков, завершая охват составных слоговых блоков, доступных в Йохаб и Unicode. В W3C /WHATWG Стандарт кодирования, используемый HTML5 включает расширения Унифицированного кода хангыль в свое определение EUC-KR.^[25]

Mac OS корейский (HangulTalk)

Другие расширения, совместимые с EUC-KR, включают корейскую кодировку Mac OS, используемую классическая Mac OS.

EUC-TW

EUC-TW это кодирование с переменной шириной который поддерживает US-ASCII и 16 самолетов CNS 11643, каждая из которых имеет размер 94x94. Это редко используемая кодировка для традиционные китайские иероглифы как используется в Тайвань. Варианты Big5 гораздо более распространены, чем EUC-TW, хотя Big5 кодирует только первые две плоскости CNS 11643 Ханзи, пока UTF-8 становится все более распространенным.

Как EUC /ISO 2022 кодирование, C0 управляющие символы, Пробел ASCII и DEL кодируются как в ASCII.
Графический символ из US-ASCII (G0, кодовый набор 0) кодируется в GL как его обычное однобайтовое представление (0x21–0x7E).
Символ из плоскости 1 CNS 11643 (кодовый набор 1) кодируется как два байта в GR (0xA1–0xFE).
Символ в плоскости с 1 по 16 CNS 11643 (кодовый набор 2) кодируется четырьмя байтами:
- Первый байт всегда 0x8E (одиночный сдвиг 2).
- Второй байт (0xA1–0xB0) указывает плоскость, номер которой получается вычитанием 0xA0 из этого байта.
- Третий и четвертый байты находятся в GR (0xA1–0xFE).

Обратите внимание, что плоскость 1 CNS 11643 кодируется дважды как кодовый набор 1 и часть кодового набора 2.

Упакованная форма по сравнению с формой фиксированной длины

Кодировки, описанные выше (с использованием байтов в 0x21–0x7E для кодового набора 0, байтов в 0xA1–0xFE для кодового набора 1, 0x8E с последующими байтами в 0xA1–0xFE для кодового набора 2 и 0x8F, за которыми следуют байты в 0xA1–0xFE для кодового набора 3) находятся в переменная ширина форма, именуемая Упакованный формат EUC. Эта форма обычно обозначается как EUC.^[3]

Внутренняя обработка может использовать альтернативную форму фиксированной длины, называемую Полный двухбайтовый формат EUC. Это означает:^[3]

Кодовый набор 0 как два байта в диапазоне 0x21–0x7E (за исключением того, что первый может быть 0x00).
Кодовый набор 1 как два байта в диапазоне 0xA0–0xFF (за исключением того, что первый может быть 0x80).
Кодовый набор 2 в виде байта в диапазоне 0x20–0x7E (или 0x00), за которым следует байт в диапазоне 0xA0–0xFF.
Кодовый набор 3 в виде байта в диапазоне 0xA0–0xFF (или 0x80), за которым следует байт в диапазоне 0x21–0x7E.

Начальные байты 0x00 и 0x80 используются в случаях, когда кодовый набор использует только один байт. Существует также четырехбайтовый формат фиксированной длины.^[3] Эти формы фиксированной длины подходят для внутренней обработки и обычно не встречаются при обмене.

EUC-JP зарегистрирован IANA в обоих форматах: в упакованном формате как «EUC-JP» или «csEUCPkdFmtJapanese» и в формате фиксированной ширины как «csEUCFixWidJapanese».^[26] Только упакованный формат включен в WHATWG Стандарт кодирования, используемый HTML5.^[27]

Смотрите также

Примечания

^ Поддержка 7-битных версий кода ISO 2022 ГБ 2312 включают ISO-2022-CN (с кодами смены) и ISO-2022-JP-2 (без кодов сдвига), оба из которых также поддерживают другие наборы, отличные от ASCII.

внешняя ссылка

Таблица кодов EUC-JP (без ASCII и половинной части)
Идентификаторы кодовой страницы
GB18030-2000 - Новый китайский национальный стандарт
Новое поколение программного обеспечения допечатной подготовки в Китае - упоминает код 748
Описание кода EUC-TW (на китайском)
Страница руководства EUC-JISX0213 в модуле Perl Encode
Международный регистр наборов кодированных символов для использования с escape-последовательностью - раздел 2.4 (стр. 14f.) С наборами кодированных символов Китая, Японии, Южной Кореи, Северной Кореи и Тайваня (ISO / IEC)
Стандарты набора символов китайского, японского и корейского языков и системы кодирования

[2] Поддержка 7-битных версий кода ISO 2022 ГБ 2312 включают ISO-2022-CN (с кодами смены) и ISO-2022-JP-2 (без кодов сдвига), оба из которых также поддерживают другие наборы, отличные от ASCII.

[macsimchinese-1] а ^б «Карта (внешняя версия) из упрощенной китайской кодировки Mac OS в Unicode 3.0 и выше». Apple, Inc.

[3] "Свойство Encoding.WindowsCodePage - .NET Framework (текущая версия)". MSDN. Microsoft.

[lunde-4] а ^б ^c ^d Лунде, Кен (2008). Обработка информации CJKV: вычисления на китайском, японском, корейском и вьетнамском языках. О'Рейли. С. 242–244. ISBN 9780596800925.

[w3techs-5] а ^б «Исторические тенденции использования кодировок символов для веб-сайтов». W3Techs.

[6] «Информационный документ CCSID 954». Архивировано из оригинал on 2016-03-27.

[7] Международные компоненты для Unicode (ICU), ibm-954_P101-2007.ucm, 2002-12-03

[x0213org-8] а ^б ^c ^d «Таблицы сопоставления кодов JIS X 0213». x0213.org.

[osfibmextensions-9] а ^б "4.2 Обзор процесса преобразования правил преобразования кодового набора между eucJP-open и UCS". Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком. Открытая группа в Японии. Архивировано из оригинал на 1999-02-03. Получено 2019-08-14.

[w3cxmleuc-10] «Неопределенность при преобразовании японского EUC в Unicode (ненормативный)». XML японский профиль. W3C.

[11] «Декодер EUC-JP». Стандарт кодирования. WHATWG. «Если байт является байтом ASCII, вернуть кодовую точку, значение которой - байт».

[12] «3.1.1 Подробности проблем». Проблемы и решения для Unicode и символов, определенных пользователем / поставщиком. Открытая группа в Японии. Архивировано из оригинал на 1999-02-03. Получено 2019-08-14.

[13] Каплан, Майкл С. (17 сентября 2005 г.). "Когда обратная косая черта не является обратной?".

[14] Лунде, Кен (13 января 2009 г.). «Приложение J: Наборы японских символов» (PDF). CJKV Обработка информации (2-е изд.). ISBN 978-0-596-51447-1.

[hyeshik-15] а ^б Чанг, Хешик. "Readme для CJKCodecs". cPython. Фонд программного обеспечения Python.

[ksx-16] "KS X 1001: 1992" (PDF).

[ksc-17] "KS C 5601: 1987" (PDF). 1988-10-01.

[18] «CCSID 970». IBM Глобализация. IBM. Архивировано из оригинал на 2014-12-01.

[19] "ibm-970_P110_P110-2006_U2 (псевдоним euc-kr)". Converter Explorer - Демонстрация ICU. Международные компоненты для Unicode.

[20] Международные компоненты для Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm, 2002-12-03

[21] «Идентификаторы кодовой страницы». Центр разработки для Windows. Microsoft.

[22] Лунде, Кен (2009). «Глава 3: Стандарты набора символов». CJKV Обработка информации. п. 146. ISBN 978-0596514471.

[23] «Распределение кодировок символов среди веб-сайтов, использующих .kr». w3techs.com. Получено 2020-07-03.

[24] «Распределение кодировок символов среди веб-сайтов, использующих корейский язык». w3techs.com. Получено 2020-07-03.

[25] "한글 코드 에 대하여" (на корейском). W3C. Архивировано из оригинал на 2013-05-24. Получено 2019-01-07.

[whatwgext-26] «5. Индексы (§ индекс EUC-KR)», Стандарт кодирования, WHATWG

[ianaeuc-27] «Наборы символов». IANA.

[28] «4.2. Имена и ярлыки». Стандарт кодирования. WHATWG.

[1]

[а]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

Кодировки символов
Ранние телекоммуникации	Телеграфный код Иголка Морс Нелатинский Вабун / Кана Китайский Кириллица Корейский Бодо и Мюррей FIELDATA ASCII ISO / IEC 646 BCDIC 353 355 357 358 359 360 EBCDIC Teletex и Видеотекс /Телетекст ISO / IEC 6937 / ITU T.51 ITU T.61 ITU T.101 Телетекст мировой системы фон наборы
ISO / IEC 8859	Одобренный -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16 Заброшенный -12 Адаптации ISO-IR-182 ISO-IR-200 ISO-IR-201 Предложено, но не утверждено ISO-IR-111 ISO-IR-197 Французский / голландский / турецкий проект
Библиографическое использование	MARC-8 ANSEL CCCII / EACC ISO 5426 / 5426-2 / 5427 / 5428 / 6438 / 6861 / 6862 / 10585 / 10586 / 10754 / 11822
Национальные стандарты	ArmSCII BraSCII CNS 11643 ELOT 927 ГОСТ 10859 ГБ 2312 ГБ 12052 ГБ 18030 HKSCS ЯВЛЯЕТСЯ. 434 ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 КОИ-7 КПС 9566 KS X 1001 KS X 1002 LST 1284 LST 1564 LST 1590-1 LST 1590-2 LST 1590-3 LST 1590-4 PASCII RUSCII SI 960 ТИС-620 TSCII VISCII VSCII ЮСКИИ
ISO / IEC 2022	7-битный CN CN-EXT JP JP-EXT JP-1 JP-2 JP-3 KR ISO / IEC 4873 ISO / IEC 8859 ISO / IEC 10367 Расширенный код Unix / EUC CN KR JP TW
Кодовые страницы Mac OS ("скрипты")	Армянский арабский Баренц кириллица кельтская CentEuro КитайскийSimp / EUC-CN ChineseTrad / Big5 хорватский Кириллица Деванагари Дингбаты Фарси (персидский) Гэльский Грузинский Греческий Гуджарати Гурмукхи иврит Исландия Инуиты Японский / ShiftJIS Клавиатура Корейский / EUC-KR Латынь (Кермит) Мальтийский / Эсперанто Огам / ЯВЛЯЕТСЯ. 434 Римский румынский Саами Символ Тайский / ТИС-620 турецкий Тюркская кириллица украинец VT100
Кодовые страницы DOS	100 111 112 113 151 152 161 162 163 164 165 166 210 220 301 437 449 489 620 667 668 707 708 709 710 711 714 715 720 721 737 768 770 771 772 773 774 775 776 777 778 790 850 851 852 853 854 855 /872 856 857 858 859 860 861 862 863 864 865 866 /808 867 868 869 874 /1161 /1162 876 877 878 881 882 883 884 885 891 895 896 897 898 899 900 903 904 906 907 909 910 911 926 927 928 929 932 934 936 938 941 942 943 944 946 947 948 949 950/1370 951 966 991 1034 1039 1040 1041 1042 1043 1044 1046 1086 1088 1092 1093 1098 1108 1109 1114 1115 1116 1117 1118 1119 1125 /848 1126 1127 1131 /849 1139 1167 1168 1300 1351 1361 1362 1363 1372 1373 1374 1375 1380 1381 1385 1386 1391 1392 1393 1394 3012 3021 3843 3844 3845 3846 3847 3848 30000 30001 30002 30003 30004 30005 30006 30007 30008 30009 30010 30011 30012 30013 30014 30015 30016 30017 30018 30019 30020 30021 30022 30023 30024 30025 30026 30027 30028 30029 30030 30031 30032 30033 30034 30039 30040 58152 58210 58335 59234 59829 60258 60853 61282 62306 CS Индийский CSX Индийский CSX + Индийский CWI-2 Иранская система Каменицкий KOI8 Мазовецкое воеводство МИК
Кодовые страницы IBM AIX	367 371 806 813 819 895 896 912 913 914 915 916 919 920 921 /901 922 /902 923 952 953 954 955 956 957 958 959 960 961 963 964 965 970 971 1004 1006 1008 1009 1010 1011 1012 1013 1014 1015 1016 1017 1018 1019 1029 1036 1089 1111 1124 1129 /1163 1133 1350 1382 1383
Кодовые страницы IBM для кодировки других производителей	Apple Macintosh 1275 1280 1281 1282 1283 1284 1285 1286 Adobe 1038 1276 1277 DEC 1020 1021 1023 1090 1100 1101 1102 1103 1104 1105 1106 1107 1287 1288 HP 1050 1051 1052 1053 1054 1055 1056 1057 1058
Кодовые страницы Windows	CER-GS 874 /1162 (ТИС-620 ) 932 /943 (Shift JIS ) 936 /1386 (ГБК ) 950 /1370 (Big5 ) 949 /1363 (EUC-KR ) 1169 1174 Расширенная латиница-8 1200 (UTF-16LE ) 1201 (UTF-16BE ) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1261 1270 54936 (GB18030) Армянский Кириллица + финский Кириллица + французский Кириллица + немецкий Политонический греческий 65001 (UTF-8 )
Кодовые страницы Microsoft для кодировки других производителей	Apple Macintosh 10000 10001 10002 10003 10004 10005 10006 10007 10008 10010 10017 10021 10029 10079 10081 10082
EBCDIC кодовые страницы	37 390 391 392 393 394 395 435 829 834 835 837 839 881 882 883 884 885 886 887 888 889 890 931 933 /1364 935 /1388 937 /1371 939 /1399 1001 1003 1005 1007 1024 1027 1028 1030 1031 1032 1033 1037 1068 1071 1073 1074 1075 1076 1077 1078 1080 1082 1083 1085 1087 1091 1136 1150 1151 1152 1278 1279 1303 1364 1376 1377
DEC терминалы (VTx )	Многонациональная (MCS) Национальная замена (NRCS) французский канадец Швейцарский испанский объединенное Королевство нидерландский язык Финский Французский Норвежский и датский Шведский Норвежский и датский (альтернативный) 8-битный греческий 8-битный турецкий 7-битный иврит 8-битный иврит Специальная графика Технические (TCS)
Для конкретной платформы	Желудь Adobe Standard Adobe Latin 1 Амстрад КТК Яблоко I Яблоко II Яблоко III ATASCII Atari ST BICS Калькуляторы Casio CDC Compucolor II CP / M + ДЕКАБРЬ RADIX 50 DEC MCS /NRCS DG International ЭЛВРО-Юниор FIELDATA GEM GEOS GSM 03.38 Расширение HP Roman HP Роман-8 HP Роман-9 HP FOCAL ХП РПЛ IBM SQUOZE LICS LMBCS Маттел Водолей Минитель MSX NEC APC Следующий OricSCII PCW PETSCII Sega SC-3000 Калькуляторы Sharp Sharp MZ Sinclair QL Телетекст Калькуляторы TI TRS-80 Ventura International Символ Вентуры WISCII XCCS ZX80 ZX81 ZX Spectrum
Unicode / ISO / IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 (UTF-16LE /UTF-16BE ) / UCS-2 UTF-32 (UTF-32LE /UTF-32BE ) / UCS-4 UTF-EBCDIC ГБ 18030 BOCU-1 ЦЭСУ-8 ГКГУ
TeX система набора	Пробка IL1 IL2 IL3 L7X LGR LY1 OML OMS OMX OT1 OT2 OT3 OT4 PL0 QX T2A T2B T2C T2D Т3 Т4 Т5 TS1 TS3 U X2
Разные кодовые страницы	ABICOMP APL 293 310 (графический побег) 351 (GDDM) 907 (OEM) ISO-IR-68 ARIB STD-B24 Гц IEC-P27-1 ИНИС 7-битный 8 бит Кириллица ISO-IR-169 ISO 2033 Йохаб Модзикё SEASCII Стэнфорд / ИТС TACE16 TRON UTF-5 UTF-6 WTF-8
Контрольные и непечатные наборы символов	Азбука Морзе Коды управления C0 и C1 ISO / IEC 6429 / ANSI X3.64 / ECMA-48 / JIS X 0211 ISO 6630 DIN 31626 JIS X 0207 ITU T.101 C0 C1 Коды управления EBCDIC Управление Unicode, формат и символы-разделители Пробельные символы
похожие темы	Кодовая страница Кодовая страница Windows CCSID Кодировки символов в HTML Обнаружение кодировки Ханьское объединение Аппаратное обеспечение Моджибаке
Наборы символов