ISO 2022 ,全称ISO/IEC 2022 ,由国际标准化组织 (ISO)及国际电工委员会 (IEC)联合制定,是一个使用7位 或8位编码表示各种语言文字的通用技术规范。特别以东亚语言:汉语文字 、日语文字 或朝鲜文字 的编码方法著称。
ISO 2022等同于欧洲标准组织(ECMA) 的ECMA-35 。中国国标 GB 2312 、日本工业规格JIS X 0202 (旧称JIS C 6228 )及韩国工业规格KS X 1004 (旧称KS C 5620 )均遵从ISO 2022。
引言
Mozilla浏览器支援ISO 2022编码
早期计算机的字符编码基本上都是6位。所以早期计算机的整形的字长一般是6的倍数,如18位、24位、36位等。1963年公布的ASCII码是第一个得到广泛采用的7位字符编码。这时的通信领域的协议采用了第8位做校验纠错用途。但是,对于计算机内存来说,校验纠错变得不是必要。因此8位字符编码逐渐出现,用来表示比ASCII码更多的字符。为此,1971年公布的ECMA-35标准,用来规定各种7位或8位字符编码应当遵从的共同规则。随后ECMA-35被采纳为ISO 2022.
英语 可用7位编码储存,而其他使用拉丁字母 、希腊字母 、西里尔字母 、希伯来字母 等的语文,由于只使用数十个字母,传统上均使用8位编码的ISO/IEC 8859 标准来表示。但由于汉语、日语及朝鲜语字数众多,无法用单一个8位字元来表达,故需要多于一个字节来代表一个字。于是,ISO 2022就设计出来让汉语、日语及朝鲜语可以使用数个7位编码的字元来示。
ISO 2022用来:
在一种字符编码下表示属于多个字符集的字符;
表示大字符集;
兼容7比特信道,即使是8比特编码字符集。
ISO 2022使用“转义符串”(Escape sequence)指出随后的字符属于哪个字符集。这些字符集在ISO登记,并遵循ISO 2022标准规定的模式。转义符串由1个“ESC”字符(0x1B),再由两至三个字串组成。此标记代表它后面的字符,属于下表字符集的文字。对于一个字符集,如果上下文可以判明是哪种字符集,也可以不通过转义序列来明确指出是哪种字符集。实际上,ISO-8859-1 就宣布不需要定义它的转义序列。
ISO 2022的主要内容
ISO 2022用于兼容当时的7比特宽的通信协议/通信设备。对于7比特宽的编码空间,0x00-0x1F保留给控制字符 ,0x20-0x7F用来表示图形字符(printing/"graphic" characters)。因此,在1个7比特的字符编码空间,图形字符总计为94个(由于空格符 占用了0x20码位、Del符 占用了0x7F码位)或者96个。对于双字节的7比特编码空间,图形字符可以有94 x 94即8836个。对于三字节的7比特编码空间,图形字符可以有94×94×94即830584个(虽然没有三字节字符集向ISO登记)。1970年代至1980年代,中文、日文、韩文的字符集汉字编码数量基本上在这个范围内。对于双字节编码的字符的每个code point,日文译作区点,中文译作码位;area在中日文均译作“区”,point在日文译作“点”,在中文译作“位”。因此,GB2312及其相关字符集国标,采用了“区位码”。
ISO 2022规定字符集的控制字符可分为两块:C0,C1; 打印(图形)字符分为四块:G0,G1,G2,G3。对于7比特编码, 字节值0x00-0x1F保留给C0控制字符块;字节值0x20-0x7F用于G0, G1, G2, G3字符块。对于单字节编码的字符集,1个打印(图形)字符块可包含94个或96个字符;对于双字节编码的字符集,1个打印(图形)字符块可包含94 x 94个字符。使用控制符的转义序列来表示在G0,G1,G2,G3之间的切换。
对于遵从ISO 2022的8比特编码字符集,也是按照上述7比特编码原则设计的编码方案。这种8比特编码字符集很容易兼容当时的7比特宽的通信协议/通信设备。8比特字符编码时,0x00-0x1F表示C0或称CL区(L是left缩写,因为其在字符表的左侧),0x80-0x9F表示C1或称CR(R是Right缩写,因为其在字符表的右侧)。0x20-0x7F表示G0(称GL区),0xA0-0xFF(称GR区)可表示G1, G2, G3。
ISO-8859-X字符集是特定的把ISO-2022的若干成分组合起来的字符集。这些成分包括:
低端控制字符(C0)
US-ASCII字符集(GL)
高端控制字符(C1)
高端字符(GR)是特定于每个ISO-8859-X变种。例如ISO-8859-1是由ISO-IR-1, ISO-IR-6, ISO-IR-77, ISO-IR-100 组成。
对于GB 2312 ,是8比特双字节编码。其汉字编码空间为94 x 94,即有94个区,每个区有94个位(用来编码字符)。实际使用了16-55区编码一级汉字,56-87区编码二级汉字。这些汉字均放在了G1字符块区。这种区位码方案是GB 2312的逻辑设计。其具体的字符编码方案(Character Encoding Scheme):字节值在0x00-0x7F,为单字节表示一个字符,构成了C0、G0区,与ASCII码 兼容。因此,GB 2312是单、双字节混合编码。
GBK编码 作为简体中文Windows操作系统的缺省的语言locale设置,GBK编码虽然完全向后兼容GB 2312,但GBK突破了ISO 2022中GR区域的字数的94²=8,836个字的限制。GBK编码的第一字节向 81–FE (126个选项,占用了C1区) 、第二字节向 40–FE (191个选项,占用了GL区、C1区) 进行扩展。随后的GB 18030 在完全兼容GBK的基础上增加了4字节的编码,如果第二字节的值在0x30-0x3F范围,则随后的两个字节一起组成1个4字节编码的字符。
CNS 11643-1992 ,至1992年作为双字节编码包含了7个字面、48,027字。其具体的字符编码方案是采用控制字符转义序列,在不同的字面之间切换。
编码结构
ISO/IEC 2022编码在字符码值与显示的字符之间给出了两层映射。转义序列 允许任何大的登记的图形字符集指代于四个工作集之一:即G0到G3,以及更短的控制序列指出被使用"invoked"的工作集以解释流中的字节。
7比特ASCII图形字符的范围(0x20–0x7F),是在字符编码表的左侧,称作"GL"码(表示"graphics left"),"高位ASCII"码的范围(0xA0–0xFF), 被称作"GR"码("graphics right")。
默认, GL码指代G0字符, GR码指代G1字符,但这可被控制码或早先的协议修改:
码
缩写.
名字
效果
0x0F
SI LS0
Shift In Locking shift zero
GL编码G0从现在开始
0x0E
SO LS1
Shift Out Locking shift one
GL 编码G1从现在开始
ESC 0x6E (n)
LS2
Locking shift two
GL 编码G2从现在开始
ESC 0x6F (o)
LS3
Locking shift three
GL 编码G3从现在开始
0x8E ESC 0x4E (N)
SS2
Single shift two
GL 编码G2仅用于下一个字符
0x8F ESC 0x4F (O)
SS3
Single shift three
GL 编码G3仅用于下一个字符
ESC 0x7E (~)
LS1R
Locking shift one right
GR 编码G1从现在开始
ESC 0x7D (})
LS2R
Locking shift two right
GR 编码G2从现在开始
ESC 0x7C (|)
LS3R
Locking shift three right
GR 编码G3从现在开始
四个工作集的每个可表示94个字符或94n 字符。此外,G1到G3可表示96或96n 个字符。当后者被用在GL区域,空格字符与delete字符(码值0x20与0x7F)不可用。
还有一些罕用的特性可切换控制字符集,这是单层查询:the 0x00–0x1F范围是C0控制字符集,0x80–0x9F范围是C1控制字符集,转义序列可以切换不同的选择。要求任何C0字符集包含ESC字符出现在码位0x1B。
在上述SS2与SS3例子中,C1控制字符集中的单个控制字符可被7比特编码用于序列ESC 0x40 (@)
到ESC 0x5F (_)
。额外的控制功能可用于范围ESC 0x60 (`)
到ESC 0x7E (~)
。
转义序列指代字符集采取这样的形式ESC I [I ...] F
, 其中有一个或多个中间的I 字节来自范围0x20–0x2F, 一个最后的F 字节来自0x40–0x7F。(范围0x30–0x3F被保留用于私用F 字节)。 I 字节辨识字符集类型与被指代的工作集,F 字节辨识字符集自身。
码值
十六进制
缩写
名字
效果
ESC ! F
1B 21 F
CZD
C0-designate
F 选择一个C0控制字符集来使用.
ESC " F
1B 22 F
C1D
C1-designate
F 选择一个C1控制字符集来使用.
ESC % F
1B 25 F
DOCS
Designate other coding system
F 选择一个8-bit编码;使用ESC % @
返回到ISO/IEC 2022.
ESC % / F
1B 25 2F F
DOCS
Designate other coding system
F 选择一个8-bit编码;没有标准方法返回。
ESC & F
1B 26 F
IRR
Identify revised registration
F 被调整到范围1-63, 指出立即跟随的登记的哪一个修改版被需要,使得老系统知道自身过时了。
ESC ( F
1B 28 F
GZD4
G0-designate 94-set
F 选择一个94个码位的字符集被用于G0.
ESC ) F
1B 29 F
G1D4
G1-designate 94-set
F 选择一个94个码位的字符集被用于G1.
ESC * F
1B 2A F
G2D4
G2-designate 94-set
F 选择一个94个码位的字符集被用于G2.
ESC + F
1B 2B F
G3D4
G3-designate 94-set
F 选择一个94个码位的字符集被用于G3.
ESC - F
1B 2D F
G1D6
G1-designate 96-set
F 选择一个96个码位的字符集被用于G1.
ESC . F
1B 2E F
G2D6
G2-designate 96-set
F 选择一个96个码位的字符集被用于G2.
ESC / F
1B 2F F
G3D6
G3-designate 96-set
F 选择一个96个码位的字符集被用于G3.
ESC $ F ESC $ ( F
1B 24 F 1B 24 28 F
GZDM4
G0-designate multibyte 94-set
F 选择一个94n 个码位的字符集被用于G0.
ESC $ ) F
1B 24 29 F
G1DM4
G1-designate multibyte 94-set
F 选择一个94n 个码位的字符集被用于G1.
ESC $ * F
1B 24 2A F
G2DM4
G2-designate multibyte 94-set
F 选择一个94n 个码位的字符集被用于G2.
ESC $ + F
1B 24 2B F
G3DM4
G3-designate multibyte 94-set
F 选择一个94n 个码位的字符集被用于G3.
ESC $ - F
1B 24 2D F
G1DM6
G1-designate multibyte 96-set
F 选择一个96n 个码位的字符集被用于G1.
ESC $ . F
1B 24 2E F
G2DM6
G2-designate multibyte 96-set
F 选择一个96n -个码位的字符集被用于G2.
ESC $ / F
1B 24 2F F
G3DM6
G3-designate multibyte 96-set
F 选择一个96n 个码位的字符集被用于G3.
F 字节的登记对于不同类型的字符集是独立的。使用ESC ( A
到ESC + A
指派的94个字符的图形字符集不相关于使用ESC - A
到ESC / A
指派的96个字符的图形字符集。二者也不相干于使用ESC $ ( A
到ESC $ + A
指派的94n 个字符的字符集,等等。
C0与C1控制字符集也是独立的。C0控制字符集用ESC ! A
指代,与用ESC " A
指代的控制字符集C1无关。
此外,I 字节可增加到F 字节前面以扩展F 字节范围。这仅用于94个字符的字符集,它的码的形式已经使用了ESC ( ! F
。
遵从ISO 2022的字符集
以ISO 2022标准来编码的字集包括:
ISO-2022-JP-1 - 于ISO-2022-JP的基础上,加上以下一组逃逸字串
ISO-2022-JP-2 - 于ISO-2022-JP-1的基础上,加上以下四组逃逸字串,提供多语言支援
ESC $ A 转为GB 2312-1980(简体中文)
ESC $ ( C 转为KS X 1001-1992(朝鲜文)
ESC . A 转为ISO 8859-1 (西欧拉丁字母)
ESC . F 转为ISO 8859-7 (希腊字母)
ISO-2022-JP-3 - 于ISO-2022-JP的基础上,加上以下两组逃逸字串
ISO-2022-JP-2004 - 于ISO-2022-JP-3的基础上,加上以下一组逃逸字串
ESC $ ( Q 转为JIS X 0213-2004第一字面
ISO-2022-CN-EXT - 于ISO-2022-CN的基础上,加上以下六组逃逸字串
ESC $ ) E 转为ISO-IR-165
ESC $ + I 转为CNS 11643-1992第三字面
ESC $ + J 转为CNS 11643-1992第四字面
ESC $ + K 转为CNS 11643-1992第五字面
ESC $ + L 转为CNS 11643-1992第六字面
ESC $ + M 转为CNS 11643-1992第七字面
参看
参考文献
外部链接
国际标准化组织 (页面存档备份 ,存于互联网档案馆 )
ECMA-35 (页面存档备份 ,存于互联网档案馆 )
中國國家標準(中華民國)CNS 7654
International Register of Coded Character Sets to be Used with Escape Sequences (页面存档备份 ,存于互联网档案馆 )
RFC 1468 , ISO-2022-JP的规格
RFC 2237 , ISO-2022-JP-1的规格
RFC 1554 , ISO-2022-JP-2的规格
RFC 1922 , ISO-2022-CN及ISO-2022-CN-EXT的规格
RFC 1557 , ISO-2022-KR的规格
History of Character Codes in North America, Europe, and East Asia
CJK.INF: a document on encoding Chinese, Japanese, and Korean (CJK) languages, including a discussion of the various variants of ISO 2022 。可透过 HTTP (页面存档备份 ,存于互联网档案馆 )浏览。