この項目では、中国語の文字コードについて説明しています。その他の用法については「ビッグ5 」をご覧ください。
Big5 (ビッグファイブ、中国語名:大五碼 あるいは五大碼 )は、繁体字 中国語 の文字コード (文字集合 )で、台湾 ・香港 ・マカオ といった繁体字圏で最も一般的に使われている。
特徴
1984年 5月1日 に台湾の資訊工業策進会(Institute for Information Industry)が制定したもので、「電腦用中文字型與字碼對照表 」として発行したものである。5大パソコン メーカーであったエイサー(宏碁) 、マイタック(神通)、佳佳、ゼロワン(零壱)、FIC(大衆)が共同で策定したことによりこの名がある。このオリジナルのBig5の文字セットは、後の拡張と対比してBig5-1984 と呼ばれることがある。
ローマ字 、アラビア数字 、蘇州号碼 、記号 類、注音符号 のほか、漢字1万3062字を収録するが、そのうち2字は重複しているため、実際の漢字の文字集合は1万3060字である[ 1] 。台湾 や香港 、マカオ などの繁体字地域で普及しているが、MS-DOS 時代の「中国語システム(中文系統)」、Windows やMac OS といったオペレーティングシステム で採用されたことにより定着したデファクトスタンダード である。2003年にCNS 11643 の附属書で追認され公的規格となった。
2バイト で約1万3000字を収容し、第一バイトは0xA1〜0xC6および0xC9〜0xF9、第二バイトは0x40〜0x7Eおよび0xA1〜0xFEの範囲をとる。大きく分けて、非漢字、常用漢字、次常用漢字の3つのブロックで構成され、漢字 は総画数 順、次いで部首順に配列されている。これはJIS X 0208 やGB 2312 の第2水準の「部首・画数順」とは逆になる。なお一部、重複している漢字や、配列の誤りがある。
符号空間がシフトJIS と似ており、第二バイトに0x5Cが含まれるため、シフトJISの抱える円記号問題 と同様の問題をも抱えている。ただし、シフトJISはJIS X 0208 文字集合の符号化方式 の一つであるのに対して、Big5は文字集合と符号化方式が一体化しており、通常これ以外の符号化方式で利用されない点が大きく異なる。
拡張
Big5に対しては、これまでさまざまな拡張が行われている。代表的なものについて以下に挙げる。
民間の独自拡張
民間の独自拡張としては、Windows 95 以前に最も普及していた中国語システムである倚天中文系統 のものが古くから知られている。「碁銹恒裏墻粧嫺 」の7字(倚天拡張字)のほか、罫線素片 やキリル文字 、丸数字 などが採用されている。また倚天の拡張には仮名 が含まれ、Big5ベースのシステムで日本語 を表現する方法として盛んに用いられた。この拡張は、時に「Big5-Eten」とも呼ばれ、独自拡張としては最も重要なものの一つといえる。
Microsoft Windows で使われている繁体字文字集合である「コードページ950」は、オリジナルのBig5に、倚天拡張字7字と罫線素片を取り入れたものである。Windows ME からは、「€ (ユーロ記号 )」が追加された。
台湾の公的拡張
Big5+
中文數位化技術推廣基金會(Chinese Foundation For Digitization Technology, CMEX, 中推会)が「BIG-5碼字集擴編計畫」により1997年7月に策定したもので、ISO/IEC 10646 :1993 (Unicode 1.1) の漢字をすべて取り入れたもの。追加部分は、一般の文書で常用される「標準字集」の4670字と、「推薦字集」の3250字からなる。この文字コードセットは、従来のBig5のコードの範囲を超えていることから、Windowsなどのパーソナルコンピュータ・オペレーティングシステムで使用することができず、ほとんど普及しなかった。Unicodeの漢字をすべて取り込んだことと、文字符号化の手法の2点において中国 のGBK によく似ている。
Big-5E
「BIG-5碼補充字集 (BIG-5 Extension Character Set)」の略称。Big5の外字エリアに収まるようにBig5+の「標準字集」から政府機関で常用される3954字を選び出したもの。
Big5-2003
中華民国国家標準 を所管する経済部 標準検験局 の委託を受けた中推会は、国内の業者・専門家を招集して Big5の対照表を作成し、CNS 11643に附属書として盛り込んだ。これにより Big5は正式に公的規格の一部分となった。
Big5-2003には、Big5-1984の全ての文字のほか、マイクロソフト・コードページ950のユーロ記号、倚天拡張の0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE の範囲の文字が追加された。Big5-2003には、CNS 11643にないという理由で、「行列輸入法」の特殊符号や0xC7F3-0xC875のキリル文字は収録されなかった。それ以外の倚天拡張の文字は全て取り込まれた。
香港の公的拡張
香港増補字符集 HKSCS
香港政府 によって当初Big5の拡張文字セット(外字 )として制定された文字集合。Big5に収録されなかった広東語 方言字 、固有名詞や科学技術に用いる漢字、仮名、漢字の部品などを補充したもの。
注
^ 漢字領域以外に度量衡記号の領域0xA259-0xA261に「兙兛兞兝兡兣嗧瓩糎 」の9文字がある。重複字は「兀」(0xC94A)と「嗀 」(0xDDFC)。
参考資料
関連項目
日本語 用の 文字コード
日本語を含む 多言語文字集合
日本語以外用の 文字集合
ソフトウェア 区分け 概念 関連トピック
カテゴリ