用字 (Unicode)

アルメニア文字

Unicodeにおける用字(ようじ)[1]またはスクリプト英語: script)とは、1つ以上の書記体系でテキスト情報を表すために使用される文字その他の表記記号の集合である[2]。用字の中には、1つの表記体系と言語でしか使用されないものもある(アルメニア語でしか使用されないアルメニア文字など)が、様々な表記体系で使用されるものもある。例えば、ラテン文字は、英語フランス語ドイツ語イタリア語ベトナム語ラテン語、その他多くの言語で使用される。いくつかの言語は、複数の代替表記体系を利用するため、いくつかの用字も使用する。トルコ語オスマン語)では、20世紀以前にはアラビア文字が使用されていたが、20世紀初頭にラテン文字に移行した。各用字を使用する言語の一覧については、文字体系別の言語の一覧を参照のこと。用字を補完するものとして、記号英語版とUnicode制御文字がある。 統合発音区別符号や統合句読文字は、"common"(共通)や"inherited"(継承)の用字属性を持つことがよくある。 しかし、個々の用字もそれ自身の句読文字や発音区別符号を持っているので、多くの用字は文字だけでなく発音区別符号やその他の記号、句読点、数字、その用字に固有の記号やスペース文字を含んでいる。

Unicode 13.0では、現代の用字91種と古代の・歴史的な用字63種の合計154種の用字が定義されている[3][4]。その他にも、文字コードの割り当て待ちや、割り当ての予定のある用字が多数ある[5]

定義と分類

複数の言語が同じ用字を使用する場合、特に発音区別符号やその他の記号など、そこにはいくつかの違いがある。例えば、スウェーデン語と英語はどちらもラテン文字を使用している。しかし、スウェーデン語には‘å’という文字(Swedish O(スウェーデン語O)と呼ばれることもある)が含まれるが、英語にはそのような文字は存在しない。英語では、上付きのリングの発音区別符号はいかなる文字に対しても使用しない。一般に、同じ用字を共有する言語は、多数の同じ文字を共有する。スウェーデン語と英語の表記体系において、前述のようなわずかな違いはあるにもかかわらず、それらは同じラテン文字を使用すると言うことができる。従って、Unicodeにおける用字の抽象化は基本的な編成手法である。異なるアルファベットや表記体系の間の差異は、マークと照合アルゴリズムを組み合わせたUnicodeの柔軟な用字を通じて、維持されサポートされている。

用字と表記体系

表記体系英語版(writing system)という用語は、用字(script)の同義語として扱われることがある。ただし、この用語は、用字が対応している特定の具体的な表記体系のことを指す用語としても使用される。例えば、ベトナム語の表記体系はラテン文字が対応している。表記体系は、複数の文字をカバーすることもある。例えば、日本語の表記体系は、漢字平仮名片仮名の用字を使用する。

ほとんどの表記体系は、表語文字(logographic)、音節文字(syllabic)、アルファベット(alphabetic)(または音素文字(segmental))、アブギダ(abugida)、アブジャド(abjad)、素性文字(featural)のカテゴリーに大別することができる。しかし、表記体系には上記に挙げた分類のうちの複数の要素を持っているため、純粋に体系を分類することが困難なことがよくある。

Unicodeは、その数多くの用字を通じて、これら全ての種類の表記体系に対応している。Unicodeでは、様々な文字とUnicode文書処理アルゴリズム内での動作の違いを区別するために、文字にさらに属性(プロパティ)を追加している。

特別な用字属性値

明示的または特定の用字属性のほか、Unicodeには以下の3つの特別な用字属性値がある[6]

Common(共通)
Unicodeは、国際符号化文字集合(UCS)内の特定の文字を1つの用字にのみ割り当てることができる。しかし、多くの文字(正式な自然言語の表記体系の一部ではない、あるいは多くの表記体系にわたって統一されているもの)は、複数の用字で使用されることがある。通貨記号、記号、数字、句読点などがそうである。このような場合に、Unicodeではそれらを用字"Common"(ISO 15924コード "Zyyy")に属するものとして定義している。
Inherited(継承)
発音区別符号や非スペース結合文字の多くは、複数の用字内の文字に適用できる。このような場合、Unicodeではそれらを用字"inherited"(ISO 15924コード"Zinh")に割り当てる。つまり、それらはそれが結合する基本文字と同じ用字クラスを持ち、異なるコンテキストでは異なる用字に属するものとして扱われる可能性がある。例えば、U+0308  ̈  combining diaeresisは、U+0065 e latin small letter eと組み合わせるとラテン文字の"ë"となり、U+0435 е cyrillic small letter ieと組み合わせるとキリル文字の"ё"となる。前者の場合は基本文字のラテン文字を継承し、後者の場合は基本文字のキリル文字を継承する。
Unknown(不明)
用字"unknown"(ISO 15924コード"Zzzz")は、未割り当て、私用、非文字、サロゲートペアのコードポイントに割り当てられる。

用字内の文字のカテゴリ

Unicodeは、各文字に「一般カテゴリ」(general category)の属性を提供する。そのため、全ての文字には、所属する用字のほかに一般カテゴリもある。通常、用字には、大文字、小文字、修飾文字などの文字が含まれる。その中には、Dz(U+01F2)のような合成済み文字のタイトルケース(合字の1文字目を大文字にした文字)がある。そのようなタイトルケースの合字は全てラテン文字やギリシャ文字であり、互換文字であるため、Unicodeではそれらの文字の使用は推奨されていない。将来、新しいタイトルケースの文字が追加されることは考えにくい。

ほとんどの表記体系では、大文字と小文字を区別しない。そのような用字では、全ての文字が"other letter"(その他の文字)または"modifier letter"(修飾文字)として分類されている。漢字などの表意文字も"other letters"として分類される。ただし、ラテン文字、キリル文字、ギリシャ文字、アルメニア文字、グルジア文字、デザレット文字など、いくつかの用字では大文字と小文字が区別されるが、このような用字でも、大文字でも小文字でもない文字が存在する。

用字には、marks(マーク、発音区別符号など)、numbers(数字)、punctuation(句読点)、separators(スペースなどの単語区切り文字)、symbols(記号)、format(非図形形式の文字)など、その他の一般カテゴリ文字も含まれる。それらがその用字に固有である場合は、その文字は特定の用字に含まれます。 そのような文字の多くは一般的に複数の用字で統一されており、句読点ブロックや発音区別符号ブロックに含まれている。ただし、(commonやinherited以外の)用字の大部分は文字である。


関連項目

脚注

  1. ^ JIS X 0221:2014 4.50に規定するscriptの日本語訳
  2. ^ Glossary”. unicode.org. 2019年5月16日閲覧。
  3. ^ Unicode Character Database: Scripts”. unicode.org. 2019年5月16日閲覧。
  4. ^ “Chapter 14: Additional Ancient and Historic Scripts”. The Unicode Standard, Version 6.2. Mountain View, CA: Unicode, Inc. (September 2012). pp. 473. ISBN 978-1-936213-07-8. https://www.unicode.org/versions/Unicode6.2.0/ch14.pdf 
  5. ^ https://www.unicode.org/roadmaps/ Roadmaps to Unicode
  6. ^ UAX #24: Unicode Script Property”. www.unicode.org. 2019年5月16日閲覧。