Table des caractères Unicode U+0E00 à U+0E7F (3 584 à 3 711 en décimal).
Thaï (Unicode 1.1)
Caractères utilisés pour l’écriture avec l’alphasyllabaire (ou abugida) thaï : consonnes, voyelles indépendantes, voyelles antéposées ou diacritiques, signe diacritique virama pali, marques diacritiques de ton, chiffres décimaux, symbole monétaire et signes de ponctuation.
Les caractères U+0E31, U+0E34 à U+0E3A, U+0E47 à U+0E4E sont des signes diacritiques se combinant avec le caractère qu’ils suivent ; ils sont combinés ici avec la consonne thaïe ko kaï (= ka) « ก » (U+0E01) à des fins de lisibilité (et affichés sur fond bleu dans la table ci-dessous).
Noter également que les 5 voyelles (sara) diacritiques suivantes (dites antéposées et affichées sur fond jaune dans la table ci-dessous) :
- U+0E40 (เ) LETTRE THAÏE SARA É
- U+0E41 (แ) LETTRE THAÏE SARA Æ (= Ë)
- U+0E42 (โ) LETTRE THAÏE SARA O
- U+0E43 (ใ) LETTRE THAÏE SARA AÏ MAÏMOUAN (ou maï mouan)
- U+0E44 (ไ) LETTRE THAÏE SARA AÏ MAÏMALAÏ (ou maï malaï)
sont des exceptions à la règle Unicode usuelle de codage dans l’ordre logique des caractères : elles sont codées dans les textes avant la consonne de base (dont elles modifient la voyelle a implicite), bien qu’elles se prononcent après elle (ils sont aussi à gauche de cette consonne de base). Ces exceptions sont liées à la compatibilité avec des normes antérieures à Unicode (notamment la norme thaïe TIS 620-2533, citée en référence par Unicode, ainsi que d'autres anciens codages informatiques de texte thaï basés sur cette norme). On doit en tenir compte aussi dans la délimitation linguistique des grappes de graphèmes insécables. Dans la table ci-dessous, tous les diacritiques sont montrés associés avec la lettre thaïe ko kaï (= ka) « ก » (U+0E01), codée après chacune de ces voyelles.
Table des caractères
v · d · m en fr
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F |
U+0E00
|
|
ก
|
ข
|
ฃ
|
ค
|
ฅ
|
ฆ
|
ง
|
จ
|
ฉ
|
ช
|
ซ
|
ฌ
|
ญ
|
ฎ
|
ฏ
|
U+0E10
|
ฐ
|
ฑ
|
ฒ
|
ณ
|
ด
|
ต
|
ถ
|
ท
|
ธ
|
น
|
บ
|
ป
|
ผ
|
ฝ
|
พ
|
ฟ
|
U+0E20
|
ภ
|
ม
|
ย
|
ร
|
ฤ
|
ล
|
ฦ
|
ว
|
ศ
|
ษ
|
ส
|
ห
|
ฬ
|
อ
|
ฮ
|
ฯ
|
U+0E30
|
ะ
|
กั
|
า
|
ำ
|
กิ
|
กี
|
กึ
|
กื
|
กุ
|
กู
|
กฺ
|
|
฿
|
U+0E40
|
เก
|
แก
|
โก
|
ใก
|
ไก
|
ๅ
|
ๆ
|
ก็
|
ก่
|
ก้
|
ก๊
|
ก๋
|
ก์
|
กํ
|
ก๎
|
๏
|
U+0E50
|
๐
|
๑
|
๒
|
๓
|
๔
|
๕
|
๖
|
๗
|
๘
|
๙
|
๚
|
๛
|
|
U+0E60
|
|
U+0E70
|
Voir aussi
Liens externes
- (en) [PDF] Thai, tableau sur le site Unicode.
- (fr) [PDF] Thaï, tableau sur le site Unicode.
Articles connexes
Blocs de caractères Unicode contenant des signes de ponctuation
[ modifier ]
Blocs de caractères Unicode contenant des symboles monétaires
[ modifier ]
Blocs de caractères Unicode contenant des chiffres ou nombres
[ modifier ]
Caractères ajoutés dans Unicode 1.0.0 (partiellement obsolète)
[1][ modifier ]
Nouveaux blocs ajoutés (normalisés plus tard après l’unification de la norme ISO/CEI 10646-1 avec le standard Unicode 2.0) :
- Commandes C0 et latin de base
- Commandes C1 et latin étendu – 1
- Latin étendu – A
- Latin étendu – B
- Latin étendu – alphabet phonétique international
- Lettres modificatives avec chasse
- Diacritiques
- Grec et copte (codage Unicode 1.0.0 partiellement obsolète, car 13 caractères ont ensuite été supprimés ou redéfinis dans Unicode 1.1, même si 4 caractères ont été réintroduits et normalisés à l’identique dans Unicode 3.0)
- Cyrillique (codage Unicode 1.0.0 partiellement obsolète, car 4 caractères ont ensuite été supprimés dans Unicode 1.1), même si ces caractères ont été réintroduits et normalisés à l’identique dans Unicode 3.2)
- Arménien
- Hébreu
- Arabe
- Dévanâgarî
- Bengalî
- Gourmoukhî
- Goudjarati (ou gujarâtî)
- Oriyâ (ou odia)
- Tamoul
- Télougou
- Kannara (ou kannada)
- Malayâlam
- Thaï (codage Unicode 1.0.0 partiellement obsolète, car des caractères ont ensuite été standardisés différemment dans Unicode 1.1)
- Lao (ou laotien) (codage Unicode 1.0.0 partiellement obsolète, car des caractères ont ensuite été standardisés différemment dans Unicode 1.1)
- Tibétain (codage Unicode 1.0.0 obsolète, car tous ces caractères initialement définis de U-1000 à U-104F ont ensuite été supprimés dans Unicode 1.1 (remplacé en Unicode 3.0 par le bloc « Birman » ; les caractères tibétains ont ensuite été normalisés différemment dans un nouveau bloc ajouté dans Unicode 2.0)
- Géorgien – assomtavrouli et mkhédrouli
- Ponctuation générale
- Exposants et indices
- Symboles monétaires
- Signes combinatoires pour des symboles
- Symboles de type lettre
- Formes numérales
- Flèches
- Opérateurs mathématiques
- Signes techniques divers (codage Unicode 1.0.0 partiellement obsolète, car 2 caractères ont ensuite été supprimés dans Unicode 1.0.1)
- Pictogrammes de commande
- Reconnaissance optique de caractères (OCR)
- Symboles alphanumériques délimités
- Filets
- Pavés
- Formes géométriques
- Symboles divers
- Casseau
- Symboles et ponctuations unifiés CJC
- Hiragana
- Katakana
- Bopomofo
- Hangûl (ou hangeul) – jamos de compatibilité
- Kanboun
- Lettres et mois unifiés CJC délimités
- Compatibilité CJC
- Hangûl (ou hangeul) – syllabes coréennes (codage Unicode 1.0.0 partiellement obsolète, car tous ces caractères ont été initialement publiés sans noms standardisé qui ont ensuite été définis dans Unicode 1.1)
- Zone à usage privée (codage Unicode 1.0.0 partiellement obsolète, car le bloc initialement défini de U+E800 à U-FDFF a ensuite été réajusté de U+E000 à U-F7FF dans un erratum publié en annexe dans Unicode 1.0.1)
- Formes de compatibilité unifiés CJC
- Petites variantes de forme
- Formes de présentation arabes – B
- Formes de demi-chasse et de pleine chasse
- Caractères spéciaux (codage Unicode 1.0.0 partiellement obsolète, car 1 caractère a été initialement codé dans Unicode 1.0.0 avec un nom standardisé qui a ensuite été modifié dans Unicode 1.0.1)
Caractères ajoutés ou supprimés dans Unicode 1.1 (partiellement obsolète)
[2][ modifier ]
Nouveaux blocs ajoutés (normalisés plus tard après l’unification de la norme ISO/CEI 10646-1 avec le standard Unicode 2.0) :
Caractères ajoutés dans des blocs existants :
Caractères supprimés dans des blocs existants :
- Cyrillique (4 caractères supprimés, même si 4 caractères ont été réintroduits et normalisés à l’identique dans Unicode 3.2)
Notes et références