ISO/IEC 10646

ISO/IEC 10646 je mezinárodní norma definující univerzální kódovanou znakovou sadu (anglicky Universal Coded Character Set, UCS), která by měla zahrnovat znaky nutné k reprezentaci prakticky všech známých jazyků. UCS obsahuje znaky z různých standardů znakových sad, včetně množství grafických, typografických, matematických a vědeckých symbolů. Norma ISO/IEC 10646 je vyvíjena v součinnosti s Unicode – přestože oba standardy nemají zcela totožné zaměření, definují stejnou univerzální znakovou sadu se stejnými kódy znaků.

Kódový rozsah

ISO/IEC 10646 používá 31bitové kódy znaků, od roku 1993 se však předpokládá, že všechny znaky budou spadat do kódového rozsahu UCS, tj. intervalu 0x000000 až 0x10FFFF, který poskytuje prostor pro více než milion znaků. Většina používaných znaků, včetně ostatních kódovacích standardů, je umístěna na prvních 65536 pozicích (0x0000 - 0xFFFF), které se nazývají Basic Multilingual Plane (BMP). Znaky později přidané mimo BMP jsou obvykle pro specifické aplikace, jako např. grafické symboly (včetně smajlíků), historická písma a vědecké symboly. Současná představa je, že se nebudou používat kódy mimo 21bitový prostor, přesněji mimo interval 0x000000 až 0x10FFFF. který poskytuje kódy pro více než milion možných znaků.

Standard ISO/IEC 10646-1 byl poprvé publikován v roce 1993 a definuje architekturu UCS a obsah BMP. Druhá část ISO/IEC 10646-2 byla přidána v roce 2001 a definuje znaky mimo BMP. Nové znaky jsou přidávány průběžně, ale existující znaky nebudou nikdy měněny a jsou stabilní.

Standard také definuje základní metody, jak kódovat řetězce znaků jako posloupnosti bytů. Nejpoužívanějším kódováním je UTF-8, dále je definováno UTF-16, UTF-32, UCS-2 a UCS-4.

Historie

Mezinárodní organizace pro normalizaci (ISO) začala práci na UCS v roce 1989 a první pracovní verzi dokumentu ISO 10646 publikovala v roce 1990. Jedním z hlavních tvůrců byl Hugh McGregor Ross. Tehdejší verze se od dnešní značně lišila. Definovala kódový rozsah jako

Při lineárním vyjádření se jedná o použití 31bitového kódu. Přestože tímto způsobem by bylo možné zakódovat až 2 147 483 648 znaků, původní standard nedovoloval používat byty s hodnotami řídicích kódů 0 až 0x1F a 0x80 až 0x9F šestnáctkově v libovolné z uvedených složek (kromě skutečných řídicích znaků), což snižovalo maximální počet znaků na 679 477 248. Například velké písmeno "A" (anglicky Latin capital letter A) mělo kód skupina 0x20, rovina 0x20, řádek 0x20, buňka 0x41.

Tento původní standard ISO/IEC 10646 umožňoval kódovat znaky z UCS třemi metodami:

  1. UCS-4 používající čtyři byty pro každý znak je nejjednodušší, ale nejméně úsporné kódování všech znaků;
  2. UCS-2 používající dva byty pro každý znak, což umožňuje přímo kódovat znaky z první roviny (původně s číslem 0x20) Basic Multilingual Plane obsahující prvních 36864 kódových bodů; na jiné roviny a skupiny lze přepínat pomocí řídicích posloupností podle ISO/IEC 2022;
  3. UTF-1 kódující všechny znaky pomocí posloupností bytů proměnné délky (1 až 5 bytů, z nichž žádný neobsahuje řídicí kódy).

V roce 1990 existovaly dvě skupiny zabývající se vývojem univerzální znakové sady: Unicode používající 16 bitů pro každý znak (s 65536 možnými znaky) a ISO/IEC 10646. Softwarové firmy odmítly přijmout složitost a velikostní požadavky ISO standardu a byly schopny přesvědčit několik národních organizací z ISO, aby hlasovaly proti ISO/IEC 10646. Tvůrci ISO/IEC 10646 zjistili, že v této situaci nemohou ve vývoji standardu pokračovat, a proto proběhla jednání o sjednocení ISO standardu s Unicode. Z pohledu ISO/IEC 10646 došlo ke dvěma základním změnám: bylo zrušeno omezení zakazující používat hodnoty řídicích znaků v libovolné složce kódu, takže lze používat kódové body jako 0x0000101F; byla dohodnuta synchronizace znakové sady a kódů znaků z Basic Multilingual Plane mezi ISO/IEC 10646 Unicode.

Během doby se ukázalo, že jsou nutné i změny ve standardu Unicode: ukázalo se, že 65536 znaků ne zcela postačuje a standard od verze 2.0 podporuje používání až 1 112 064 kódových bodů ze 17 rovin pomocí mechanismu UTF-16 náhradních dvojic (anglicky surrogate pairs). Z tohoto důvodu byl rozsah kódů ISO/IEC 10646 omezen na znaky, které lze vyjádřit pomocí UTF-16, tj. něco přes milion znaků místo více než 679 milionů. Kódování UCS-4 bylo převzato do standardu Unicode s omezením na rozsah podporovaný UTF-16 a se jménem UTF-32, ačkoli se kromě interních dat programů téměř nepoužívá.

Rob Pike a Ken Thompson, tvůrci operačního systému Plan 9 navrhli nové, rychlé a dobře navržené kódování s proměnnou délkou znaku, které bylo nazváno UTF-8[1], které v současnosti patří k nejpoužívanějším kódováním pro UCS.

Struktura UCS

UCS se skládá ze 17 rovin (anglicky planes):

  • Basic Multilingual Plane (BMP, rovina 00)
  • Supplementary Multilingual Plane pro písma a symboly (SMP, rovina 01)
  • Supplementary Ideographic Plane (SIP, rovina 02)
  • Tertiary Ideographic Plane (TIP, rovina 03) je rezervována pro ideografické symboly
  • Roviny 04 až 0D jsou rezervovány pro budoucí rozšíření
  • Supplementary Special-purpose Plane (SSP, rovina 0E)
  • Roviny 0F a 10 jsou rezervovány pro soukromé použití

UCS každému znaku přiřazuje nejen číselný kód, ale i oficiální jméno. Hexadecimální číslo reprezentující UCS nebo Unicode hodnotu je obvykle uvedeno znaky „U+“, jako např. U+0041 je znak velké latinské písmeno A (anglicky Latin capital letter A). UCS znaky U+0000 až U+007F jsou shodné se znaky ASCII tabulky a znaky U+0000 až U+00FF jsou shodné s kódem ISO 8859-1.

Rozdíly mezi ISO/IEC 10646 a Unicode

ISO/IEC 10646 a Unicode mají identickou znakovou sadu a kódy znaků. Unicode vydává nové verze a přidává nové znaky častěji. Rozdíl je mimo jiné v tom, že Unicode zahrnuje pravidla a standardy nad rámec ISO/IEC 10646. ISO/IEC 10646 definuje jednoduché kódování znaků, čímž rozšiřuje předchozí standardy jako ISO/IEC 8859. Unicode navíc stanovuje pravidla pro abecední řazení, normalizační formy a obousměrný algoritmus pro písma psaná zprava doleva jako je arabština a hebrejština. Pro dosažení interoperability mezi platformami nestačí podporovat ISO/IEC 10646, ale je nutné (zvláště při použití psaní oběma směry) implementovat Unicode.

Pro podporu těchto pravidel a algoritmů Unicode přidává mnoho vlastností ke každému znaku v sadě, jako například vlastnosti určující implicitní směr psaní znaku a vlastnosti pro určení, jak se znak kombinuje s jinými znaky. Pokud znak reprezentuje numerickou hodnotu jako například arabská číslice „8“ nebo zlomek „¼“, i jeho numerická hodnota je jeho vlastností. Záměrem Unicode je, aby tyto vlastnosti umožňovaly interoperabilní zpracovávání textu používajícího kombinaci několika jazyků.

Některé aplikace podporují ISO/IEC 10646, ale neobsahují podporu Unicode. Příkladem takové aplikace je program Xterm, který může správně zobrazovat všechny ISO/IEC 10646 znaky, u kterých existuje jeden znak odpovídá jednomu glyfu a používají jen jeden směr psaní textu. Může zpracovávat také některé z kombinačních znaků pomocí jednoduchého přepsání, ale nemůže zobrazovat hebrejštinu (obousměrné písmo), Dévanágarí (jeden znak má více tvarů-glyfů) nebo arabštinu (obě uvedené vlastnosti). Většina grafických aplikací používá pro výpis textu standardní funkce operačního systému, takže mohou umožňovat základní zpracování takových písem, i když některé detaily, které musí řešit aplikace samotné, dosud správně nefungují.

UCS definuje tzv. kombinované znaky. Jsou to symboly které mají význam v kombinaci s jiným znakem a tvoří společně určitý symbol. Příkladem mohou být i česká diakritická znaménka. Část kombinovaných znaků má svůj samostatný kód, který vznikl historicky při kódování národních abeced. Pro účely matematických a dalších symbolů je možné vytvářet další kombinace, přidávat akcenty a diakritiku nad libovolný znak (např. šipku nad matematickou proměnnou).

Všechny informační systémy nepotřebují nutně všechny vlastnosti UCS. Jsou proto definovány následující implementační úrovně (anglicky implementation levels):

  • Level 1: Kombinované znaky a znaky „Hangul Jamo“ (moderní korejská varianta abecedy) nejsou podporovány.
  • Level 2: Jsou podporovány pevně definované kombinované znaky.
  • Level 3: Jsou podporovány všechny znaky UCS, libovolné varianty kombinovaných znaků.

Vztahy mezi verzemi ISO/IEC 10646 a Unicode

  • ISO/IEC 10646-1:1993 = Unicode 1.1
  • ISO/IEC 10646-1:1993 plus Amendments 5 to 7 = Unicode 2.0
  • ISO/IEC 10646-1:1993 plus Amendments 5 to 7 = Unicode 2.1 kromě znaku Eura a Object Replacement Character, které jsou obsaženy v Amendment 18
  • ISO/IEC 10646-1:2000 = Unicode 3.0
  • ISO/IEC 10646-1:2000 and ISO/IEC 10646-2:2001 = Unicode 3.1
  • ISO/IEC 10646-1:2000 plus Amendment 1 and ISO/IEC 10646-2:2001 = Unicode 3.2
  • ISO/IEC 10646:2003 = Unicode 4.0
  • ISO/IEC 10646:2003 plus Amendment 1 = Unicode 4.1
  • ISO/IEC 10646:2003 plus Amendments 1 to 2 = Unicode 5.0 kromě Dévanágarí znaků GGA, JJA, DDDA and BBA, které jsou obsaženy v Amendment 3
  • ISO/IEC 10646:2003 plus Amendments 1 to 4 = Unicode 5.1
  • ISO/IEC 10646:2003 plus Amendments 1 to 6 = Unicode 5.2
  • ISO/IEC 10646:2003 plus Amendments 1 to 8 = ISO/IEC 10646:2011 = Unicode 6.0 kromě znaku indické rupie
  • ISO/IEC 10646:2012 = Unicode 6.1
  • ISO/IEC 10646:2012 = Unicode 6.2 kromě znaku turecké liry, který je obsažen in Amendment 1
  • ISO/IEC 10646:2012 = Unicode 6.3 kromě znaku turecké liry, který je obsažen v Amendment 1, a pěti řídicích znaků pro texty psané oběma směry (Arabic Letter Mark, Left-To-Right Isolate, Right-To-Left Isolate, First Strong Isolate, Pop Directional Isolate), které jsou obsaženy v Amendment 2
  • ISO/IEC 10646:2012 plus Amendments 1 and 2 = Unicode 7.0 kromě symbolu Rublu
  • ISO/IEC 10646:2014 plus Amendment 1 = Unicode 8.0[2]
  • ISO/IEC 10646:2014 plus Amendments 1 and 2 = Unicode 9.0 přidává 7500 nových znaků, čímž počet definovaných znaků dosáhl čísla 128172. Bylo přidáno 72 nových symbolů emoji, písma Adlam, Bhaiksuki, Marchen, Newa, Osage a Tangut, 19 symbolů pro 4K televize, a 74 symbolů emoji[3]

Odkazy

Poznámky


Reference

V tomto článku byl použit překlad textu z článku Universal Coded Character Set na anglické Wikipedii.

  1. PIKE, Rob. UTF-8 history [online]. 2003-04-03. Dostupné online. 
  2. Unicode 8.0.0 - Synchronization [online]. [cit. 2015-02-20]. Tato verze standardu Unicode je synchronizována s ISO/IEC 10646:2014, plus Amendment 1. Navíc obsahuje 51 symbolů připravených do dalšího doplňku ISO/IEC 10646:2014.. Dostupné online. 
  3. Unicode 9.0.0 - Synchronization [online]. [cit. 2017-04-04]. Tato verze standardu Unicode je synchronizována se čtvrtým vydáním ISO/IEC 10646:2014, plus Amendment 1 a 2. Navíc obsahuje 273 symbolů připravených do příštího, pátého, vydání ISO/IEC 10646:2014. Dostupné online. 

Související články

Externí odkazy

Read other articles:

Parliamentary constituency in the United Kingdom, 2005 onwards Not to be confused with Perthshire North (Scottish Parliament constituency). Perth and North PerthshireCounty constituencyfor the House of CommonsBoundary of Perth and North Perthshire in ScotlandSubdivisions of ScotlandPerth and KinrossMajor settlementsBlair Atholl, Dunkeld and Birnam, Invergowrie, Perth, PitlochryCurrent constituencyCreated2005Member of ParliamentPete Wishart (SNP)Created fromPerth (parts of),North Tayside (part...

 

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada April 2016. Fyord Neny adalah sebuah fyord sepanjang 10 mil dengan arah timur-barat dan selebar 5 mil antara Red Rock Ridge dan Roman Four Promontory di pesisir barat Daratan Graham, Antarktika. Sejarah Pesisir ini pertama dijelajahi tahun 1909 oleh Dr. Jean-Baptist...

 

JägermeisterKarakteristikJenismerek, pemerekan dan Likeur AsalJerman Komposisianise seed (en) dan jahe Diperkenalkan1935 ProdusenMast-Jägermeister SE (en) Kadar alkohol35 vol% Warnahitam Situs webhttps://www.jagermeister.com [sunting di Wikidata]lbs Jägermeister (bahasa Jerman untuk pemburu profesional) adalah sejenis liqueur dengan kandungan alkohol 35% dengan rasa herbal. Minuman ini dibuat menggunakan 56 sari tumbuh-tumbuhan. Dari 56 sari tumbuhan yang dikandungnya, 50 dik...

A Bird That Doesn't SingPoster promosi untuk A Bird That Doesn't SingGenreDramaOpera sabunDitulis olehYeo Jung-miSutradaraKim Pyung-jungPemeranOh Hyun-kyungHong Ah-reumKang Ji-subKim Yu-seokBaek Seung-heeAhn Jae-minNegara asal Korea SelatanBahasa asliKoreaJmlh. episode100ProduksiLokasi produksiKorea SelatanDurasi50 menitRumah produksiStory PlantDistributortvNRilis asliJaringantvNFormat gambar1080i (HDTV)Format audioDolby DigitalRilis4 Mei (2015-05-04) –22 Oktober 2015 (2...

 

City in Michigan, United States Grand Rapids redirects here. For other uses, see Grand Rapids (disambiguation). Not to be confused with Big Rapids, Michigan. City in Michigan, United StatesGrand RapidsCityImages from top to bottom, left to right: downtown cityscape, Meyer May House, Gerald R. Ford Presidential Museum,La Grande Vitesse, pedestrian bridge over the Grand River, Van Andel Arena, Van Andel Institute on the Medical Mile FlagSealLogoNicknames: GR, River City, Beer City, Furnitu...

 

Pascal Canfin Pascal Canfin en 2012. Fonctions Président de la commission de l'environnement, de la santé publique et de la sécurité alimentaire du Parlement européen En fonction depuis le 10 juillet 2019(4 ans, 8 mois et 25 jours) Élection 10 juillet 2019 Législature 9e Prédécesseur Giovanni La Via Député européen En fonction depuis le 2 juillet 2019(4 ans, 9 mois et 2 jours) Réélection 26 mai 2019 Circonscription France Législature 9e Groupe pol...

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. La mise en forme de cet article est à améliorer (juin 2023). La mise en forme du texte ne suit pas les recommandations de Wikipédia : il faut le « wikifier ». Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. Le fond de cet article de géographie est à vérifier (mars 2018). Améliorez-le ou discutez des points à vérifier. Si vous venez d’apposer le bandeau,...

 

Pharaoh of the Nineteenth Dynasty Seti IIStatue of Seti II at the Museo Egizio, Turin, ItalyPharaohReign1203–1197 BC[1]PredecessorMerneptahSuccessorSiptahRoyal titulary Horus name Kanakht WerpehtiK3-nḫt-wr-pḥtjStrong bull, great of strength Nebty name Nakhtkhepesh-der-pedjut-9[1]Nḫt-ḫpš-dr-pḏwt-9He who strikes victoriously the 9 bows (the enemies of Egypt) Golden Horus Aaneruemtawnebuˁ3-nrw-m-t3w-nbwHe whose victories are great in all the lands Prenomen  ...

 

Marie-Antoine CarêmeLahir8 Juni 1784Paris, PrancisMeninggal12 Januari 1833 (48 tahun)Paris, PrancisNama lainAntonin CarêmePekerjaanJuru masak (Chef)Penulis[1] Marie-Antoine Carême (8 Juni 1784 – 12 Januari 1833) adalah seorang juru masak Prancis yang dikenal sebagai Raja para Juru Masak dan Juru Masak para Raja.[2] Ia memperkenalkan gaya memasak yang dikenal sebagai grande cuisine.[3] Carême bekerja untuk raja, kepala negara dan orang-orang ka...

1571 naval battle of the Ottoman–Habsburg wars This article is about the 1571 battle. For other uses, see Battle of Lepanto (disambiguation). Battle of LepantoPart of the Ottoman–Habsburg wars and Fourth Ottoman–Venetian WarThe Battle of Lepanto, Laureys a CastroDate7 October 1571LocationGulf of Patras, Ionian Sea38°15′N 21°15′E / 38.250°N 21.250°E / 38.250; 21.250Result Holy League victoryBelligerents Holy League:  Republic of Venice  Spanis...

 

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Desember 2023. Horton sebagai Ariel di The Tempest, 1838 Priscilla Horton, kemudian Priscilla German Reed (2 Januari 1818 – 18 Maret 1895), adalah seorang penyanyi dan aktris Inggris, yang dikenal karena perannya sebagai Ariel di W. C. Macready produ...

 

Міністерство оборони України (Міноборони) Емблема Міністерства оборони та Прапор Міністерства оборони Будівля Міністерства оборони у КиєвіЗагальна інформаціяКраїна  УкраїнаДата створення 24 серпня 1991Попередні відомства Міністерство оборони СРСР Народний комісарі...

Bendera Tentara Merah Buruh dan Petani Tiongkok Tentara Merah Buruh dan Petani Tiongkok (Hanzi tradisional: 中國工農紅軍; Hanzi sederhana: 中国工农红军; Pinyin: Zhōngguó Gōngnóng Hóngjūn), yang juga dikenal sebagai Tentara Merah Tiongkok, atau pendeknya Tentara Merah, adalah sebuah kelompok tentara yang berada di bawah komando Partai Komunis China. Kelompok tersebut merupakan pendahulu dari Tentara Pembebasan Rakyat. Sejarah Tentara Merah Buruh dan Petani Tiongko...

 

此条目序言章节没有充分总结全文内容要点。 (2019年3月21日)请考虑扩充序言,清晰概述条目所有重點。请在条目的讨论页讨论此问题。 哈萨克斯坦總統哈薩克總統旗現任Қасым-Жомарт Кемелұлы Тоқаев卡瑟姆若马尔特·托卡耶夫自2019年3月20日在任任期7年首任努尔苏丹·纳扎尔巴耶夫设立1990年4月24日(哈薩克蘇維埃社會主義共和國總統) 哈萨克斯坦 哈萨克斯坦政府...

 

الملك العقربويحا، سلكفرعون مصرالحقبةغير معروفة, عصر ما قبل الأسراتسبقهالملك كا؟تبعهمينا؟ الألقاب الملكية قرينة (ات)غير معرفاتأبناءغير معروفين عقرب الثاني كان آخر ملك من ملوك مصر العليا الذي حكم صعيد مصر قبل توحيد مصر حوالي سنة 3200 ق.م. قد يشير الاسم إلى الإلهة سرقت التي كا�...

End of Term Web Archive (EOTArchive)A version of this USGS map was archived by project partner UNT in the 2008 End of Term collection.Mission statementThe End of Term Web Archive captures and saves U.S. Government websites at the end of presidential administrations.Commercial?NoType of projectCollaborative government web archiveEstablished2008Websiteeotarchive.org This article or section is part of a series aboutUnited Statespresidential transitions Transitions Jefferson (1801) Taylor (1848�...

 

American politician (born 1984) Mike GallagherChair of the House Committee on the Chinese Communist PartyIn officeJanuary 10, 2023 – April 24, 2024[a]Preceded byPosition establishedSucceeded byJohn MoolenaarMember of the U.S. House of Representativesfrom Wisconsin's 8th districtIn officeJanuary 3, 2017 – April 24, 2024[a]Preceded byReid RibbleSucceeded byVacant Personal detailsBornMichael John Gallagher (1984-03-03) March 3, 1984 (age 40)...

 

2014 film by Richard Glatzer and Wash Westmoreland This article is about the 2014 film. For the 2007 novel, see Still Alice (novel). Still AliceTheatrical release posterDirected by Richard Glatzer Wash Westmoreland Screenplay by Richard Glatzer Wash Westmoreland Based onStill Aliceby Lisa GenovaProduced by Lex Lutzus James Brown Pamela Koffler Starring Julianne Moore Alec Baldwin Kristen Stewart Kate Bosworth Hunter Parrish CinematographyDenis LenoirEdited byNicolas ChaudeurgeMusic byIlan Esh...

Cinta SelamanyaPoster filmSutradaraFajar NugrosProduserSusanti DewiDitulis olehPiu SyarifBerdasarkanFira & Hafezoleh Fira BasukiPemeranAtiqah HasiholanRio DewantoShalom RazadeWidi MuliaAgus KuncoroDwi SasonoLukman SardiNungki KusumastutiTio PakusadewoDewi IrawanAmanda SoekasahJanna JoesoefWulan GuritnoPenata musikTya Subiakto SatrioSinematograferYadi SugandiPenyuntingAline JusriaDistributorKaninga PicturesDemi Istri ProductionTanggal rilis30 April 2015Negara IndonesiaBahasaIndo...

 

2023 South Korean TV series RevenantPromotional posterHangul악귀Hanja惡鬼Literal meaningEvil SpiritRevised RomanizationAkgwiMcCune–ReischauerAkkwi Genre Mystery[1] Thriller[1] Horror[2] Developed byLee Ok-gyu (planning)[3]Written byKim Eun-heeDirected by Lee Jung-rim[3] Kim Jae-hong[3] StarringKim Tae-riOh Jung-seHong KyungMusic byMovie CloserCountry of originSouth KoreaOriginal languageKoreanNo. of episodes12ProductionExecutive producerLe...