Tekencodering

Chappe-telegraaf

Tekencodering is de koppeling van tekens uit een bepaalde tekenset aan een code. Deze koppeling en de weergave daarvan worden ook wel een codetabel genoemd. De code kan bestaan uit natuurlijke getallen of morse, maar ook uit binaire getallen (of elektrische signalen) en wordt daarom veel gebruikt voor de opslag van tekens op computers en andere apparaten. Bij morse worden tekens uit het Latijns alfabet (letters) omgezet naar een serie korte en lange signalen die gebruikt kunnen worden bij een telegraaf. In computers bepaalt de tekencodering hoe de tekens (waaronder letters, cijfers, leestekens en spaties, maar ook enkele stuurcodes zoals tab, carriage return en line feed) die in platte tekst kunnen voorkomen, worden gerepresenteerd in bytes.

De precieze werking van de stuurcodes valt niet onder tekencodering. Met name geldt dit ook voor de vraag of carriage return, line feed of de combinatie daarvan wordt gebruikt als nieuweregelteken.

In de begindagen van computers en de invoering van tekensets zoals ASCII in 1963 en EBCDIC in 1964 werd begonnen met het proces van standaardiseren van tekencodering. Toen de beperkingen van deze sets al snel duidelijk bleken, werden er een aantal ad-hocmethodes uitgevonden om deze uit te breiden. Ook bleek de ondersteuning voor andere tekens en talen nodig, een voorbeeld hiervan zijn de CJK-systemen voor Chinese, Japanse en Koreaanse tekens. Hiervoor was door het grote aantal tekens een systematische aanpak nodig voor de tekencodering in tegenstelling tot de eerdere ad-hocmethodes.

Tekenset versus tekencodering

Oorspronkelijk was de betekenis van tekenset en tekencodering hetzelfde, dezelfde standaard bepaalde namelijk zowel welke tekens beschikbaar waren, als hoe deze tekens omgezet moesten worden in code-eenheden (meestal een teken per eenheid uit de code). Hierdoor gebruiken MIME en hierop gebaseerde systemen nog steeds de term tekenset voor het complete systeem voor het omzetten van tekens naar code.

Eenvoudige tekensets

Soms wordt nog steeds een eenvoudige tekenset gebruikt. Pathé Nederland gebruikt in het betalingsverkeer (naam rekeninghouder en omschrijving transactie) bijvoorbeeld de naam "Pathe". Banken garanderen niet altijd dat diakritische tekens goed verwerkt worden[1], en ook bij de diverse software die klanten gebruiken, voorkomt dit complicaties.

Ook in URL's en e-mailadressen worden diakritische tekens vaak weggelaten.

Unicode

Unicode en de standaard die hierbij hoort, ISO 10646 Universele tekenset, de modernste vorm van tekencodering, gebruiken een andere aanpak. De beschikbare tekens en de nummering, de manier waarop de tekens worden gecodeerd als code-eenheden en daarna bytes, worden hierbij gescheiden. Het idee achter deze scheiding is dat er een verzameling universele tekens wordt vastgesteld, die op verschillende manieren kan worden gecodeerd. Het systeem is hierdoor ook te complex om te worden uitgedrukt in de termen tekenset of tekencodering:

Een tekenrepertoire (character repertoire) is de volledige verzameling abstracte tekens die het systeem ondersteunt. Dit kan gesloten zijn, waardoor er dus geen nieuwe toevoegingen meer toegestaan zijn zonder een nieuwe standaard te ontwerpen, zoals bij ASCII en de meeste ISO-8859-systemen. Maar het tekenrepertoire kan ook open zijn, waarbij toevoegingen wel zijn toegestaan, zoals bij Unicode en in beperkte mate bij de codepagina's voor Windows. De tekens in een repertoire representeren de keuzes die zijn gemaakt over het omzetten van schriften in lineaire informatie-eenheden. De simpele varianten van het Latijns, Grieks en cyrillisch alfabet kunnen versimpeld tot letters, getallen, leestekens en een aantal andere tekens, omgezet in eenvoudige lineaire rijen en weergegeven in dezelfde richting waarin ze gelezen worden. Maar zelfs bij deze alfabetten wordt het omzetten al lastiger met accenttekens, deze kunnen namelijk worden gezien als enkel teken (letter met accent) of als aparte tekens. Het eerste geval maakt het werken met de tekst eenvoudiger, maar het tweede geval maakt alle combinaties van letters en accenten mogelijk. In andere schriften, zoals Arabisch of Hebreeuws, worden veel complexere tekenrepertoires gebruikt om om te kunnen gaan met eigenschappen zoals tweerichtingstekst en gliefen die worden samengevoegd op verschillende manieren in verschillende situaties.

Een gecodeerde tekenset beschrijft het omzetten van tekens naar positieve getallen die ook wel codepunten worden genoemd. Bijvoorbeeld, in een bepaald repertoire wordt het teken voor de hoofdletter "A" uit het Latijns alfabet omgezet naar het getal 65, het teken "B" naar 66, enzovoorts. Een gecodeerde tekenset bestaat uit de complete verzameling van de tekens en de bijbehorende getallen. Verschillende gecodeerde tekensets kunnen dezelfde tekenrepertoires gebruiken, maar ze omzetten naar andere getallen, zoals het geval is in ISO-8859-1 en IBM codepagina's 037 en 500. In een gecodeerde tekenset wordt ieder codepunt maar voor één teken gebruikt.

Een tekencoderingsvorm (character encoding form, CEF) beschrijft het omzetten van de codes van een gecodeerde tekenset naar een verzameling getallen met een beperkte lengte (codewaarden), die de opslag eenvoudiger maken in een binair systeem met een beperkt aantal bits (bijna ieder computersysteem). Bijvoorbeeld, een systeem dat getallen opslaat in 16-bits eenheden is alleen in staat om getallen te gebruiken tussen 0 en 65.535 in iedere eenheid. Grotere getallen zijn mogelijk wanneer er meerdere eenheden worden gebruikt, en dit is wat CEF doet, het beschrijft een manier om een enkele codepunt tussen bijvoorbeeld 0 en 1,4 miljoen om te zetten naar een serie codewaarden tussen bijvoorbeeld 0 en 65.565.

Het eenvoudigste CEF-systeem kiest eenheden die groot genoeg zijn om codes uit de gecodeerde tekenset direct te coderen (een codepunt naar een codewaarde). Dit werkt goed voor gecodeerde tekensets die passen in 8-bits codewaarden (zoals de meeste niet-CJK-coderingen), en redelijk voor groottes van 16-bits, maar bij grotere sets (zoals het moderne Unicode met 21 bits per teken) wordt het steeds minder efficiënt. Ook is het lastig bestaande systemen aan te passen om grotere codewaarden te gebruiken. Daarom werken veel moderne systemen die latere versies van Unicode gebruiken met UTF-8, dat Unicode codepunten omzet naar rijen van bytes (8-bits) met een variabele lengte, of met UTF-16, dat met rijen van 16-bits (ook wel words genoemd) met variabele lengte werkt.

Hierna stelt het tekencoderingsschema (character encoding scheme, CES) vast hoe de codes met een vaste lengte omgezet moeten worden naar rij bytes, geschikt voor opslag op een bytegebaseerd bestandssysteem of verzending over een bytegebaseerd netwerk. Bij Unicode wordt hiervoor meestal een eenvoudig tekencoderingsschema gebruikt, dat simpelweg aangeeft of de bytes van het getal in big- of little-endian-volgorde staan (zelfs dit is niet nodig bij UTF-8). Maar er zijn ook samengestelde tekencoderingsschema's die speciale combinaties van tekens (escape sequences) gebruiken om te wisselen tussen eenvoudige systemen (zoals ISO 2022). En er zijn compressieschema's die het aantal bytes per code-eenheid proberen te beperken (zoals SCSU, BOCU en Punycode).

En er kan een hoger niveau protocol zijn, dat extra informatie geeft om een bepaalde variant van een Unicode-teken te selecteren, vooral wanneer er regionale varianten zijn samengevoegd als een enkel teken in Unicode. Een voorbeeld van extra informatie is het XML attribuut xml:lang.

E-mail

Bij het per e-mail versturen van platte tekst naar een computer met een andere tekencodering kan men onderscheiden:

  • versturen van een tekstbestand als bijlage: de bytes blijven gelijk, de tekens niet allemaal (het euroteken uit de ANSI-tekenset is bijvoorbeeld niet meer leesbaar; om dit te voorkomen kan het helpen een Unicode-versie te versturen)
  • versturen van de tekst in de e-mail zelf: meer kans dat de tekens intact blijven (voor zover ze door het andere systeem ook worden ondersteund), door de omzettingen die de mailprogramma's doen

Geschiedenis van tekencoderingen

Enkele tekencoderingen

    0 1 2 3 4 5 6 7 8 9 A B C D E F
40     â ä à á ã å ç ñ [ . < ( + !
50   & é ê ë è í î ï ì ß ] $ * ) ; ^
60   - / Â Ä À Á Ã Å Ç Ñ ¦ , % _ > ?
70   ø É Ê Ë È Í Î Ï Ì ` : # @ ' = "
80   Ø a b c d e f g h i « » ð ý þ ±
90   ° j k l m n o p q r ª º æ ¸ Æ ¤
A0   µ ~ s t u v w x y z ¡ ¿ Ð Ý Þ ®
B0   ¢ £ ¥ · © § ¼ ½ ¾ ¬ | ¯ ¨ ' ×
C0   { A B C D E F G H I ­ ô ö ò ó õ
D0   } J K L M N O P Q R ¹ û ü ù ú ÿ
E0   \ ÷ S T U V W X Y Z ² Ô Ö Ò Ó Õ
F0   0 1 2 3 4 5 6 7 8 9 ³ Û Ü Ù Ú  

Referenties

Read other articles:

Medan beralih ke halaman ini. Untuk kegunaan lain, lihat Medan (disambiguasi). Untuk artikel mengenai kecamatan, lihat Medan Kota, Medan. MedanIbu kota provinsiTranskripsi bahasa daerah • Abjad Jawiميدن • Surat Batakᯔᯩᯑᯉ᯲ • Hanzi棉蘭 • Aksara Tamilமேடான்Dari kiri atas searah jarum jam: Istana Maimun, Monumen Guru Patimpus Sembiring Pelawi, Balai Kota Lama, kawasan Masjid Raya Al Mashun, dan Tugu SIB. BenderaLamba...

 

GASTPengidentifikasiAliasGAST, GAS, gastrinID eksternalOMIM: 137250 MGI: 104768 HomoloGene: 628 GeneCards: GAST Lokasi gen (Tikus)Kr.Kromosom 11 (tikus)[1]Pita11 D|11 63.46 cMAwal100,225,233 bp[1]Akhir100,227,822 bp[1]Ontologi genFungsi molekuler• GO:0001948, GO:0016582 Ikatan protein plasma• hormone activityKomponen seluler• extracellular region• extracellular spaceProses biologis• response to food• GO:0072468 signal transduction• regulation of...

 

Carlos Soler Soler bersama Valencia tahun 2020Informasi pribadiNama lengkap Carlos Soler BarragánTanggal lahir 2 Januari 1997 (umur 27)Tempat lahir Valencia, SpanyolTinggi 180 cm (5 ft 11 in)Posisi bermain GelandangInformasi klubKlub saat ini Paris Saint-GermainNomor 28Karier junior2001–2005 Bonrepòs2005–2015 ValenciaKarier senior*Tahun Tim Tampil (Gol)2015–2016 Valencia B 39 (3)2016–2022 Valencia 182 (12)2022– Paris Saint-Germain 26 (3)Tim nasional‡2016 Spa...

Artikel ini bukan mengenai Deathrock atau Death Metal Angola.Untuk kegunaan lain, lihat Death metal (disambiguasi).Death metalMorbid Angel di Tuska Open Air pada tahun 2008Sumber aliran Thrash metal[1] black metal gelombang pertama hardcore punk[2] Sumber kebudayaanPertengahan 1980-an, Amerika SerikatBentuk turunan Groove metal Subgenre Brutal death metal industrial death metal melodic death metal old school death metal slam death metal symphonic death metal death metal teknik...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Bukit Watu Amben – berita · surat kabar · buku · cendekiawan · JSTOR Bukit Watu Amben merupakan destinasi wisata perbukitan yang terletak di perbatasan Kabupaten Bantul dan Kabupaten Gunungkidul. Lokasi ...

 

本條目存在以下問題,請協助改善本條目或在討論頁針對議題發表看法。 此條目需要补充更多来源。 (2018年3月17日)请协助補充多方面可靠来源以改善这篇条目,无法查证的内容可能會因為异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:羅生門 (電影) — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。 �...

Southwest Air Lines beralih ke halaman ini. Untuk maskapai penerbangan Amerika Serikat, lihat Southwest Airlines. Untuk other uses, lihat Southwest Airlines (disambiguasi). Japan Transocean Air IATA ICAO Kode panggil NU JTA JAY OCEAN Didirikan20 Juni 1967 (as Southwest Air Lines)PenghubungBandar Udara NahaKota fokusBandar Udara IshigakiAliansiOneworld (afiliasi)Armada13Tujuan15Perusahaan indukJapan Transocean Air Co., Ltd.Kantor pusatNaha, Perfektur Okinawa, JepangTokoh utamaTakeshi Ichinosaw...

 

Questa voce sull'argomento stagioni delle società calcistiche italiane è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Voce principale: Santarcangelo Calcio. Santarcangelo CalcioStagione 2012-2013Sport calcio Squadra Santarcangelo Allenatore Filippo Masolini poi Agatino Cuttone Presidente Roberto Brolli Seconda Divisione12º nel girone A. Maggiori presenzeCampionato: Anastasi, Nardi (32) Miglior ...

 

Distrik IX Sibolga - Tapteng - NiasSibolga - Tapanuli Tengah - NiasGereja HKBP Sipeapea, Ressort Sipeapea1°45′02″N 98°47′09″E / 1.750592°N 98.785905°E / 1.750592; 98.785905GerejaHuria Kristen Batak ProtestanKantorJl. Jubileum no. 4, Angin Nauli, Sibolga Utara, Kota SibolgaWilayah pelayananKabupaten Tapanuli Tengah Kota Gunungsitoli Kota Sibolga Pulau Nias Kabupaten Humbang Hasundutan (1 gereja di Kecamatan Onan Ganjang) Kabupaten Tapanuli Utara (3 gereja di...

Patrick VolkerdingPatrick VolkerdingBiographieNaissance 20 octobre 1966 (57 ans)VirginieNationalité américaineFormation Université d'État du MinnesotaActivités Ingénieur, homme d'affaires, informaticien, développeur ou développeuse informatique, programmeurAutres informationsSite web connie.slackware.com/~volkerdiDistinction Prix O'Reilly open source (2014)Œuvres principales Slackwaremodifier - modifier le code - modifier Wikidata Patrick Volkerding (né en 1966) est le fondateu...

 

American politician Henry CasselMember of the U.S. House of Representativesfrom PennsylvaniaIn officeNovember 5, 1901 – March 3, 1909Preceded byMarriott BrosiusSucceeded byWilliam W. GriestConstituency10th district (1901–03)9th district (1903–09) Personal detailsBornHenry Burd Cassel(1855-10-19)October 19, 1855Marietta, Pennsylvania, U.S.DiedApril 28, 1926(1926-04-28) (aged 70)Marietta, Pennsylvania, U.S.Political partyRepublicanEducationColumbia Classical Inst...

 

В Википедии есть статьи о других людях с фамилией Левицкий. Иларион Левицкий Дата рождения XVIII век Дата смерти 14 июня 1731(1731-06-14) Киево-Братский Богоявленский монастырь Иларион Левицкий (? — 14 июня 1731. Киев) — церковный и просветительский деятель, философ, богосло...

1949 mid-air collision Eastern Air Lines Flight 537AccidentDateNovember 1, 1949SummaryMid-air collisionSiteAlexandria, Virginia, United States 38°50.1′N 77°02.7′W / 38.8350°N 77.0450°W / 38.8350; -77.0450Total fatalities55Total injuries1Total survivors1First aircraft An Eastern Air Lines Douglas DC-4, similar to the one involved in the crashTypeDouglas DC-4OperatorEastern Air LinesRegistrationN88727[1]Flight originLaGuardia Airport, Queens, New YorkDest...

 

SS Nazi Officer, responsible for the arrest of Anne Frank and her family Karl SilberbauerSilberbauer c. 1939–1943BornKarl Josef Silberbauer(1911-06-21)21 June 1911Vienna, Austria-HungaryDied2 September 1972(1972-09-02) (aged 61)Vienna, AustriaResting placeMauer, FriedensstrasseVienna, AustriaNationalityAustrianOccupation(s)SS-Hauptscharführer; Austrian Police OfficerKnown forApprehending and arresting Anne Frank while her family was in hidingPolitical partyNazi Party Karl J...

 

Parco Papa Giovanni Paolo IIIl parco dietro l'abside di San Lorenzo UbicazioneStato Italia LocalitàMilano IndirizzoMunicipio 1 CaratteristicheTipoparco urbano Superficie0,0407 km² Inaugurazionea partire dal 1934 GestoreComune di Milano AperturaOrari: Da ottobre a marzo: dalle ore 06:30 alle ore 22:00 Da aprile a giugno: dalle ore 06:30 alle ore 23:00 Da luglio a settembre: dalle ore 06:30 alle ore 23:30 Ingressidieci lungo il perimetro Mappa di localizzazione Sito web Modifica dati su ...

This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Čata – news · newspapers · books · scholar · JSTOR (August 2016) (Learn how and when to remove this message) Location of Levice District in the Nitra Region Čata (Hungarian: Csata) is a village and municipality in the Levice District in the Nitra Region of south-west Slovakia....

 

Down in the DeltaTheatrical release posterSutradaraMaya AngelouProduserRick RosenbergBob ChristiansenVictor McGauleyWesley SnipesDitulis olehMyron GoblePemeranAlfre WoodardAl Freeman, Jr.Esther RolleMary AliceLoretta DevineWesley SnipesPenata musikStanley ClarkeSinematograferWilliam WagesPenyuntingNancy RichardsonDistributorMiramax FilmsTanggal rilis 05 Agustus 1998 (1998-08-05) (Urbanworld Film Festival) 17 September 1998 (1998-09-17) (Toronto Film Festival) 25 Desemb...

 

2009 French filmAdieu GaryAdieu Gary posterDirected byNassim AmaoucheProduced byJean-Philippe Andraca Christian Bérard StarringJean-Pierre Bacri Dominique Reymond Yasmine Belmadi CinematographySamuel CollardeyEdited byJulien LacherayMusic byLe Trio JoubranProductioncompaniesLes Films A4 Rhône-Alpes Cinéma Studio Canal Release dates 17 May 2009 (2009-05-17) (Cannes) 22 July 2009 (2009-07-22) (France) Running time75 minutesCountryFranceLanguageFrenchBox ...

Stasiun Gōdo神戸駅Stasiun Gōdo pada Februari 2015LokasiAzuma-cho Gōdo 891, Midori-shi, Gunma-ken 376-0304JepangKoordinat36°32′15″N 139°21′23″E / 36.53750°N 139.35639°E / 36.53750; 139.35639OperatorWatarase Keikoku RailwayJalur■ Jalur Watarase KeikokuLetak26.4 km dari KiryūJumlah peron1 peron samping + 1 peron pulauInformasi lainStatusTanpa stafKode stasiunWK12Situs webSitus web resmiSejarahDibuka6 September 1912PenumpangFY2015227 Lokasi pada petaSt...

 

Pitched percussion instrument Kettledrum and Timpan redirect here. For the racehorse, see Kettledrum (horse). For the Metropolitan Museum of Art collection, see Kettle Drums (Metropolitan Museum of Art). For the stringed instrument, see Tiompan. TimpaniA timpanistPercussion instrumentOther namesKettledrums, Timps, PaukenHornbostel–Sachs classification211.11-922(Struck membranophone with membrane lapped on by a rim)Developedat least c. 6th century ADPlaying range Ranges of individual sizes&#...