Szövegfájl

Szövegfájl
Fájlkiterjesztés.txt
MIME-típustext/plain
Mac OS típuskódTEXT
Uniformpublic.plain-text
Egy CSV-formázott szövegfájl stilizált, ikonként történő megjelenítése.

A szövegfájl vagy .txt (Text fájl) az informatikában legelterjedtebb, legalapvetőbb, formázást nem tartalmazó, szöveges dokumentumformátum. Sorokba rendezett szöveget tartalmaz, a sorok végét általában újsor (soremelés, illetve soremelés és kocsi vissza) vezérlőkarakterek jelzik. A szövegfájl végét gyakran fájlvégjel (End-of-file, EOF) jelöli.

A szövegfájl kifejezés konténerformátumra utal, a plain text („sima szöveges fájl”) a tartalomra utal. A szövegfájlok lehetnek sima szöveges fájlok, de ez nem szükségszerű.

Általánosan a számítógép fájljai két csoportra oszthatók: szövegfájlok és bináris fájlokra.[1] A szövegfájlok a bináris állományokkal ellentétben speciális programok nélkül is olvashatók, és szövegszerkesztőben megtekinthetők és szerkeszthetők, például a Notepaddal Windowson és vi-vel Linuxon. A fájlok felosztása azonban nem mindig egyértelmű.

A fájlban használható jeleket a kódolás határozza meg. A leggyakoribbak az ASCII és az UTF8, ami a Unicode-nak felel meg. A használt jeleket a szöveg emberi vagy formális nyelve (programozási vagy leírónyelv) is meghatározza. Ha a szövegfájl tartalmának feldolgozása nem igényel további feldolgozást, vagy egy speciális jelölésrendszer ismeretét, akkor a szöveget újra plain textnek nevezik. Ha a szövegfájl meghatározott notációt követel, mint például a HTML fájlok, szintén megtekinthetők és szerkeszthetők egyszerű szövegszerkesztőkkel, bár a legtöbb szövegszerkesztő ismer szintaktikai kiemelést vagy automatikus formázást.

A köznyelv szövegfájlnak nevez minden olyan fájlt, amelyek olvasható szöveget tárolnak. Az ismert szöveg- és kiadványszerkesztő programok a szöveg mellett még sok más információt, formázást, oldalméretet, szerkezeti tagolást, betűtípust, képeket és más metaadatokat tartalmaznak. Ezek összetett szerkezetűek, és a fenti értelemben nem szövegfájlok, hanem binárisak, és nem olvashatók speciális programok nélkül.

Adattárolás

Egyszerűségük miatt a szöveges fájlokat gyakran használják adattárolásra, vagy jegyzetek gyors készítésére. Elkerülhető velük néhány más fájlformátumokkal megjelenő probléma, mint a bájtsorrend, a kitöltő bájtok, vagy a gépi szó hossza közötti eltérések. Ráadásul a fájl sérülése esetén könnyű akár manuálisan kijavítani a hibát és folytatni a fájl feldolgozását. A szövegfájlok hátránya alacsony entrópiájuk – más megközelítésben viszont veszteségmentes tömörítéssel könnyen csökkenthető a méretük.

Az egyszerű szövegfájl értelmezéséhez nincs szükség metaadatokra, ezért az adatokat nem tartalmazó szöveges fájl akár nulla bájt hosszúságú is lehet.

Elkülönítés a bináris fájloktól

Sok operációs rendszeren a kiterjesztésre vonatkozó konvenciók határozzák meg a fájl típusát. Windows alatt a .txt kiterjesztésű fájlok szövegfájlok.

Az e-mailek formátumának szabványosításában definiált Multipurpose Internet Mail Extensions (MIME) típusok médiatípusokat adnak meg, amelyeket az e-mailforgalom mellett máshol is használnak a fájlok típusának meghatározására. A szöveges típust a text jelöli. A teljes típusmegadást egy altípus is kiegészíti, ami az alkalmazási területet jelzi. Az egyszerű szöveges fájlok, amelyek nem igényelnek további feldolgozást, a text/plain megjelölést kapják.

A szövegfájlok formázására szegényesek a lehetőségek; nem lehet például félkövérré, dőltté tenni szövegrészeket, vagy betűméretet és betűtípust választani. Egyes kódolások lehetővé teszik diakritikus jelek, ékezetes betűk bevitelét vagy az írásirány megváltoztatását.[2]

A dokumentumszerkesztők által előállított fájlok még akkor sem számítanak szövegfájlnak, ha nem tartalmaznak formázást, mert a szöveg csak előzetes feldolgozás után, a megfelelő programmal tekinthető meg. Végső soron azonban egyes típusaik mégis szövegfájlok egy magasabb szinten, mert XML fájl írja le őket. Hasonló igaz a Portable Document Format (PDF) fájlok szövegére, mivel binárisan kódolt információk kísérik. A beszkennelt szövegek képként vannak tárolva, hacsak nem használtak egy szövegfelismerő programot.

A szövegfájlok információsűrűsége alacsony, vagyis kicsi az entrópiája, azaz nagy a redundanciájuk. Ezt például Huffman-kóddal kihasználva a tömörítők nagyobb tömörítési arányt tudnak elérni, mint bináris fájlok esetén.[3]

Sorvég felismerése

A sorvég felismerésére alapvetően két lehetőség van. Az egyik, hogy a fájl sorai egyenlő hosszúak; a másik, hogy a sorvégeket külön jelek jelzik.

Állandó sorhossz

Az állandó sorhossznak az az előnye, hogy a pozíció anélkül állapítható meg, hogy ismét el kellene olvasni az előtte levő sorokat, vagy emlékezni kellene rájuk. Hátránya, hogy a rövid sorokat ki kell tölteni. A kitöltéshez többnyire szóközöket használnak. Emiatt, ha sok a rövid sor, akkor a fájl több helyet foglal el, mint nem fix sorhosszú formában. A rögzített sorhossz csak nagygépes környezetben használatos, ahol vagy a fájlrendszer rögzít egy egységes sorhosszat, vagy a fájl létrehozásakor kell megadni. Ez a sorhossz gyakran 80, ami megfelel a szöveges terminálok sorhosszának.[4]

Egyes programozási nyelvek, mint a Fortran és az Ada, leginkább az állandó sorhosszúságú fájlokra vannak felkészítve. A változó sorhosszú fájlok kezelése nehéz ezekben a nyelvekben.

Vezérlőjelek használata

A vezérlőjelek használata az írógépek korszakát idézi. Ott az új sor kezdetét két gomb, a kocsivissza (Carriage Return, CR) és a soremelés (Line Feed, LF) jelezte. Ezek voltak a legesélyesebb jelöltek a sorvége jel szerepére; azonban elég lenne csak az egyik ahhoz, hogy az új sor kezdete ismert legyen. A különböző operációs rendszerek más és más megoldást választottak, ami napjainkban is bonyodalmakat okozhat.[5]

  • A Windows és elődje a CR és az LF kombinációját használja
  • A Unix alapú rendszereken LF jelzi a sorvéget
  • Az Apple régebbi rendszerein egyedül a CR-t alkalmazták
  • Az IBM nagygépes rendszerein még egy jel, az NL is használatos volt (lásd EBCDIC karakterkódolás).[6]

Ezek a problémák leginkább a Windows és a Unix rendszerek közötti adathordozást érintik, mivel ott a szövegfájlok sorvégjeleinek cseréjén kívül semmi más konverzióra nincs szükség.

További vezérlőjelek

A sorvégek mellett más vezérlőjelek is megjelenhetnek a szövegfájlokban. A legfontosabbak a lapdobás Form Feed (FF), és a vízszintes tabulátor Horizontal Tabulation (HT), ami lehetővé teszi a szöveg bizonyos mértékű formázását. Ezek különösen akkoriban voltak fontosak, amikor a szövegfájlok tartalma közvetlenül a terminálon vagy nyomtatásban jelent meg.

A szöveg további formázását escape szekvenciák is megadhatják. Ezek egy bevezető jelből, és az utána következő karakterláncból állnak. Különböző szabványokat fogadtak el, mégpedig terminálon a Digital Equipment Corporation (DEC) szabványait (ANSI X3.41-1974 és X3.64-1977),[7] amelyek a VT-modellekkel terjedtek el, és nyomtatásban az Epson ESC/P szabványát.

Karakterkódolás

A szövegfájlok fizikailag binárisan kódolt tartalma az adott fájlra megadott szabályok szerint alakul át látható szöveggé. A leggyakoribb karakterkódok:

  • Az ASCII a legelterjedtebb kódolás, különösen, ha bővítéseit is ideszámítjuk
  • Az ISO 8859-1 és az ISO 8859-15 az ASCII szabványos bővítései. A Windows Windows-1252 néven ismeri, és széles körben használja
  • Az EBCDIC az IBM nagygépein szokásos kódolás
  • A Unicode nemzetközi szabvány, amely igyekszik minden írásjelet magába foglalni. A fenti kódolásokkal ellentétben egy karakternek nem elég 8 bit, hiszen ennél sokkal többet használnak.
Német nyelvű szöveg nem megfelelő kódolással ábrázolva

A Unicode alkalmazásakor tehát egy jel nem fér el egy bájton. Különböző módszerek léteznek, amelyek a Unicode karaktert bájtokra kódolják. A leggyakoribb jelek esetén igyekeznek minimalizálni az elfoglalt helyet, ezért a csak ASCII karaktereket tartalmazó fájl ugyanakkora lesz UTF-8-ban, mint ASCII-ben.[8] Tehát a Unicode esetén az egyes karakterek nem egyenlő méretűek.

A Unicode-ban kódolt fájl elején egy speciális bájtsorozat jelzi, hogy melyik Unicode-ban íródott. Ez a Byte Order Mark, röviden BOM. Ez azért is fontos, mert egyes rendszereken az ASCII bővítéseit és a Unicode-ot párhuzamosan használják. Az így kódolt szövegfájlok már kezdenek a bináris fájlokra hasonlítani.

Ha a fájlt egy másik karakterkódolás szerint jelenítik meg, például EBCDIC kódolású fájl ASCII-ben, akkor a fájl szövege rejtjeleződik, ami a kulcs, tehát a két kódtábla ismerete nélkül olvashatatlan. Ha ellenben mindkét kódolás az ASCII-ből származik, akkor az ékezetes vagy mellékjeles szöveg nehezen, de olvasható marad, mivel az ASCII által tartalmazott betűk úgy jelennek meg, ahogy kell, és csak a többi, például a magyar ékezetes betűk vagy a német umlautok romlanak el.

Átvitel rendszerek között

Ha egy szövegfájlt átviszünk az egyik rendszerből egy másikba, gondoskodnunk kell arról, hogy az új helyen is olvasható maradjon, továbbá figyelembe kell venni a sorvégjelzést is. A csak ASCII karaktereket tartalmazó fájlok átvitele többnyire problémamentes, mert a legtöbb helyen ismerik az ASCII valamely bővítését. Az UTF-8 kódolás szerint is megmaradnak ezek a karakterek. Ha a fájl más karaktereket is tartalmaz, akkor konverzióra van szükség. Tulajdonképpen elég a fájl megnyitásakor és elmentésekor konvertálni. Ha az új helyen csak tárolják, akkor akár káros is lenne át- és visszakódolgatni.

Az e-mailek mellékletében küldött szövegfájlok is zavaróan és nehezen olvashatóan jelenhetnek meg. Ennek az az oka, hogy a küldő e-mail-kliense nem tudja kikövetkeztetni a kódolást, és a felhasználóbarátság miatt a felhasználótól sem kérheti annak megadását, így az e-mail nem tartalmazza ezt a fontos információt. Elvben ma már a legtöbb e-mail-kliens képes lenne a kódolás megválasztására. Azonban néha még maga az e-mail szövege is rosszul dekódolódik.

A fájlok közvetlen átmásolásakor többnyire speciális programok végzik el a másolást. Ezek az átkódolást, sorvégcserét is elvégzik, például Windows és IBM-nagygépek között. Másoláskor meg kell adni, hogy a másolandó fájl bináris vagy szöveges-e, mert az ilyen konverziók károsíthatják a bináris fájlokat.[9]

Formátumok

UTF-8

Angol kontextusban a szövegfájlok tartalmazhatnak kizárólag ASCII karaktereket, de nemzetközi kontextusban a szövegfájlok általában 8 bitesek, hogy a nemzetközi karaktereket is tárolni tudják.

Ilyen esetekben a fájl elején megjelenhet egy Byte Order Mark, hogy meg lehessen különböztetni az UTF-8 kódolású fájlokat a hagyományos regionális kódolásoktól.[10]

ASCII

Az ASCII szabvány megengedi a kizárólag ASCII karaktereket tartalmazó szövegfájlok szabad átvitelét Unix, Macintosh, Microsoft Windows, DOS és más rendszerek között – ez sok fájltípusról nem volt elmondható. A rendszerek közti különbségek az újsor-konvencióra (CR vagy CR+LF) és az ASCII-n kívüli karakterek (különféle karakterkódolások) értelmezésére terjednek ki.

MIME

A szövegfájlok MIME-typusa általában "text/plain", amit a kódolási információk egészítenek ki. A Mac OS X előtt a Mac OS rendszerek akkor tekintettek egy fájlt szövegfájlnak, ha a hozzá tartozó resource fork jelezte, hogy a fájltípus "TEXT". A Microsoft Windows alatt általában a .txt kiterjesztés jelöli, hogy szöveges fájlról van szó; de specifikus célokra más kiterjesztéseket is szokás használni a szövegfájlokra. Például számítógépes programok forráskódja esetén általában a kiterjesztés a programozási nyelvre utal, amin a kód íródott.

.TXT

A .txt fájlformátum olyan szövegek számára megalkotott fájlformátum, melyek nagyon kevés formázást tartalmaznak (nincs például félkövér vagy dőlt betű). A .txt formátum nincs precízen meghatározva, de általában megegyezik a rendszer szöveges terminálja vagy egyszerű szövegszerkesztője által elfogadott formátummal. A .txt kiterjesztésű fájlokat általában bármilyen szövegkezelő program képes kezelni, és univerzálisnak (és platformfüggetlennek) tekintik azokat.

Az angol nyelvű szöveges fájlok leggyakrabban ASCII karakterkészlettel íródnak, és sok esetben ezt tekintik alapértelmezett formátumnak. Ékezetes, vagy nem latin betűs nyelvek esetében valamilyen karakterkódolást kell használni. Sok rendszerben ezt az alapértelmezett területi beállítások határozzák meg. Gyakori például az európai nyelveknél az ISO 8859-1 vagy ISO 8859-2 használata. Mivel a hagyományos karakterkódolások igen szűkösnek bizonyultak, létrehozták a Unicode-ot, ami megkísérli magába foglalni az összes nyelv karaktereit. Bár a Unicode-hoz számos kódolási forma tartozik, leggyakoribb az UTF-8, melynek előnye, hogy felülről vagy visszamenőleg kompatibilis az ASCII-val; tehát minden ASCII fájl értelmezhető UTF-8 fájlként is (és a jelentésük meg fog egyezni).

A sima ASCII és az UTF-8 közötti különbség még, hogy az UTF-8-nál jelen lehet a bájtsorrendet jelző BOM. A Microsoft a .txt fájlok kódolásánál UTF-8-at használ.

.TEXT

A .text kiterjesztés a .txt alternatívája.

Szabványos Windows .txt fájlok

Az MS-DOS és a Windows közös fájlformátumában a sorok végét a CR és az LF karakterek jelzik, amelyek ASCII kódjai 13 és 10. Az utolsó sor vége általában nem tartalmazza ezeket a jeleket, és sok szövegszerkesztő, például a Notepad nem is teszi ki őket az utolsó sor után.

A legtöbb Windows szövegfájl ANSI, OEM vagy Unicode kódolású. A Windows által ANSI-nak nevezett kódolások többnyire az egy bájtos ISO-8859 kódolások, kivéve a kínai, japán és koreai helyi beállításokat, amelyek két bájtos kódot igényelnek. Hagyományosan az ANSI kódolások alapértelmezettek voltak Windows alatt, mielőtt áttértek volna a Unicode-ra. Ezzel szemben az OEM kódolást az IBM definiálta, mint az IBM PC text mód megjelenítését. Ezeket ismerjük MS-DOS kódlapokként is. Tipikusan tartalmazzák az MS-DOS rendszer alkalmazásaiban gyakori grafikus karaktereket. Az újabb Windows szövegfájlok bájtsorrendet jelző BOM-mal használhatják az UTF-16LE vagy az UTF-8 kódolásokat.

Szabványosítás

A POSIX definíciója azokat a fájlokat tekinti szövegfájloknak, amelyek nulla vagy több sorra vannak tördelve.[11]

A POSIX szerint a nyomtatható fájlok szövegfájlok, amelyek csak nyomtatható, szóköz vagy backspace karaktereket tartalmaznak a helyi szabályok szerint. A vezérlőkarakterek nem számítanak nyomtathatónak.[12]

Felhasználás

Az eredeti és legrégebbi felhasználási mód a szövegek tárolása, azonban egy meghatározott felépítés esetén összetettebb adatokat is ábrázolhat. Ezeket a fájlokat már nem közvetlen megtekintésre, hanem más programokkal dolgozzák fel, vagy a rendszer felügyel rájuk.

Sokszor ezek a szöveges fájlok már bináris állományként, gépi feldolgozást követően jelennek meg. Itt azért használnak szöveges fájlokat, mert a bináris fájlok szerkezete még kevésbé egységes. Ezzel szemben a szöveges tárolásnak is megvannak a hátrányai: viszonylag sok helyet foglal, és a feldolgozáshoz újra és újra binárissá kell konvertálni. Mivel azonban egyre fontosabb az adatok átvitele a rendszerek között például internet közvetítésével, ezért még ma is sok helyen tárolnak így adatokat.

A privilegizált felhasználók által hozzáférhető konfigurációs állományok is gyakran szöveges formájúak. Bináris adatok esetén egy speciális konfigurációs programra lenne szükség, így viszont karakteres felületen, szövegszerkesztőkkel is szerkeszthetők. Ez elterjedt szokás a Unix és a Linux rendszereken; az XML terjedésével azonban egyre több helyen tárolnak így konfigurációs adatokat.

Táblázatos adatok

Különböző okokból tárolnak táblázatokat szöveges fájlokban. A tárolt adatok különböző táblázatkezelőkből (OpenOffice, LibreOffice, Microsoft Excel) is hozzáférhetők. Az adatbázisadatokat is gyakran exportálják így, hogy különféle más programokkal folytassák a feldolgozásukat. Erre az XML fájlok tűnnek a legalkalmasabbnak, de sokszor még a CSV formát választják.

Különböző eljárásokkal ábrázolják a táblázatos adatokat a szöveges állományokban:

  • Az oszlopok elválasztása tabulátorral. Egy soron belül egy speciális vezérlőjel különíti el az egyes adatokat.
  • CSV formátum, eredetileg Comma Separated Values. Tabulátor helyett vesszőt, pontosvesszőt, vagy más jelet is használhat.
  • Állandó szélességű oszlopok: az oszlopokat az állandó szélesség segít felismerni, amit azonban maga a fájl nem tartalmaz.

XML

Az XML egy metaadatformátum. Tehát azt definiálja, hogy hogyan nézzen ki egy fájl szerkezete.[13] Az XML egy szöveges formátum, amely ember és gép által egyaránt olvasható, és lehetővé teszi az XML állományok rendszerek közötti hordozását.[14]

Tehát az XML fájlok szövegfájlok, amelyek szerkezete szabványos, és főként adatcseréhez vagy adatok elmentéséhez használatosak; a pontos célt maga a fájl nem tartalmazza. Az XML-re alapuló fájlformátumra példa az SVG (Scalable Vector Graphics), egy képtípus, ami így szöveges formában kódolva is olvasható.

Az OpenOffice.org (OpenDocument) szövegfeldolgozásai és a Microsoft Word újabb verziói (Office Open XML, .docx kiterjesztés .doc helyett) szintén XML alapúak, tehát legalábbis elvben szövegfájlok. Itt azonban különbséget kell tenni a fájl szövege és a fájlban tárolt szöveg között, ahol is a fájl szövege nemcsak a fájlban tárolt szöveget tartalmazza, hanem a szöveg leírását is a metasíkon.[15]

További típusok

Az XML mellett még más régebbi leírónyelvek is léteznek. Ezek szintén leírják a tulajdonképpeni dokumentumot, és ugyanúgy szövegfájlban tárolják, mint az XML-ben íródott dokumentumokat.[16]

  • A HTML weblapokat ír le, és széles körben használják az interneten. Szerkezete az XML-re hasonlít.
  • A Rich Text Format (RTF) nyelv formázott dokumentumokat ír le, és szövegszerkesztők közötti adatcseréhez használatos.
  • A TeX és a LaTeX szintén formázott dokumentumokat ír le. Sokszor használják tudományos cikkek, szakdolgozatok készítésére, mert benne a képletek egyszerűen szerkeszthetők. A tulajdonképpeni dokumentum bináris fájl, ami a szövegfájl lefordításával jön létre.
  • A PostScript professzionális nyomtatási formázásokat tesz lehetővé, és szövegfájlként tárolódik. A bináris képeket hexadecimális jegyekben írja le. Mivel sok nyomtató közvetlenül értelmezi ezt a nyelvet, sok szöveg- és kiadványszerkesztő képes PostScript kimenet előállítására. Egyes helyeken azonban a PDF kiszorítja a PostScriptet.

Ezek mellett még létezik sok, köztük jogvédett formátum, amelyek felépítése csak egy megfelelő specifikációt tartalmazza.

Megtekintés és szerkesztés

Szövegszerkesztővel megnyitva ember által olvasható tartalom jelenik meg. Ez gyakran a plain text szövegének láthatóvá tételéből áll. Az alkalmazástól függően a vezérlőjelek vagy a szövegszerkesztő által elvégzett literális utasításokként vagy escape szekvenciákként jelennek meg, amelyek szövegként szerkeszthetők. Ezek az utasítások tovább renderelhetik a plain textet.

A legtöbb szövegszerkesztő lehetővé teszi bizonyos szövegrészek keresését a fájlban. Sokuk különböző formátumokat is támogat, és szintaktikus kiemelést nyújt egyes programozási és leírónyelvekhez. A legtöbb szövegszerkesztő nyomtatni is képes.

A fájlok megnyitásakor az a meglepetés érheti a felhasználót, hogy elromlottak a behúzások, és szétcsúsztak a formázások. Ennek legtöbbször az az oka, hogy beállítható, hogy mekkorát ugorjon a tabulátor. Ehhez járul, hogy többnyire nem jelzik, hogy az üres helyeket tabulátor vagy szóközök foglalják el.

Egyes szövegszerkesztők bizonyos beállítások esetén automatikusan megtörik a hosszú, az ablakból kinyúló sorokat. Nyomtatáskor ehhez hasonlóan alkalmazkodnak a papír szélességéhez. Ezeket a sortöréseket a fájl nem tartalmazza, és más médiumon máshova kerülhetnek. Gyakran nehéz megkülönböztetni ezeket a fájl szövege által tartalmazott sortörésektől.

Története

Az elektronikus adatfeldolgozás kezdetén egyszerűbb volt különbséget tenni a szöveges és a bináris fájlok között. Szövegfájl esetén egy jel mindig egy bizonyos bitminta szerint jelent meg. A fájl közvetlenül kinyomtatható, terminálon megjeleníthető, vagy táviratban elküldhető volt; mindezek nem igényeltek előzetes adatfeldolgozást.[17] A táviratok megjelenítésére szolgáló írógépek korából származnak a sorelőre és a kocsivissza vezérlőjelek.

A szöveg fizikai letárolásához a betűknek és a többi jelnek karakterkódot feleltettek meg. Régebben ehhez egy karakternek egy bájt felelt meg, vagyis 8 bit, ami 256 különböző jel kódját tudta megfeleltetni. Az ASCII eredetileg azonban mindössze 7 bitet használt egyetlen karakterhez. A karakterek legfelső bitje mindig nulla volt, ami heurisztikaként segítette megkülönböztetni a szövegfájlokat és a bináris állományokat.

A 7 és a 8 bites karakterekkel még kódlapok segítségével is csak egyféle írásmódot lehetett használni. A távol-keleti írásmódokat, mint kínai, japán vagy koreai, gyakorlatilag egyáltalán nem lehetett megjeleníteni. 1986-ban az ISO 2022 volt az első szabvány, amely lehetővé tette a többnyelvű fájlok használatát, és a 256 jelnél többet tartalmazó írások kódolását és megjelenítését is. Ez a szabvány leginkább a távol-keleten terjedt el, és az először 1991-ben kiadott Unicode hatására még innen is kezd visszaszorulni.[18][19]

A Unicode bevezetése bonyolultabbá tette a karakterkódolást, mivel egy karakternek nem mindig ugyanannyi bájt felel meg.

Mivel a fájlok rendszerek közötti átvitele az internet terjedésével egyre fontosabbá válik, és a szövegfájlok a bináris fájlokhoz képest egyszerűbben átvihetők különböző rendszereken keresztül, ezért a szövegfájlok egyre fontosabbá váltak. A szövegfájlok különféle alkalmazásai azonban elmosták a határt a szövegfájlok és a bináris állományok között.[20][21]

Jegyzetek

  1. Lewis, John. Computer Science Illuminated. Jones and Bartlett (2006). ISBN 0-7637-4149-3 
  2. RFC 4288: Media Type Specifications and Registration Procedures. Abschnitt 4.2.1
  3. Hans Werner Lang (FH Flensburg): Codierungstheorie – Huffmann-Code Archiválva 2013. január 26-i dátummal a Wayback Machine-ben
  4. G. D. Brown: zOS/JCL. Job Control Language im Betriebssystem z/OS MVS. Seite 124ff, München 2004, ISBN 3-486-27397-3
  5. Kersken: IT-Handbuch für Fachinformatiker. 824f
  6. WebSphere Message Broker: Converting EBCDIC NL to ASCII CR LF
  7. Manual für VT100-Terminal (angol nyelven)
  8. Michael Schönitzer: Encodings
  9. RFC 959: File Transfer Protocol
  10. http://msdn.microsoft.com/en-us/library/windows/desktop/dd374101%28v=vs.85%29.aspx
  11. http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_395
  12. http://pubs.opengroup.org/onlinepubs/9699919799/basedefs/V1_chap03.html#tag_03_282
  13. Sarah Coppin, Brent Hendricks: XML Basics
  14. Mario Jeckle: Extensible Markup Language (XML) Archiválva 2007. december 21-i dátummal a Wayback Machine-ben
  15. Walter Ditch: XML-based Office Document Standards. JISC, Bristol 2007 (online Archiválva 2012. december 13-i dátummal a Wayback Machine-ben; PDF; 1,5 MB)
  16. Kersken: IT-Handbuch für Fachinformatiker. 823
  17. Steve Moritsugu, Sanjiv Guha, David Pitts: Practical Unix. Seite 218, Que, 1999, ISBN 0-7897-2250-X (online)
  18. Peter Constable: Character set encoding basics. Understanding character set encodings and legacy encodings Archiválva 2013. május 5-i dátummal a Wayback Machine-ben
  19. Richard Gillam. Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard. Seite 38ff, Boston 2003, ISBN 0-201-70052-2
  20. Kersken: IT-Handbuch für Fachinformatiker. 779
  21. Kersken: IT-Handbuch für Fachinformatiker. 848f

Források

Read other articles:

Katedral QuébecKatedral Basilika Bunda Maria dari QuébecPrancis: Basilique-cathédrale de Notre-Dame-de-Québeccode: fr is deprecated Katedral QuébecLokasi16, rue de BuadeQuebec City, QuebecG1R 4A1NegaraKanadaDenominasiGereja Katolik RomaSejarahDidirikan1647 (1647) (bangunan asli)PendiriFrançois de LavalDedikasiPerawan MariaArsitekturStatusKatedral, basilika minorStatus fungsionalAktifDitetapkan1989ArsitekJean BaillairgéTipe arsitekturNeoklasikSelesai1843AdministrasiKeuskupan AgungK...

 

 

Senat Amerika SerikatUnited States SenateKongres Amerika Serikat ke-117Lambang SenatBendera SenatJenisJenisMajelis Tinggi dari Kongres Amerika Serikat Jangka waktuTidak adaSejarahSesi baru dimulai03 Januari 2021 (2021-01-03)PimpinanPresidenKamala Harris (D) sejak 20 Januari 2021 Presiden Pro TemporePatty Murray (D) sejak 3 Januari 2023 Pemimpin MayoritasChuck Schumer (D) sejak 20 Januari 2021 Pemimpin MinoritasMitch McConnell (R) sejak 20 Januari 2021 Penggerak MayoritasD...

 

 

Main article: 1896 United States presidential election 1896 United States presidential election in North Carolina ← 1892 November 3, 1896 1900 →   Nominee William Jennings Bryan William McKinley Party Democratic Republican Alliance Populist Home state Nebraska Ohio Running mate Arthur Sewall (Democratic)Thomas E. Watson (Populist) Garret Hobart Electoral vote 11 0 Popular vote 174,408 155,122 Percentage 52.64% 46.82% County Results Bryan  &...

Koordinat: 7°44′46″S 112°13′05″E / 7.746224°S 112.2181374°E / -7.746224; 112.2181374 Hasil rekonstruksi bagian dasar Candi Surawana Candi Surawana (Surowono) adalah candi bercorak hinduistik yang terletak di Desa Canggu, Kecamatan Badas, Kabupaten Kediri, berjarak sekitar 25 km arah timur laut dari Kota Kediri. Candi ini disebut dalam kitab Negarakertagama dengan nama 'Wishnubhawanapura dan diperkirakan dibangun pada abad ke-14 untuk memuliakan Bhre Wengker...

 

 

New York has a long history of LGBT community building, activism, and culture which extends to the early history of the city. Timeline of events 1890s Manhattan's Bowery was known to host fairy resorts, saloons or dance halls for male gays, (known as fairies at the time). These 'resorts' included the venues: Paresis Hall, Little Bucks, Manilla Hall, the Palm Club of Chrystie Street, the Black Rabbit at 183 Bleecker Street, and The Slide at 157 Bleecker Street were the site of many gay and dr...

 

 

1982 Belfast South by-election ← 1979 4 March 1982 1983 → Turnout66.2% ( 1.7%)   UUP APNI Candidate Martin Smyth David Cook Party Ulster Unionist Alliance Popular vote 17,123 11,726 Percentage 39.3 26.9   Candidate William McCrea Alasdair McDonnell Party DUP SDLP Popular vote 9,818 3,839 Percentage 22.6 8.8 MP before election Robert Bradford Ulster Unionist Subsequent MP Martin Smyth Ulster Unionist The Belfast South by-election was held on 4 March 1...

Provincial park in British Columbia, Canada Artlish Caves Provincial ParkIUCN category II (national park)[1]Artlish River CaveLocation in British ColumbiaLocationStrathcona RD, British ColumbiaNearest cityWossCoordinates50°10′N 126°55′W / 50.167°N 126.917°W / 50.167; -126.917 (Artlish Caves Provincial Park)Area285 ha (700 acres)DesignationProvincial ParkCreated30 April 1996Governing bodyBC ParksWebsiteBC Parks Artlish Caves Artlis...

 

 

6th Alberta LegislatureMajority parliament10 February 1927 – 10 May 1930Parliament leadersPremierJohn Edward BrownleeNovember 23, 1925 – July 10, 1934CabinetBrownlee cabinetParty caucusesGovernmentUnited Farmers of AlbertaOppositionLiberal PartyCrossbenchDominion Labor PartyConservative PartyLegislative AssemblySpeaker of theAssemblyGeorge Norman JohnstonFebruary 10, 1927 – July 22, 1935Members60 MLA seatsSovereignMonarchGeorge VMay 6, 1910 – January 20, 1936Lieut...

 

 

DB Schenker Rail Rybnik S.A.Company typeJSCIndustryRail transportFounded1965HeadquartersRybnik, PolandKey peopleAdam CzernikCEORevenue 238.300.000 zł (2004)Net income 23.300.000 zł (2004)Number of employees1119Websitewww.ptkigk.com.pl DB Schenker Rail Rybnik S.A., till 2009 PCC RAIL RYBNIK S.A., formerly Przedsiębiorstwo Transportu Kolejowego i Gospodarki Kamieniem w Rybniku, PTKiGK Rybnik (Rail Transport and Stone Management Company in Rybnik), is a Polish rail company operating mainly in...

American basketball player (born 1989) E'Twaun MooreMoore with Purdue in 2008Personal informationBorn (1989-02-25) February 25, 1989 (age 35)East Chicago, Indiana, U.S.Listed height6 ft 3 in (1.91 m)Listed weight191 lb (87 kg)Career informationHigh schoolCentral (East Chicago, Indiana)CollegePurdue (2007–2011)NBA draft2011: 2nd round, 55th overall pickSelected by the Boston CelticsPlaying career2011–2022PositionShooting guardNumber55Career history2011Universo...

 

 

1941 song written by Jimmy Dorsey and Paul Madeira 1942 Decca 78, 4197-B, by Jimmy Dorsey and His Orchestra featuring Bob Eberly on vocals.Decca 78 single, 18799A, 1946.I'm Glad There Is You (In This World of Ordinary People) is a song written by Jimmy Dorsey and Paul Madeira (sometimes credited as Paul Mertz) first published in 1941.[1] It has become a jazz and pop standard. Original recording The song was released by Jimmy Dorsey and His Orchestra in 1942 by Decca Records backed wit...

 

 

Cycling race Cycling race 2017 E3 Harelbeke2017 UCI World Tour, race 11 of 37Race detailsDates24 March 2017Stages1Distance206.1 km (128.1 mi)Winning time4h 48' 17[1]Results  Winner  Greg Van Avermaet (BEL) (BMC Racing Team)  Second  Philippe Gilbert (BEL) (Quick-Step Floors)  Third  Oliver Naesen (BEL) (AG2R La Mondiale)← 2016 2018 → The 2017 Record Bank E3 Harelbeke was a road cycling one-day race that took ...

  Financial Stability Board مجلس الإستقرار المالي‌ البلد سويسرا  المقر الرئيسي بازل، سويسرا تاريخ التأسيس أبريل 2009  Randal K. Quarles[1] الموقع الرسمي الموقع الرسمي  منتدى الاستقرار المالي    تعديل مصدري - تعديل   مجلس الإستقرار المالي ( FSB ) هي هيئة دولية تراقب وتقدم توصيا...

 

 

Untuk penerus klub NIAC Mitra, lihat Mitra Kukar. NIAC Mitra SurabayaNama lengkapNew International Amusement Center Mitra SurabayaBerdiri 14 Agustus 1978; 45 tahun lalu (1978-08-14) (sebagai Niac Mitra) 24 September 1990; 33 tahun lalu (1990-09-24) (sebagai Mitra Surabaya) StadionGelora 10 November, SurabayaPemilik Agustinus WenasLigaGalatamaKelompok suporterTorsedor NIAC Mitra singkatan dari New International Amusement Center Mitra adalah klub sepak bola semi profesional yang perna...

 

 

1876 Canadian act of Parliament Not to be confused with List of acts of the Parliament of India. Indian ActParliament of Canada Long title An Act to amend and consolidate the laws respecting Indians[1] CitationRSC 1985, c I-5Enacted byParliament of CanadaAssented toApril 12, 1876Status: Amended Indigenous peoplesin Canada First Nations Inuit Métis History Timeline Paleo-Indians Pre-colonization Genetics Residential schools gravesites Indian hospitals Conflicts First Nations...

Belgiqueau Concours Eurovision 2018 Données clés Pays  Belgique Chanson A Matter of Time Interprète Sennek Langue Anglais Sélection nationale Type de sélection Sélection interne Date 28 septembre 2017 (artiste)5 mars 2018 (chanson) Concours Eurovision de la chanson 2018 Position en demi-finale 12e (91 points, éliminée) 2017 2019 modifier La Belgique est l'un des quarante-trois pays participants du Concours Eurovision de la chanson 2018, qui se déroule à Lisbonne au Portugal. L...

 

 

Niccolò Paganini Información personalNombre en italiano Nicolò Paganini Nacimiento 27 de octubre de 1782 Génova (República de Génova) Fallecimiento 27 de mayo de 1840 Niza (Condado de Niza, Reino de Cerdeña-Piamonte) Sepultura Villetta Cemetery EducaciónAlumno de Ferdinando PaërAlessandro RollaRodolphe Kreutzer Información profesionalOcupación Compositor de música clásica, violinista, violin virtuos, violista, guitarrista y compositor Alumnos Camillo Sivori Género Música culta ...

 

 

Luigi CampanellaNazionalità Italia Altezza164 cm Lotta SpecialitàLotta greco-romana CategoriaPesi piuma Squadra S. G. L. Cristoforo Colombo CarrieraNazionale Italia Statistiche aggiornate al 22 gennaio 2022 Modifica dati su Wikidata · Manuale Luigi Campanella, noto anche con il soprannome Luisito e il nome di battaglia Campione (San Siro di Struppa, 4 novembre 1918[1] – Genova, 6 giugno 2018), è stato un lottatore e partigiano italiano, specializzato nello sti...

River in Mumbai, India This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Mithi River – news · newspapers · books · scholar · JSTOR (June 2009) (Learn how and when to remove this message) Mithi RiverMithi River At Filter PadaThe Mithi river is in the centreLocationCountryIndiaStateMaharashtraDistrictMumbai Subu...

 

 

R.E.M. song Fall on MeArtwork for North American, French, and Dutch vinyl releasesSingle by R.E.M.from the album Lifes Rich Pageant B-sideRotary TenReleasedAugust 1986Recorded1986GenreAlternative rockfolk rockjangle popLength2:50LabelI.R.S.Songwriter(s)Bill BerryPeter BuckMike MillsMichael Stipe[1]Producer(s)Don GehmanR.E.M. singles chronology Wendell Gee (1985) Fall on Me (1986) Superman (1986) Fall on Me is a song by the American alternative rock band R.E.M. from their fourth album ...