Data (informatika)

Data jsou v informatice údaje zaznamenané v digitální (číselné) podobě určené k počítačovému zpracování. Data (např. číslo, text, obrázek, zvuk) jsou zapsána (kódována) v podobě posloupností čísel (bajtů) a uložena např. v operační paměti počítače nebo na záznamovém médiu (pevný disk, CD, paměťová karta apod.). Stejným způsobem je v paměti vedle dat uložen i sled instrukcí tvořící počítačový program, který určuje, jak má počítač data zpracovávat.

Pojem data je často libovolně zaměňován s pojmem informace, nicméně v rámci teorie informace formulované kybernetikem Norbertem Wienerem jsou data prostým záznamem hodnot, a informace se z nich stávají až po jejich výkladu v kontextu s využitím znalostí.

Další definice:

  • Data jsou posloupnost symbolů, jimž je přiřazena určitá interpretace.

Celkový objem digitálních dat v roce 2007 byl odhadnut na 281 bilionů GB.[1][2]

Kódování dat, formát dat a metadata

Reprezentace dat v digitálních počítačích je obvykle binární: data (např. čísla, texty, obrázky, zvukové záznamy) jsou reprezentována sérií binárních číslic (bitů). Z praktických důvodů se osm bitů seskupuje do jednoho bajtu.

Data se čtou a zapisují jako posloupnosti bajtů, ale lidsky přívětivější je uvažovat na vyšší úrovni abstrakce, například: tento soubor je obrázek, který je zaznamenán v nějakém formátu. Každá informace, má-li být korektně zpracována, musí být zobrazena v určitém kódu a dodržovat určitý formát. Kód a formát dat jsou velmi blízké pojmy.

Na elementární úrovni obvykle mluvíme o kódu, například o kódování češtiny, obecněji o znakové sadě (reprezentaci znaků nějaké abecedy čísly). Jiným příkladem je endianita, způsob uložení čísel v operační paměti počítače, který definuje, v jakém pořadí se uloží jednotlivé bajty číselného datového typu.

Strukturu vyšší úrovně označujeme jako formát. Příkladem může být značkovací jazyk HTML nebo formáty dokumentů (formát textového procesoru Microsoft Word, OpenDocument, Office Open XML), grafické formáty.

Formát dat je obvykle standardizován, aby počítače a programy různých výrobců byly schopny spolupracovat. Znalost formátu je nezbytná k většině manipulací s daty. Neveřejné (většinou binární) formáty nutí uživatele používat programy určitého výrobce. Otevřené formáty, často textové, odstraňují do určité míry tuto nepříjemnost.

Pod formátem dat se nejčastěji rozumí formát souboru; formát ovšem vstupuje do hry pokaždé, kdy jsou ukládána nebo předávána data, tedy například u komunikačních protokolů, archivu na magnetické pásce, nebo uložení dat v paměti počítače.

Metadata

K datům (sekvencím bajtů) taktéž potřebujeme informaci, co reprezentují; prostředkem k tomu jsou metadata. Metadata jsou data, která poskytují informaci o jiných datech. Metadata slouží k vyhledání nebo zpracování popisovaných dat. Dávají návod k jejich interpretaci, při počítačovém zpracování lze podle metadat automaticky přiřadit k popisovaným datům algoritmus (program), který je data správně interpretuje a zobrazí. Příkladem metadat je přípona souboru nebo hlavička souboru nebo MIME, ale i papírový katalogizační lístek v neautomatizované knihovně.

Pokud jsou data výrazně redundantní, může někdy expert pohledem do nich odhadnout, v jakém jsou formátu. Ale pokud jde např. o komprimovaný soubor nebo o uzavřený binární formát nebo o málo rozšířený formát, bez metadat se může stát, že stojíme nad sekvencí bajtů a nevíme, jak ji číst.

Konverze dat

Konverze je převod dat mezi různými kódy a formáty. Ačkoli se kódy i formáty standardizují, užívá se jich celá řada, takže konverze patří mezi velmi časté operace. Při konverzi může dojít ke ztrátě informace; buď proto, že výstupní formát určité typy záznamů nepodporuje, nebo proto, že je konverzní algoritmus neumí převést.

Data, s nimiž se operuje v programovacích jazycích, mají přiřazený datový typ. Datový typ určuje, jak se kódují data do bitů (nebo bajtů) a tedy jak se mají chápat bajty dat. Data uložená v paměti se pro uschovávání nebo přenášení serializují do posloupnosti.

Komprese dat je speciální případ konverze počítačových dat, jejímž cílem zmenšit jejich objem (v bitech). Při ztrátové kompresi jsou některé informace nenávratně ztraceny a nelze je zpět zrekonstruovat; používá se tam, kde je možné ztrátu části informací tolerovat. Bezeztrátová komprese obvykle nedosahuje takové úrovně komprese jako ztrátová komprese dat, ale komprimovaný soubor lze opačným postupem rekonstruovat přesně do původní podoby.

Textová a binární data

Tradičně se data dělí na textová (obsahují pouze bajty o hodnotě 0–127) a binární (bez omezení, tj. 0–255). Toto dělení dnes už není zcela platné (nástup UTF-8).

V užším pojetí se za data někdy považují jen binární soubory, které nejsou snadno lidmi čitelné, na rozdíl od lidmi čitelných textových souborů.[3] Standardizované značkovací jazyky jako SGML, XML a JSON dovolují zachycovat data ve (více či méně) lidsky čitelné podobě.

Data a instrukce

Data i strojové instrukce jsou v počítačové paměti uloženy jako sekvence bajtů.

Ve von Neumannově architektuře není zásadní rozdíl mezi způsobem uložení dat a instrukcí. Kompilátor generuje budoucí spustitelný kód jako data a počítač jej pak interpretuje jako posloupnost instrukcí určenou ke spuštění. Obvykle se data měnit mohou, kdežto program se nemění. Oddělení programu a dat (na nízké úrovni) je pragmatický přístup, který slouží i jako ochrana proti chybám softwaru a před úmyslnou snahou program narušit.

Naproti tomu harvardská architektura počítače fyzicky odděluje paměť dat a instrukcí. Není potřeba mít paměť stejných parametrů a vlastností pro data a pro program.

Ukládání dat

Data jsou uložena např. v operační paměti počítače nebo na datovém médiu (pevný disk, CD, paměťová karta aj.). Operační systém počítače pracuje se soubory prostřednictvím souborového systému.

Databáze

Databáze je nástroj pro uchovávání a zpracovávání velkého množství dat. Databáze v užším smyslu je uspořádaná množina informací, uložená na paměťovém médiu. Systém řízení báze dat je program pro uchovávání a zpracovávání těchto dat.

Adresování

Operační paměť počítače je elektronická paměť umožňující čtení i zápis používaná pro dočasné ukládání zpracovávaných dat a spouštěných programů. Přístup k operační paměti je mnohem rychlejší než k vnější paměti; procesor pomocí adresy přímo vybírá požadovanou buňku operační paměti.

Předzpracování dat

Seřazení dat

Data mají některé výhodné vlastnosti, pokud jsou seřazena podle klíče. Hodnoty podmnožin, které mají stejný klíč, jsou zobrazeny tak, že při sekvenčním zpracování následují po sobě. To usnadňuje agregaci dat na podmnožinách klíče.

Indexy

Vybrání podmnožiny z velkého množství dat vyžaduje prohledávání celého objemu dat. To může být velmi časově náročné. Indexy jsou odvozené, dodatečné struktury, které obsahují hodnoty klíčů a adresy dat (v některých případech přímo hodnoty dat). Při vyhledávání podle klíče zvoleného při indexaci pak indexy výrazně zrychlují vyhledávání dat. Indexy mohou být ukládány například pomocí B-stromů nebo hašovacích tabulek. Speciálními typy indexů jsou například trie a sufixový strom.

Ochrana dat

Kontrolní součet je dodatečná informace, která se předává spolu s původními daty a slouží k ověření, zda při přenosu dat nedošlo k chybě. Kontrolní součet je výsledkem přesně určené operace, provedené s původními daty. Příjemce informace má možnost sám znovu spočítat kontrolní součet. Pokud vypočtený kontrolní součet nesouhlasí s předaným kontrolním součtem, znamená to, že během přenosu došlo k poškození zprávy nebo k poškození kontrolního součtu.

Šifrování dat se používá jako ochrana proti jejich přečtení neautorizovanou osobou. Při steganografii je zpráva v datech ukryta tak, aby si pozorovatel neuvědomil, že komunikace vůbec probíhá.

Principem zálohování dat je uložení záložní kopie dat na jiném datovém nosiči (a pokud možno i v jiné budově). Záložní data jsou využívána v případě ztráty, poškození nebo jiné potřeby práce s daty uloženými v minulosti. Systematickým zajištěním dlouhodobé použitelnosti dat se zabývá obor ochrana digitálních dokumentů.

Odkazy

Reference

  1. Paul, Ryan. Study: amount of digital info > global storage capacity. Ars Technica. March 12, 2008. Dostupné online [cit. 2008-03-12]. 
  2. Gantz, John F. et al. The Diverse and Exploding Digital Universe [online]. International Data Corporation via EMC, 2008 [cit. 2008-03-12]. Dostupné online. 
  3. file(1) [online]. 2004-12-04 [cit. 2007-03-19]. (OpenBSD Manual Pages). Dostupné online. 

Související články

Externí odkazy