Datové jezero

Datové jezero (anglicky Data Lake) označuje rozsáhlé centralizované úložiště pro ukládání, zpracování a analyzování velkého množství dat. Je navrženo tak, aby umožňovalo ukládat strukturovaná, polostrukturovaná i nestrukturovaná data bez jejich předchozího zpracování v jejich přirozeném formátu. Může obsahovat data z relačních databází, z různých souborů, ale také obrázky, videa nebo grafy.[1]

S pokroky v Data Science a Machine Learning může Data Lake pomoci s mnoha optimalizovanějšími operačními modely a specializovanými funkcemi jako je například prediktivní analýza.[2]

Hlavní rysy

Škálovatelnost

Datová jezera jsou navržena tak, aby byla schopna ukládat a spravovat obrovské objemy dat v řádech petabytů a exabytů. Vzhledem k tomu, že data lze ukládat v jejich původním formátu a není třeba je předem strukturovat, datová jezera snadno zvládnou i rychlý nárůst dat. Technologie jako Hadoop a cloudové služby, jako jsou Amazon S3 a Azure Data Lake Storage, poskytují škálovatelné úložiště a výpočetní kapacity, které se adaptují na měnící se potřeby ukládání a zpracování dat. [3]

Různorodost dat

Datová jezera mohou ukládat různé typy dat, od strukturovaných databázových záznamů po nestrukturovaný text a multimediální soubory. Jsou ideální pro organizace, které chtějí získávat informace z rozmanitých datových zdrojů, včetně dat z IoT (internet věcí) zařízení, logů aplikací, sociálních sítí a dalších. Tato schopnost zpracovávat nestrukturovaná a polosturkturovaná data je zásadní pro big data analýzy, umělou inteligenci a strojové učení. [4]

Původní formát dat

Data zůstávají v původním formátu, což znamená, že se nemusí před zpracováním transformovat (ETL/ELT). To umožňuje širší škálu analýz a flexibilní využití dat. Data je možné ve specifických byznysových případech snadno a rychle načítat, zpracovávat a analyzovat ještě před jejich transformací.[5]

Flexibilita analýzy

Ukládání dat v jejich původním formátu znamená, že není nutná žádná předběžná transformace dat. To umožňuje rychlé a pružné analýzy, protože data jsou připravena k použití bez zdlouhavého procesu ETL (Extract, Transform, Load). To je výhodné pro use cases, které vyžadují rychlé načítání dat a poskytuje větší flexibilitu při průzkumu dat a vývoji prototypů.

Centralizované úložiště

Datové jezero slouží jako centralizované úložiště, které může být používáno různými odděleními nebo aplikacemi v organizaci. Centralizace dat umožňuje snadný přístup a sdílení dat. Data jsou snadno dostupná uživatelům, jednodušeji se sdílejí informace a je možné je efektivně využívat. Centralizace také umožňuje lépe udržovat konzistenci dat, jednotný přístup může snížit riziko vzniku nesrovnalostí v datech. Je možné provádět širší spektrum analýz nad různorodými daty. Správa jednoho centralizovaného úložiště může být také snazší než správa mnoha decentralizovaných.

Historie

Koncept datového jezera vznikl na základě potřeb efektivního nakládání s daty. Podnikové systémy začaly přirozeným vývojem udržovat obrovské množství dat, která v sobě obsahovala hodnotné informace a mohla pomoci podnikům získat mnohem smysluplnější statisticky ve srovnání s jakýmkoli systémem v podniku. [2]

Termin Datové jezero poprvé představil James Dixon, technický ředitel společnosti Penthao, v roce 2010 ve své práci, ve které vyjádřil své očekávání, že datová jezera budou obrovské sady dat, ke kterým budou mít uživatelé přistup a budou ho využívat pro analytické účely nebo Data Maining. Koncept datového jezera byl jistou dobu považován pouze za nový způsob ukládání dat za nízkou cenu. Toto tvrzení ovšem změnila skutečnost, že Datová jezera začala být považována za graal ve správě informací co se týče inovace prostřednictvím hodnoty dat.

V roce 2016 publikoval Bill Inmon knihu o architektuře Datových jezer, v ní se zabýval problémem ukládání nepoužitelných dat k možnému využití. Snaží se prosadit, aby se architektura Datových jezer posunula směrem k předzpracovaným systémům, aby se ukldádala nejen surová data, ale také předzpracovaná prostřednictvím procesů jako ETL proces (Extract-Transform-Load). Také zdůrazňuje, že by se měla věnovat pozornost specifickému profilu uživatelů - datových vědců. Mělo by být navrženo tak, aby byla data organizována podle tří typů dat; analogových, aplikačních a textových. Nicméně neřeší, jak by data měla být ukládána.

Jako první možné prostředí pro Datová jezera byl Apache Hadoop, který však měl svá omezení. Proto byl první návrh založen na hybridní technologii, tzn. na kombinaci Apache Hadoop a relační databázové technologii. Datová jezera se tak stala, podobně jako Datové sklady, víceplatformními a hybridními softwarovými konponentami.[6]

Datová jezera a Datové sklady

Datová jezera jsou často porovnávány s datovými sklady, protože oba koncepty umožňují ukládat obrovské objemy dat za účelem jejich transformace na informace. Nicméně od Datových jezer se očekává větší flexibilita než od datových skladů, protože Datová jezera nevyžadují, aby data byla integrována.[6] Ve srovnání s tradičními Datovými sklady jsou Datová jezera levnější a jsou idální pro složité zpracování dat a streamování. Nevýhodou je, že se mohou stát neorganizovaná, pokud nejsou adekvátně udržovaná, což ztěžuje jejich propojení s Business Inteligence a analytickými nástroji. Nekonzistence jezer znemožňuje vynutit spolehlivost a bezpečnost dat, může být obtížné vyvinout vhodné standardy pro zapabezpečení a řízení, které by vyhovovaly citlivým datovým typům, protože Datová jezera mohou zpracovat jakoukoli datovou formu. [4]

Metadata

Prostředky pro zpracování metadat v různých datových modelech (relačních, XML, JSON) by měl poskytnout systém pro správu metadat (MDMS). Měl by být schopen reprezentovat mapování mezi záznamy metadat. Pokud není schopen definovat vztahy mezi datovými sadami existuje riziko, že je Datové jezero pouze sbírkou nezávislých informačních sil a časem se stane neužitečným. Dalším důležitým požadavkem je podpora pro evoluci metadat. Metadata jsou přidávána ke zdrojům dat v průběhu času a měly by být doplněny o sémantické anotace s významem některých datových položek, které by měly být přidány k metadatům datového zdroje. Metadata jsou důležitá pro dotazování. Na rozdíl od relačních databází s předem definovaným schématem zahrnuje dotazování v Datovém jezeře průzkumný proces pro detekci datových zdrojů, které jsou relevantní pro určitou informaci, která je potřeba.[6]

Reference

  1. What is a Data Lake?. Google Cloud [online]. [cit. 2023-12-12]. Dostupné online. (anglicky) 
  2. a b TOMCY, John; PANKAJ, Misra. Data Lake for Enterprises. 1. vyd. Birmingham: Packt Publishing, 2017. 585 s. ISBN 9781787281349. 
  3. Azure Data Lake pro správu finančních dat | Blue Dynamic [online]. 2023-11-01 [cit. 2023-12-12]. Dostupné online. 
  4. a b JAY. Data Warehouse versus Data Lake versus Data Lakehouse. HashDork [online]. 2022-06-29 [cit. 2023-12-12]. Dostupné online. 
  5. HTTPS://WWW.TRIDVAJEDNA.CZ, 321 CREATIVE CREW s r o-. Data Lake v praxi – po hlavě do jezera dat. Data Lake v praxi – po hlavě do jezera dat [online]. [cit. 2023-12-12]. Dostupné online. 
  6. a b c LAURENT, Anne; LAURENT, Dominique. Data Lakes. 1. vyd. [s.l.]: Wiley-ISTE, 2020. ISBN 9781786305855.