Apache Hadoop
Az Apache Hadoop egy nyílt forráskódú keretrendszer, amely adat-intenzív elosztott alkalmazásokat támogat. Lehetővé teszi több száz vagy ezer alacsony költségű szerver fürtbe kapcsolását, hibatűréssel és lineáris skálázhatósággal. A platform a Google 2004-es MapReduce és Google File System cikkein alapul[3], de később önálló fejlődésnek indult az Apache Software Foundation gondozásában. TörténetA Hadoop projektet Doug Cutting és Mike Cafarella[4] hozta létre 2005-ben, mint nyílt forráskódú keretrendszert nagy adatmennyiségek elosztott feldolgozására. Cutting, aki akkor a Yahoo!-nál dolgozott, fiának játék elefántjáról nevezte el a projektet.[5] Eredeti céljuk a Nutch keresőmotor elosztott működésének támogatása volt, amihez a Google 2004-ben publikált MapReduce cikkéből merítettek ötleteket.[6] ArchitektúraA Hadoop fő részei:
FájlrendszerekHDFSA HDFS (Hadoop Distributed File System - Hadoop Elosztott Fájlrendszer) egy elosztott, skálázható és hordozható fájlrendszer, amelyet a Hadoop rendszerhez írtak Java nyelven. Más fájlrendszerekA Hadoop bármilyen elosztott fájlrendszerrel együtt tud működni, amely az adott operációs rendszeren csatlakoztatható. Ennek ugyanakkor megvan az ára: a hely információk elvesztése. A hálózati forgalom csökkentéséhez a Hadoopnak tudnia kell, melyik szerverek vannak az adathoz közel, ezt az információt a Hadoop-specifikus adapterek tudják megadni. A támogatott fájlrendszerek:
MapReduce implementációA Hadoop MapReduce implementációja[7] a big data kötegelt feldolgozásának alapvető modelljét valósítja meg, amely két fő fázisból áll[8]: Főbb komponensek
Működési folyamat
Optimalizációs technikák
Közismert felhasználókYahoo!A Yahoo! 2008 február 19-én indította el a Yahoo! Search Webmap szolgáltatását, amely állításaik szerint 10 000 CPU-maggal a legnagyobb Hadoop-ot futtató linux klaszter a világon. A rendszer által generált adatokat minden Yahoo! keresési eredmény felhasználja. A Yahoo! több Hadoop fürtöt működtet és a HDFS fájlrendszereit valamint a MapReduce feladatait nem osztja el több adatközponton. 2010-ben a Facebook állítása szerint övék volt a legnagyobb Hadoop fürt összesen 21 PB adatkapacitással.[9] 2011 július 7-én bejelentették, hogy az adatmennyiség 30 PB-ra nőtt, majd 2012 június 13-án 100 PB-ra. A cég 2012 november 8-i bejelentése szerint a Hadoop fürt tárolókapacitása naponta nagyjából fél petabyte-tal nő. Más felhasználókFordítás
Jegyzetek
|