Itthon Trends Mi a $ @! van hadoop?

Mi a $ @! van hadoop?

Tartalomjegyzék:

Anonim

Mindenki a Hadoopról beszél, a forró új technológiáról, amely a fejlesztők körében nagyra becsülhető, és csakis megváltoztathatja a világot (újra). De egyébként mi ez? Programozási nyelv? Egy adatbázis? Egy feldolgozó rendszer? Indiai tea hangulatos?


Széles választ: Hadoop mindezek (kivéve a hangulatos teát) és még sok más. Ez egy szoftver könyvtár, amely programozási keretet biztosít egy másik modern szószó: big data olcsó és hasznos feldolgozására.

Honnan jött Hadoop?

Az Apache Hadoop az Apache Software Foundation alapítvány projektjének része, egy nonprofit szervezet, amelynek feladata "a közjószoftver biztosítása". Mint ilyen, a Hadoop könyvtár ingyenes, nyílt forrású szoftver, amely minden fejlesztő számára elérhető.


A Hadoop mögöttes technológiáját a Google találta ki. A korai napokban a nem egészen óriási keresőmotornak szüksége volt módjára az internetről gyűjtött nagy mennyiségű adat indexálására, és értelmes, releváns eredményekké alakítsa azt a felhasználók számára. Mivel a piacon nem áll rendelkezésre olyan követelmény, amely eleget tehetne a követelményeknek, a Google felépítette saját platformját.


Ezeket az innovációkat egy nyílt forráskódú projekt, a Nutch nevű projekt kiadta, amelyet Hadoop később alapként használt. Lényegében a Hadoop a Google hatalmát alkalmazza a nagy adatokra oly módon, hogy minden méretű vállalkozás számára megfizethető legyen.

Hogyan fejti ki hatását a Hadoop?

Mint korábban említettük, a Hadoop nem egy dolog - sok minden. A Hadoop szoftverkönyvtár négy elsődleges részből (modulokból) és számos kiegészítő megoldásból (például adatbázisok és programozási nyelvek) áll, amelyek javítják annak valós használatát. A négy modul a következő:

  • Hadoop Common: Ez a közös segédprogramok (a közös könyvtár) gyűjteménye, amely támogatja a Hadoop modulokat.
  • Hadoop elosztott fájlrendszer (HDFS): Robusztus, elosztott fájlrendszer, amely nem korlátozza a tárolt adatokat (azaz az adatok strukturálhatók vagy nem strukturáltak és nem lehetnek sémák nélküli, ahol sok DFS csak strukturált adatokat tárol), amely nagy áteresztőképességű hozzáférést biztosít redundanciával ( A HDFS lehetővé teszi az adatok tárolását több gépen - tehát, ha egyik gép meghibásodik, a rendelkezésre állás fennmarad a többi gépen).
  • Hadoop YARN: Ez a keretrendszer felelős a feladatok ütemezéséért és a fürt erőforrás-kezeléséért; gondoskodik arról, hogy az adatok megfelelő módon eloszlanak több gépen a redundancia fenntartása érdekében. A YARN az a modul, amely a Hadoop megfizethető és költséghatékony módját teszi a nagy adatok feldolgozásához.
  • Hadoop MapReduce: Ez a Google technológiára épülő YARN-alapú rendszer nagy adathalmazok (strukturált és strukturálatlan) párhuzamos feldolgozását végzi. A MapReduce a legtöbb mai nagy adatfeldolgozási keretrendszerben megtalálható, beleértve az MPP és a NoSQL adatbázisokat.
Mindezek a modulok együtt dolgozva elosztott feldolgozást generálnak nagy adatkészletekhez. A Hadoop keretrendszer egyszerű programozási modelleket használ, amelyeket a számítógépek fürtjein át lehet replikálni, vagyis a rendszer a kiszolgálóktól való támaszkodás helyett az egyetlen kiszolgálótól több ezer gépen bővítheti a megnövelt feldolgozási teljesítményt.


Az a hardver, amely képes kezelni a nagy adatok kezeléséhez szükséges feldolgozási teljesítményt, enyhén szólva, drága. Ez a Hadoop valódi újítása: képesség nagy mennyiségű feldolgozási teljesítmény felosztására több, kisebb gépen, mindegyik saját lokális kiszámításával és tárolásával, valamint a beépített redundáns alkalmazás szintjén a hibák elkerülése érdekében.

Mit csinál Hadoop?

Egyszerűen fogalmazva, a Hadoop mindenki számára hozzáférhetővé és felhasználhatósá teszi a nagy adatokat.


A Hadoop előtt a nagy adatot használó vállalatok ezt főleg relációs adatbázisokkal és vállalati adattárházakkal végezték (amelyek hatalmas mennyiségű drága hardvert használnak). Noha ezek az eszközök kiválóan alkalmasak a strukturált adatok feldolgozására - azaz olyan adatok, amelyeket már rendeztek és kezelhető módon rendeztek el -, a strukturálatlan adatok feldolgozási képessége rendkívül korlátozott volt, annyira, hogy gyakorlatilag nem létezett. Az adatok felhasználhatóságához az adatokat előbb fel kellett szerkeszteni, hogy azok szépen beleférjenek a táblákba.


A Hadoop keretrendszer megváltoztatja ezt a követelményt, és olcsón hajtja végre. A Hadoop segítségével 10 - 100 gigabájt vagy annál nagyobb mennyiségű adat, akár strukturált, akár nem strukturált, rendes (árucikk) szerverekkel feldolgozható.


A Hadoop potenciális nagyméretű alkalmazásokat kínál minden méretű vállalkozás számára, minden iparágban. A nyílt forráskódú keret lehetővé teszi a pénzügyi vállalatok számára, hogy kifinomult modelleket készítsenek a portfólió kiértékelésére és a kockázatelemzésre, vagy az online kiskereskedők finomítsák keresési válaszukat, és az ügyfelek felé irányítsák az olyan termékeket, amelyeket nagyobb valószínűséggel vásárolnak.


A Hadoop segítségével a lehetőségek valóban korlátlanok.

Mi a $ @! van hadoop?