Itthon Trends 7 dolog, amit tudni kell a hadoopról

7 dolog, amit tudni kell a hadoopról

Tartalomjegyzék:

Anonim

Mi a Hadoop? Ez egy sárga játék elefánt. Nem az, amit vártál? Mi lenne ezzel: Doug Cutting - a nyílt forráskódú szoftverprojekt társalkotója - kölcsönvette a nevét fiától, aki történetesen Hadoop játékdíjnak hívta. Dióhéjban a Hadoop az Apache Software Foundation által kifejlesztett szoftverkeret, amely az adatintenzív, elosztott számítástechnika fejlesztésére szolgál. És ez egy kulcsfontosságú elem egy másik szóbeszédben az olvasók számára soha nem tűnik elégnek: nagy adat. Hét dolgot kell tudnia erről az egyedülálló, szabadon licencbe vett szoftverről.

Hogyan kezdte el a Hadoop?

Tizenkét évvel ezelőtt a Google felépített egy platformot a gyűjtött nagy mennyiségű adat manipulálására. Mint a vállalat gyakran, a Google két dokumentum formájában is közzétette a formatervezési formát a nyilvánosság számára: Google File System és MapReduce.


Ugyanakkor Doug Cutting és Mike Cafarella a Nutch-on, az új keresőmotoron dolgoztak. A kettő szintén küzdött azzal, hogy hogyan kezelje nagy mennyiségű adatot. Aztán a két kutató megismerte a Google papírokat. Ez a szerencsés kereszteződés mindent megváltoztatott azáltal, hogy a Cutting-t és a Cafarella-t egy jobb fájlrendszerrel és az adatok nyomon követésének módjával vezette be, végül a Hadoop létrehozásához.

Mi olyan fontos Hadoopnál?

Ma az adatok gyűjtése könnyebb, mint valaha. Ezen adatok birtokában számos lehetőség rejlik, de vannak kihívások is:

  • A nagy mennyiségű adat új feldolgozási módszereket igényel.
  • A rögzített adatok nem strukturált formátumban vannak.
A hatalmas mennyiségű, nem strukturált adat manipulálásával járó kihívások leküzdése érdekében a Cutting és a Cafarella két részből álló megoldást dolgozott ki. Az adatmennyiség-probléma megoldása érdekében a Hadoop elosztott környezetet - az árupszerverek hálózatát - alkalmaz egy párhuzamos feldolgozási fürt létrehozásával, amely több feldolgozási energiát jelent a hozzárendelt feladat elvégzéséhez.


Ezután a nem strukturált vagy olyan formátumú adatokat kellett kezelniük, amelyeket a szokásos relációs adatbázisrendszerek nem tudtak kezelni. A Cutting és a Cafarella úgy tervezte a Hadoop-t, hogy bármilyen típusú adathoz használható: strukturált, strukturálatlan, képekkel, audio fájlokkal, akár szövegekkel is. Ez a Cloudera (Hadoop integrátor) fehér könyv magyarázza miért fontos:

    "Azáltal, hogy minden adatát felhasználja, nem csak az adatbázisokban tárolt adatokkal, a Hadoop lehetővé teszi a rejtett kapcsolatok feltárását, és feltárja a válaszokat, amelyek mindig csak elérhetetlen voltak. Elkezdhet több döntést hozni a kemény adatok alapján, a csapdák helyett, és megnézheti a teljes adatkészleteknél, nem csak a mintáknál és az összefoglalóknál. "

Mi a Séma az olvasáson?

Mint korábban említettük, a Hadoop egyik előnye a nem strukturált adatok kezelésének képessége. Bizonyos értelemben ez "a kannát az úton rúgja". Az adatok elemzéséhez végül valamilyen struktúrára van szükség.


Itt játszik szerepet az olvasott séma. Az olvasott séma az, hogy milyen formátumban jelenjenek meg az adatok, hol keresse meg az adatokat (ne feledje, hogy az adatok szétszórtan vannak több szerver között), és mit kell tenni az adatokkal - nem egyszerű feladat. Azt mondják, hogy az adatok manipulálása a Hadoop rendszerben üzleti elemző, statisztikus és Java programozó készségeit igényli. Sajnos nincs sok ilyen képesítéssel rendelkező ember.

Mi a kaptár?

Ha Hadoop sikeres volt, egyszerűsíteni kellett az adatokkal való munkát. Tehát a nyílt forráskódú közönség dolgozott és létrehozta Hivet:

    "A Hive egy olyan mechanizmust biztosít, amely felépíti ezeket az adatokat és lekérdezi az adatokat egy SQL-szerű HiveQL nevû nyelv használatával. Ugyanakkor ez a nyelv lehetõvé teszi a hagyományos térkép / csökkentõ programozók számára is, hogy az egyedi térképezõket és reduktorokat csatlakoztassák, amikor kényelmetlen vagy nem hatékony ezt a logikát a HiveQL-ben kifejezni. "

A Hive mind a két világ legjobbját lehetővé teszi: az SQL parancsokat ismerő adatbázis-személyzet manipulálhatja az adatokat, és az olvasási folyamat sémáját ismerő fejlesztők továbbra is testreszabott lekérdezéseket hozhatnak létre.

Milyen adatokat elemez Hadoop?

A web analitika az első dolog, amelyre gondol, a webnaplók és a webes forgalom elemzése a webhelyek optimalizálása érdekében. Például a Facebook határozottan belekerül a webes elemzésbe, és a Hadoop segítségével szétválogatja a vállalkozás által felhalmozott adatok terabyte-ját.


A vállalatok a Hadoop klasztereket használják kockázatelemzés, csalás észlelés és ügyfél-alapú szegmentálás elvégzésére. A közüzemi vállalatok a Hadoop segítségével elemzik az elektromos hálózatuk érzékelő adatait, lehetővé téve számukra, hogy optimalizálják a villamosenergia-termelést. Az olyan nagyvállalatok, mint a Target, a 3M és a Medtronics, a Hadoop használatával optimalizálják a termék forgalmazását, az üzleti kockázat felmérését és az ügyfélbázis szegmentálását.


Az egyetemeket a Hadoopba is befektetik. Brad Rubin, a Szent Thomas Egyetem Szoftvergraduális Programjának egyetemi docens megemlítette, hogy Hadoop szakértelme segíti az egyetemen dolgozó kutatócsoportok által összegyűjtött nagy mennyiségű adat átrendezését.

Tudsz egy valós példát mutatni a Hadoopról?

Az egyik legismertebb példa a TimesMachine. A New York Times teljes oldalas TIFF-képeket, kapcsolódó metaadatokat és cikkszöveget tartalmaz 1851-től 1922-ig terbyte-os adatokkal. A New York-i Derek Gottfrid EC2 / S3 / Hadoop rendszert és speciális kódot használva:

    "405 000 nagyon nagy TIFF képet, 3, 3 millió cikket írt le az SGML formátumban és 405 000 xml fájlt, amelyek leképezik a cikkeket a TIFF fájlok téglalap alakú régióira. Ezeket az adatokat web-barátként 810 000 PNG képképp (miniatűrök és teljes képek) és 405 000 JavaScript fájllá alakították át. "

Az Amazon Web Services felhő kiszolgálóival Gottfrid megemlítette, hogy kevesebb, mint 36 órán belül képesek feldolgozni az összes adatot, amely a TimesMachine számára szükséges.

Hadoop már elavult, vagy csak morfog?

A Hadoop már több mint egy évtizede létezik. Sokan azt mondják, hogy elavult. Az egyik szakértő, Dr. David Rico azt mondta: "Az IT-termékek rövid élettartamúak. A kutyaévekben a Google termékei körülbelül 70, a Hadoop pedig 56".


Lehet, hogy van valami igazság abban, amit Rico mond. Úgy tűnik, hogy Hadoop jelentős átalakításon megy keresztül. Ahhoz, hogy többet tudjon meg róla, Rubin meghívott egy Twin Cities Hadoop felhasználói csoport találkozójára, és a beszélgetés témája: Bevezetés a fonalakba:

    "Az Apache Hadoop 2 tartalmaz egy új MapReduce motort, amelynek számos előnye van az előző megvalósításhoz képest, ideértve a jobb méretezhetőséget és az erőforrás-felhasználást. Az új megvalósítás egy általános erőforrás-kezelési rendszerre épül, amely a YARN nevű elosztott alkalmazások futtatására szolgál."
A Hadoop sok zümmögést ér el az adatbázis- és tartalomkezelő körökben, de még mindig sok kérdés van körülötte és hogyan lehet ezt a legjobban használni. Ezek csak néhány. Ha van még, küldje el nekünk az utat. A legjobbat válaszoljuk a Techopedia.com webhelyen.

7 dolog, amit tudni kell a hadoopról