Tartalomjegyzék:
- Hogyan használják a nagy adatokat
- Hol van a valós érték?
- A kis adatok néha nagyobb (és olcsóbb) hatást gyakorolnak
A nagy adatok egy általános szó, amelyet nagy mennyiségű adat kezelésére használnak. Mindannyian megértjük, hogy minél nagyobb az adatmennyiség, annál összetettebbé válik. A hagyományos adatbázis-megoldások összetettségük és méretük miatt gyakran nem képesek megfelelően kezelni a nagy mennyiségű adatot. Ezért nagy adatmennyiség kezelése és valódi betekintés kihívás. Ugyanez az „érték” fogalom alkalmazható a kis adatokra is.
Hogyan használják a nagy adatokat
Az RDBMS koncepción alapuló hagyományos adatbázis-megoldások nagyon jól kezelik a tranzakciós adatokat, és széles körben használják a különböző alkalmazásokban. De ha nagy mennyiségű adatot kezelünk (archivált adatok terabyte-ban vagy petabájtban vannak), ezek az adatbázis-megoldások gyakran megbuknak. Ezek az adatkészletek túlságosan nagyok, és általában nem illenek bele a hagyományos adatbázisok architektúrájába. Manapság a nagy adatok költséghatékony megközelítésgé váltak a nagyobb adatkészletek kezelése szempontjából. Szervezeti szempontból a nagy adatok felhasználása a következő kategóriákba osztható, ahol a nagy adatok valós értéke relatív:- Analitikai felhasználás
A nagy adatok elemzői az adatok sok fontos rejtett aspektusát tárják fel, amelyek feldolgozása túl költséges. Például, ha ellenőriznünk kell a diákok iránti érdeklődést egy bizonyos új téma iránt, akkor ezt megtehetjük a napi jelenléti nyilvántartások és más társadalmi és földrajzi tények elemzésével. Ezeket a tényeket az adatbázis rögzíti. Ha nem tudjuk hatékonyan hozzáférni ezekre az adatokra, akkor nem látjuk az eredményeket.
- Új termékek engedélyezése
A közelmúltban sok új webes cég, például a Facebook, elkezdte a nagy adatok felhasználását megoldásként új termékek bevezetésére. Mindannyian tudjuk, hogy a Facebook mennyire népszerű - nagy adat felhasználásával sikeresen előkészítette a nagy teljesítményű felhasználói élményt.
Hol van a valós érték?
A különféle nagy adatmegoldások abban különböznek egymástól, hogy milyen módon tárolják az adatokat, de végül mind az adatokat egy sima fájlszerkezetben tárolják. Általában a Hadoop állományrendszerből és néhány operációs rendszer szintű adatkivonatból áll. Ez magában foglalja a MapReduce motort és a Hadoop elosztott fájlrendszerét (HDFS). Egy egyszerű Hadoop-fürt tartalmaz egy főcsomópontot és több dolgozó csomópontot. A fő csomópont a következőkből áll:- Feladatkövető
- Job Tracker
- Név Csomópont
- Adatcsomópont
- Feladatkövető
- Adatcsomópont
Egyes megvalósításokban csak az adatcsomópont van. Az adatcsomópont az a tényleges terület, ahol az adatok fekszenek. A HDFS nagy fájlokat tárol (több terabyte-tól petabájt-ig terjedő tartományban), több gépen elosztva. Az adatok megbízhatóságát minden csomóponton úgy érjük el, hogy az adatokat az összes gazdagépen megismételjük. Így az adatok akkor is elérhetők, ha az egyik csomópont le van állítva. Ez elősegíti a lekérdezésekkel szembeni gyorsabb válaszadást. Ez a koncepció nagyon hasznos olyan hatalmas alkalmazások esetén, mint a Facebook. Felhasználóként szinte azonnal megkapjuk a választ a csevegési kérésünkre. Vegyünk egy olyan forgatókönyvet, amikor a felhasználónak sokáig várnia kell beszélgetés közben. Ha az üzenet és az azt követő válasz nem érkezik azonnal, akkor hány ember fogja használni ezeket a csevegő eszközöket?
Visszatérve a Facebook implementációjához, ha az adatokat nem replikálják a fürtök, nem lesz vonzó megvalósítás. A Hadoop az adatokat nagyobb klaszterben osztja el a gépek között, és blokkok sorozataként tárolja a fájlokat. Ezek a blokkok azonos méretűek, kivéve az utolsó blokkot. A blokk mérete és a replikációs tényező igény szerint testreszabható. A HDFS fájljai szigorúan az egyszer írható megközelítést követik, így egyszerre csak egy felhasználó írhatja vagy szerkesztheti azokat. A blokkok replikációjáról a névcsomópont határoz. A névcsomópont jelentéseket és impulzusválaszokat fogad az egyes adatcsomópontoktól. Az impulzusválaszok biztosítják a megfelelő adatcsomópont elérhetőségét. A jelentés tartalmazza az adatcsomópont blokkjainak részleteit.
Egy másik nagy adat megvalósítás, a Cassandra, szintén hasonló terjesztési koncepciót alkalmaz. A Cassandra az adatokat földrajzi helyzet alapján terjeszti. Ezért Cassandra-ban az adatokat az adathasználat földrajzi helye alapján szétválasztják.
A kis adatok néha nagyobb (és olcsóbb) hatást gyakorolnak
A Nyílt Tudás Alapítvány Rufus Pollock szerint nincs értelme hiper létrehozására a nagy adatok körül, miközben a kis adatok továbbra is a valós érték helye.
Ahogy a neve is sugallja, a kisméretű adatok egy nagyobb adatsorból célzott adatkészlet. A kis adatok célja, hogy elmozdítsák a hangsúlyt az adathasználattól, és célja az is, hogy ellensúlyozza a nagy adatok felé történő elmozdulás tendenciáját. A kis adatokon alapuló megközelítés elősegíti az egyedi követelmények alapján történő adatgyűjtést kevesebb erőfeszítéssel. Ennek eredményeként ez a hatékonyabb üzleti gyakorlat az üzleti intelligencia megvalósítása közben.
Alapvetõen a kis adatok fogalma olyan vállalkozások köré fordul, amelyek eredményeket igényelnek, amelyek további intézkedéseket igényelnek. Ezeket az eredményeket gyorsan le kell tölteni, és a következő műveletet szintén azonnal végre kell hajtani. Így kiküszöbölhetjük a nagy adatelemzésben általánosan használt rendszereket.
Általánosságban elmondható, hogy ha figyelembe vesszük a nagy adatgyűjtéshez szükséges speciális rendszereket, akkor egy vállalat befektethet sok szervertárolás felállításába, kifinomult csúcskategóriás szervereket és a legfrissebb adatbányászati alkalmazásokat használhat a különféle adatbitek kezelésére., ideértve a felhasználói műveletek dátumát és idejét, demográfiai információkat és egyéb információkat. Ez a teljes adatkészlet egy központi adattárházba költözik, ahol összetett algoritmusok használják az adatok rendezésére és feldolgozására, hogy azok részletes jelentések formájában jelenjenek meg.
Mindannyian tudjuk, hogy ezek a megoldások számos vállalkozás számára előnyösek voltak a méretezhetőség és a rendelkezésre állás szempontjából; vannak szervezetek, amelyek szerint ezen megközelítések elfogadása jelentős erőfeszítéseket igényel. Az is igaz, hogy bizonyos esetekben hasonló eredményeket lehet elérni egy kevésbé megbízható adatbányászati stratégiával.
A kis adatok lehetővé teszik a szervezetek számára, hogy visszatérjenek a legújabb és legújabb technológiák megszállottságához, amelyek támogatják a kifinomultabb üzleti folyamatokat. A kisméretű adatokat népszerűsítő vállalatok azt állítják, hogy üzleti szempontból fontos erőforrásaik hatékony felhasználása, hogy bizonyos mértékig elkerülhető legyen a technológiára való túlköltekezés.
Sokat megvitattunk a nagy adatokról és a kis adatok valóságáról, de meg kell értenünk, hogy a feladat helyének megfelelő kiválasztása (nagy adatok vagy kis adatok) a teljes feladat legfontosabb része. És az az igazság, hogy bár a nagy adatok sok előnnyel járhatnak, nem mindig a legjobb.