Hadoop analitika: nem olyan egyszerű több adatforrás esetén

2025

Tartalomjegyzék:

Adatok különböző forrásokból, nehéz összekapcsolni és leképezni
A Hadoop szakértői megkíséreltek egyesíteni az adatokat

A Hadoop remek hely az adatok elemzési feldolgozáshoz történő letöltésére vagy egyetlen adatforrás nagyobb mennyiségének modellezésére, amelyek a meglévő rendszerekkel nem lehetséges. Mivel azonban a vállalatok sok forrásból hoznak adatokat a Hadoop-ba, egyre növekszik az igény a különböző forrásokból származó adatok elemzésére, amelyet rendkívül nehéz elérni. Ez a bejegyzés az első egy három részből álló sorozatban, amely elmagyarázza a szervezetekkel szembesülő kérdéseket, amikor megpróbálják elemezni a Hadoop különböző adatforrásait és típusait, és hogyan tudják megoldani ezeket a kihívásokat. A mai bejegyzés a több belső forrás kombinálásakor felmerülő problémákra összpontosít. A következő két üzenet elmagyarázza, hogy ezek a problémák miért bonyolultabbá válnak, mivel hozzáadódnak a külső adatforrások, és hogy az új megközelítések miként járulnak hozzá ezek megoldásához.

Adatok különböző forrásokból, nehéz összekapcsolni és leképezni

A különféle forrásokból származó adatok eltérő struktúrájúak, és megnehezítik az adattípusok összekapcsolását és leképezését, sőt a belső forrásokból származó adatokat is. Az adatok kombinálása különösen nehéz lehet, ha az ügyfelek több számlaszámmal rendelkeznek, vagy egy szervezet megszerezte vagy egyesítette más társaságokkal. Az elmúlt években néhány szervezet megkísérelte az adatok felfedezését vagy az adatok tudományát alkalmazni a Hadoopban tárolt több forrásból származó adatok elemzésére. Ez a megközelítés problematikus, mivel sok kitalálással jár: a felhasználóknak el kell dönteni, hogy mely idegen kulcsokat kell használni a különféle adatforrások összekapcsolásához, és feltételezéseket kell tenniük az adatmodell átfedések létrehozásakor. Ezeket a kitalálatokat nehéz kipróbálni, és méretarányosan alkalmazva gyakran tévesek, ami hibás adatelemzéshez és a források bizalmatlanságához vezet.

A Hadoop szakértői megkíséreltek egyesíteni az adatokat

Ezért azok a szervezetek, amelyek adatforrásokat szeretnének elemezni az összes adatforráson keresztül, a Hadoop szakértőit vették igénybe, hogy egyéni, forrás-specifikus szkripteket hozzanak létre az adatkészletek összevonására. Ezek a Hadoop szakértők általában nem adatintegrációs vagy entitásmegoldási szakértők, de mindent megtesznek, hogy a szervezet azonnali szükségleteit kielégítsék. Ezek a szakértők általában a Pig vagy a Java használatával írnak kemény és gyors szabályokat, amelyek meghatározzák, hogyan lehet egyesített forrásokból származó strukturált adatokat egyesíteni, pl. Egyeztetni a rekordokat a számlaszám alapján. Miután két forrásról írtunk egy szkriptet, ha harmadik forrást kell hozzáadni, akkor az első szkriptet el kell dobni, és új forgatókönyvet kell készíteni, amely három specifikus forrás ötvözésére szolgál. Ugyanez történik, ha új forrást adunk hozzá és így tovább. Ez a megközelítés nemcsak nem hatékony, hanem méretarányos alkalmazás esetén is kudarcot vall, a szélsőséges esetek kevésbé kezeli, nagyszámú másolatú rekordot eredményezhet, és gyakran sok olyan rekordot egyesít, amelyeket nem szabad kombinálni.

Hadoop analitika: nem olyan egyszerű több adatforrás esetén

Tartalomjegyzék:

Adatok különböző forrásokból, nehéz összekapcsolni és leképezni

A Hadoop szakértői megkíséreltek egyesíteni az adatokat

4 Olyan munkahelyek vannak, amelyek nem tartanak életben - és mi fogja helyet foglalni

Hadoop analitika: külső források esetén még nehezebb

Mi az a több utasítás, több adat (mimd)? - meghatározás a techopedia alapján

Választható editor

Mi az információs adatvédelem? - meghatározás a techopedia alapján

Mi az exabita (eb)? - meghatározás a techopedia alapján

Mi az xdsl? - meghatározás a techopedia alapján

Mi az elhagyóprogram? - meghatározás a techopedia alapján

Választható editor

Mi akadályozza meg a hitet (fubb)? - meghatározás a techopedia alapján

Mi a teljes kiegészítő? - meghatározás a techopedia alapján

Mi a passzív komponens? - meghatározás a techopedia alapján

Mi a teljes szövegű adatbázis? - meghatározás a techopedia alapján

Választható editor

Mi az a vmware? - meghatározás a techopedia alapján

Mi az a webkonferencia? - meghatározás a techopedia alapján

Mi az a közvetlen wi-fi? - meghatározás a techopedia alapján

Mi a helyettesítő maszk? - meghatározás a techopedia alapján

Választható editor

Mi az a minősített azonosító? - meghatározás a techopedia alapján

Mi a sekély másolat? - meghatározás a techopedia alapján

Mi az a zárt osztály? - meghatározás a techopedia alapján

Mi az a try / catch blokk? - meghatározás a techopedia alapján

Választható editor

Mi az a baud (bd)? - meghatározás a techopedia alapján

Ki az a werner buchholz? - meghatározás a techopedia alapján

Mi a 9wm? - meghatározás a techopedia alapján

Mi az Openbox? - meghatározás a techopedia alapján

Népszerű kategóriák