Tartalomjegyzék:
- Adatok különböző forrásokból, nehéz összekapcsolni és leképezni
- A Hadoop szakértői megkíséreltek egyesíteni az adatokat
A Hadoop remek hely az adatok elemzési feldolgozáshoz történő letöltésére vagy egyetlen adatforrás nagyobb mennyiségének modellezésére, amelyek a meglévő rendszerekkel nem lehetséges. Mivel azonban a vállalatok sok forrásból hoznak adatokat a Hadoop-ba, egyre növekszik az igény a különböző forrásokból származó adatok elemzésére, amelyet rendkívül nehéz elérni. Ez a bejegyzés az első egy három részből álló sorozatban, amely elmagyarázza a szervezetekkel szembesülő kérdéseket, amikor megpróbálják elemezni a Hadoop különböző adatforrásait és típusait, és hogyan tudják megoldani ezeket a kihívásokat. A mai bejegyzés a több belső forrás kombinálásakor felmerülő problémákra összpontosít. A következő két üzenet elmagyarázza, hogy ezek a problémák miért bonyolultabbá válnak, mivel hozzáadódnak a külső adatforrások, és hogy az új megközelítések miként járulnak hozzá ezek megoldásához.
Adatok különböző forrásokból, nehéz összekapcsolni és leképezni
A különféle forrásokból származó adatok eltérő struktúrájúak, és megnehezítik az adattípusok összekapcsolását és leképezését, sőt a belső forrásokból származó adatokat is. Az adatok kombinálása különösen nehéz lehet, ha az ügyfelek több számlaszámmal rendelkeznek, vagy egy szervezet megszerezte vagy egyesítette más társaságokkal. Az elmúlt években néhány szervezet megkísérelte az adatok felfedezését vagy az adatok tudományát alkalmazni a Hadoopban tárolt több forrásból származó adatok elemzésére. Ez a megközelítés problematikus, mivel sok kitalálással jár: a felhasználóknak el kell dönteni, hogy mely idegen kulcsokat kell használni a különféle adatforrások összekapcsolásához, és feltételezéseket kell tenniük az adatmodell átfedések létrehozásakor. Ezeket a kitalálatokat nehéz kipróbálni, és méretarányosan alkalmazva gyakran tévesek, ami hibás adatelemzéshez és a források bizalmatlanságához vezet.
A Hadoop szakértői megkíséreltek egyesíteni az adatokat
Ezért azok a szervezetek, amelyek adatforrásokat szeretnének elemezni az összes adatforráson keresztül, a Hadoop szakértőit vették igénybe, hogy egyéni, forrás-specifikus szkripteket hozzanak létre az adatkészletek összevonására. Ezek a Hadoop szakértők általában nem adatintegrációs vagy entitásmegoldási szakértők, de mindent megtesznek, hogy a szervezet azonnali szükségleteit kielégítsék. Ezek a szakértők általában a Pig vagy a Java használatával írnak kemény és gyors szabályokat, amelyek meghatározzák, hogyan lehet egyesített forrásokból származó strukturált adatokat egyesíteni, pl. Egyeztetni a rekordokat a számlaszám alapján. Miután két forrásról írtunk egy szkriptet, ha harmadik forrást kell hozzáadni, akkor az első szkriptet el kell dobni, és új forgatókönyvet kell készíteni, amely három specifikus forrás ötvözésére szolgál. Ugyanez történik, ha új forrást adunk hozzá és így tovább. Ez a megközelítés nemcsak nem hatékony, hanem méretarányos alkalmazás esetén is kudarcot vall, a szélsőséges esetek kevésbé kezeli, nagyszámú másolatú rekordot eredményezhet, és gyakran sok olyan rekordot egyesít, amelyeket nem szabad kombinálni.