Tartalomjegyzék:
Meghatározás - Mit jelent az Apache Pig?
Az Apache Pig egy olyan platform, amelyet nagy adatkészletek elemzésére használnak. Magas szintű nyelvből áll, amelyen keresztül elemzési programokat fejezhetnek ki, valamint ezen programok értékelési infrastruktúrájával együtt. A Pig egyik legfontosabb jellemzője, hogy szerkezete reagál a jelentős párhuzamosodásra.
A Pig a Hadoop platformon működik, adatokat ír és elolvas a Hadoop elosztott fájlrendszeréből (HDFS), és feldolgozást végez egy vagy több MapReduce job segítségével. Az Apache Pig nyílt forráskódban érhető el.
Az Apache Pig sertés programozási nyelvnek vagy Hadoop Pig néven is ismert.
A Techopedia magyarázza az Apache Pig-ot
Az Apache Pig két részből áll: Pig Latin nyelv és Pig motor. A disznó latin nyelv egy szkriptnyelv, amely lehetővé teszi a felhasználók számára, hogy szemléltessék az egy vagy több bemenetből származó adatáramlás leolvasásának és feldolgozásának módját, valamint a tárolás helyét.
A Pig Latin néhány fő tulajdonsága a következő:
- Könnyen programozható: A bonyolult, egymással összekapcsolt adat-transzformációkból álló feladatok egyértelműen kódolva vannak adatfolyam-szekvenciákként. Ez egyszerűvé teszi őket az írás, megértés és karbantartás szempontjából.
- Optimalizálási lehetőségek: A feladatok kódolása lehetővé teszi a rendszer számára az automatikus végrehajtás optimalizálását. Ez lehetővé teszi a felhasználó számára, hogy a hatékonyság helyett a szemantikára figyeljen.
- Bővíthetőség: A felhasználók megengedhetik saját funkcióik létrehozását a speciális feldolgozás elvégzéséhez. A Pig motor felelős a Pig Latin nyelvű adatfolyam végrehajtásáért. Hasonlóan a szokásos relációs adatbázis-kezelő rendszer (RDBMS) kialakításához, az Apache Pig elemzőből, optimalizálóból és típusellenőrzőből áll, valamint az adatfeldolgozást végző operátorokon kívül. A Pig nem tartalmazza a tranzakciókat, az adatkatalógust vagy az adatok tárolásának közvetlen kezelésének vagy a végrehajtási keret alkalmazásának a képességét.