Tartalomjegyzék:
Az SQL on Hadoop egy olyan elemző alkalmazás eszköz, amely ötvözi az SQL stílusú lekérdezést és az adatok feldolgozását a legújabb Hadoop adatkeret elemekkel. Az SQL megjelenése a Hadoop-ban fontos fejlemény a nagy adatfeldolgozáshoz, mivel lehetővé teszi az emberek szélesebb csoportjai számára a Hadoop adatfeldolgozási keretrendszerének sikeres működését azáltal, hogy SQL lekérdezéseket futtat a Hadoop által feldolgozott nagy adatok óriási mennyiségére. Nyilvánvaló, hogy a Hadoop keretrendszere korábban nem volt olyan hozzáférhető az emberek számára, különösen a lekérdezési képességei szempontjából. A fejlesztés alapján számos olyan eszköz található a munkában, amelyek ígéretet tesznek a vállalkozások termelékenységének javítására, amikor a nagy adatok minőségi és gyors feldolgozása és elemzése megtörténik. Ugyanakkor nem kell sokat fektetni az eszköz megtanulására, ahogy ezt az SQL hagyományos ismereteinek meg kell tenniük.
Az SQL meghatározása a Hadoop-on
Az SQL on Hadoop egy olyan alkalmazáscsoport, amely lehetővé teszi SQL stílusú lekérdezések futtatását a Hadoop adatfeldolgozási keretrendszere által tárolt nagy adatokon. Nyilvánvaló, hogy az SQL hozzáadása a Hadoop-on könnyebbé tette az adatok lekérdezését, visszakeresését és elemzését. Mivel az SQL-t eredetileg relációs adatbázisokhoz fejlesztették ki, azt a Hadoop 1 modellnek, amely tartalmazza a MapReduce-t és a Hadoop elosztott fájlrendszert (HDFS), és a Hadoop 2-modellnek, amely nem rendelkezik MapReduce és HDFS-ekkel.
Az SQL és a Hadoop kombinálásának egyik legkorábbi kísérlete a Hive adattárház létrehozását eredményezte a HiveQL szoftverrel, amely lefordíthatja az SQL stílusú lekérdezéseket MapReduce jobokká. Ezt követően számos alkalmazást fejlesztettek ki, amelyek hasonló feladatokat tudnak végezni. A későbbi eszközök közül kiemelkedőek a Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) és Tez (Hive on Tez).