Tartalomjegyzék:
Az Apache Hadoop már régóta alapja a nagy adatszolgáltatásoknak, és az alapvetõ adatplatformnak tekintik az összes nagy adatokkal kapcsolatos ajánlatot. A memóriában lévő adatbázis és a számítás azonban egyre népszerűbbé válik a gyorsabb teljesítmény és a gyors eredmények miatt. Az Apache Spark egy új keretrendszer, amely a memóriában lévő képességeket használja a gyors feldolgozás (szinte százszor gyorsabb, mint a Hadoop) végrehajtására. Tehát a Spark terméket egyre inkább használják a nagy adatok világában, elsősorban a gyorsabb feldolgozáshoz.
Internetes szeminárium: A javaslat hatalma: Hogyan képezi az adatkatalógus az elemzőket? Itt regisztrálj |
Mi az Apache Spark?
Az Apache Spark egy nyílt forráskódú keretrendszer hatalmas mennyiségű adat (nagy adat) gyors és egyszerű feldolgozására. Nagy adatokon alapuló elemző alkalmazásokhoz alkalmas. A Spark használható Hadoop környezetben, önállóan vagy a felhőben. Ezt a kaliforniai egyetemen fejlesztették ki, majd később felajánlották az Apache Software Foundation számára. Így a nyílt forráskódú közösséghez tartozik és nagyon költséghatékony lehet, ami lehetővé teszi az amatőr fejlesztők számára, hogy könnyedén dolgozzanak. (Ha többet szeretne megtudni a Hadoop nyílt forrásairól, olvassa el: Hogyan befolyásolja a nyílt forráskód az Apache Hadoop ökoszisztémáját?)
A Spark fő célja, hogy a fejlesztők számára olyan alkalmazási keretet kínál, amely egy központosított adatszerkezet körül működik. A Spark rendkívül nagy teljesítményű, és veleszületett képességével nagy mennyiségű adatot gyorsan tud feldolgozni rövid idő alatt, ezáltal rendkívül jó teljesítményt nyújtva. Ez sokkal gyorsabbá teszi, mint amit a legközelebbi versenytársának, Hadoopnak mondtak.