Itthon Hardver Nagy vas, találkozz nagy adatokkal: felszabadítva a mainframe-adatokat hadoop és szikra segítségével

Nagy vas, találkozz nagy adatokkal: felszabadítva a mainframe-adatokat hadoop és szikra segítségével

Anonim

A Techopedia munkatársai, 2016. június 2

Elvihető: A Hadoop ökoszisztémát a nagygépeken használják a nagy adatok gyors és hatékony feldolgozására.

Jelenleg nincs bejelentkezve. Kérjük, jelentkezzen be vagy jelentkezzen be a videó megtekintéséhez.

Eric Kavanagh: Oké, hölgyeim és uraim! Csütörtökön négy óra van keletre, és manapság ez azt jelenti, hogy itt az ideje a Hot Technologies számára. Igen, nevem Eric Kavanagh. A mai webes szeminárium moderátora vagyok. Ez jó cucc, emberek, „Nagy vas, találkozz a nagy adatokkal” - imádom ezt a címet - „A mainframe adatok felszabadítása a Hadoop és a Spark segítségével.” A régi találkozókról az újokra fogunk beszélni. Azta! Minden olyan spektrumot lefedünk, amiről beszéltünk a vállalati informatika elmúlt 50 évében. A Spark megfelel a nagygépeknek, imádom.

Van egy hely az önénél, és elég rólam. Az év forró. A sorozat forró témáiról beszélünk, mert valóban megpróbálunk segíteni a népeket bizonyos tudományágak, bizonyos terek megértésében. Mit jelent például egy analitikai platform létrehozása? Mit jelent a nagy adatok felszabadítása a nagygépről? Mit jelent ezek a dolgok? Igyekszünk segíteni abban, hogy megértse az egyes technológiák fajtáit, ahol azok illeszkednek a keverékbe, és hogyan lehet ezeket felhasználni.

Két elemzőnk van ma, majd természetesen Tendü Yogurtçu, a Syncsort. A térségben látnok, nagyon örül, hogy ma elérhető online, a saját Dez Blanchfield és Dr. Robin Bloor társaságunkkal. Csak néhány gyors szót mondok. Az egyik az, hogy emberek, nagy szerepet játszik ebben a folyamatban, ezért kérjük, ne félj néhány jó kérdést feltenni. Szeretnénk velük érkezni a webcast Q & A komponense alatt, ami általában a show végén van. És csak annyit kell mondanom, hogy nagyon sok jó tartalommal rendelkezik, tehát izgatottan hallom, hogy ezeknek a fiúknak mit mondanak. És ezzel átadom Dez Blanchfieldnek. Dez, a padló a tied, vedd el.

Dez Blanchfield: Köszönöm, Eric, és köszönöm mindenkinek, hogy részt vett a mai napon. Tehát nagyon izgatott vagyok, amikor lehetőségem van a világ egyik kedvenc dolgáról, a mainframekről beszélni. Manapság nem szeretnek nagy szerelem. Véleményem szerint a mainframe volt az eredeti nagy adatplatform. Néhányan azt állítják, hogy akkoriban az egyetlen számítógép volt, és ezt érdemes megmondani, ám most már több mint 60 éve valójában a motor helyisége annak a motornak, amely a későbbiekben népszerű volt a nagy adat. És megyek egy kis utazásra, hogy miért gondolom, hogy ez a helyzet.

Láthattunk egy utat a technológiai hardverkötegekben a mainframe-k összefüggésében, ahogy a képernyőn most látható képtől eltérnek. Ez egy régi FACOM mainframe, az egyik kedvencem. Átvittünk magunkat a nagy vasfázisba, a kilencvenes évek végére és a dot-com boomba. Ez a Sun Microsystems E10000. Ez a dolog abszolút szörnyeteg volt 96 processzornál. Eredetileg 64, de 96 CPU-val bővíthető. Minden CPU 1024 szálat futtathatott. Minden szál egyidejűleg alkalmazható lehet. Csak szörnyű volt, és valójában meghajtotta a dot-com gémet. Ez a nagy egyszarvúak, ahogyan nevezzük őket, most működünk, és nem csak a nagyvállalatok, néhány nagy weboldal.

És akkor végül ez a közönséges árucikkek PC modellje lett. Csak nagyon sok olcsó gépet összekapcsoltunk és létrehozott egy klasztert, és közeledtünk a nagy vas kihíváshoz, és ami nagy adattá vált, különösen a Hadoop projekt formájában, amely a nyílt forráskódú keresőmotor, a Nutch eredményeként jött létre. És alapvetően újra létrehoztuk a nagygépet és sok kis CPU-t, amelyek össze vannak ragasztva, és képesek L-utakként viselkedni, különálló feladatok vagy munkadarabok futtatása formájában, és sok szempontból meglehetősen hatékonyak. Olcsóbb, ha kisebbel indulsz, de ezeknek a nagy klasztereknek mindig sokkal drágábbak lettek, mint egy mainframe-nél.

Véleményem ezekre a dolgokra az, hogy a dot-com fellendüléstől a Web 2.0-ig átalakulva és az egyszarvúak üldözéséig elfelejtettük, hogy ez a platform még mindig táplálja a legnagyobb küldetés-kritikus rendszerünket. Amikor arra gondolunk, hogy mi fut a nagygépek platformon, odakint. Nagyon nagy adatai, különösen az adatforgalom, de minden bizonnyal nagy adatok. Hagyományos vállalati és kormányzati rendszereket, mint például a banki, vagyonkezelési és biztosítási rendszereket, mindannyian minden nap használjuk.

Légitársaság foglalási és repülési menedzsment rendszerek, különösen repülési menedzsment rendszerek, ahol a valós idő kritikus. Szinte minden államnak és szövetségi kormánynak valamikor volt egy mainframe rendszere, és változatlanul sokan még mindig rendelkeznek velük. Kiskereskedelem és gyártás. A régi szoftverek egy része, amely éppen ott volt, és soha nem ment el. Csak folytatja az energiaellátást a gyártási környezetben és természetesen kiskereskedelemben is. Orvosi rendszerek. Védelmi rendszerek, természetesen védelmi rendszerek.

Az elmúlt néhány hétben sok cikket olvastam arról a tényről, hogy a rakétavezérlő rendszerek némelyike ​​még mindig működik régi nagygépeken, amelyekhez alkatrészeket keresnek. Megtalálják, hogyan lehet frissíteni az új mainframe-ekre. Közlekedési és logisztikai rendszerek. Lehet, hogy ezek nem tűnnek úgy, mint a szexi témák, de ezek azok a témák, amelyekkel napi rendszerességgel foglalkozunk. És néhány nagyon nagy távközlési környezetet továbbra is a mainframe platformon futnak.

Amikor azokra a típusú adatokra gondolunk, amelyek mind vannak, mind kritikus fontosságúak. Nagyon fontos platformok és platformok, amelyeket minden nap magától értetődőnek tekintünk, és sok szempontból lehetővé teszik az életet. Szóval ki továbbra is használ egy mainframe-t, és kik ezek az emberek, akik tartják ezeket a nagy platformokat, és birtokolják ezeket az adatokat? Nos, ahogy itt mondtam, azt hiszem, hogy könnyű becsapni a média elmozdulása a nagy vasról a közönséges elkülönített klaszterekre vagy olcsó PC-kre vagy x86 gépekre, gondolkodásuk szerint a mainframe meghalt és elment. Az adatok szerint a mainframe soha nem ment el, és valójában itt van, hogy maradjon.

Az utóbbi néhány hétben itt összegyűjtött kutatás kimutatta, hogy a vállalkozások, különösen a nagyvállalatok 70% -a továbbra is valamilyen formájú mainframe-en működik. A Fortune 500-k hetven egy százaléka továbbra is valamelyik mainframe-en működteti az alapvető üzleti rendszereket. Valójában itt, Ausztráliában, számos szervezettel rendelkezik, amelyeknek adatközpontja van a város közepén. Ez ténylegesen egy tényleges földalatti számítógép, és a nagyszámú számítógépes rendszer csak ott fut, ketyeg, és boldogan elvégzi munkáját. És nagyon kevesen tudják, hogy az utcán sétálva, közvetlenül a lábuk alatt a város egy bizonyos részén, ott van ez a hatalmas adatközpont, tele mainframekkel. A világ 100 bankjának kilencvenkettője, azaz a 100 legnagyobb bank, még mindig működtet bankrendszereket nagygépeken. A világ 25 legnagyobb kiskereskedelmi láncának huszonhárom mainframe-t használ, hogy továbbra is működtesse kiskereskedelmi irányítási rendszerét az EIP és a BI platformon.

Érdekes módon a tíz 10 biztosító közül 10 továbbra is mainframe-en futtatja platformokat, és valójában felhőalapú szolgáltatásaikat mainframe-en hajtja végre. Ha olyan webes felületet vagy mobilalkalmazást használ, ahol a köztes szoftverhez egy felület tartozik, akkor az valójában valami nagyon nehéz és nagy beszélgetővel beszél a hátsó részen.

Találtam világszerte több mint 225 állami és önkormányzati ügynökséget, amelyek továbbra is mainframe platformon működnek. Biztos vagyok benne, hogy ennek nagyon sok oka van. Lehet, hogy nincs költségvetésük az új vas megfontolására, de ez óriási lábnyom nagyon nagy környezetekben, amelyek mainframe-en futnak, nagyon kritikus adatokkal. És amint már korábban említettem, a legtöbb nemzet továbbra is a mainframe-en működteti kulcsfontosságú védelmi rendszereit. Biztos vagyok abban, hogy sok szempontból megpróbálnak elmenni, de odamennek.

2015-ben az IDC felmérést végzett, és a megkérdezett CIO-k 350 közül beszámolt arról, hogy továbbra is nagy vastartalmúak birtoklása és kezelése nagygépek formájában. És meglepőnek találtam, hogy valószínűleg nem csak a nagy kiterjedésű Hadoop-klaszterek száma, amelyek jelenleg a világszerte működnek a termelésben - érdekes kis stat itt. Megyek előre és érvényesítem ezt, de ez nagy szám volt. Háromszázötven CIO-nak számoltak be arról, hogy egy vagy több mainframe továbbra is gyártásban van.

Tavaly, 2015-ben az IBM megadta nekünk a hatalmas Z13-at, a mainframe platform 13. iterációját. A média vadul ment erről a dologról, mert meglepődtek, hogy az IBM még mindig nagygépeket készít. Amikor felemelte a motorháztetőt, és megnézte, mi van a dolog alatt, rájöttek, hogy valójában megegyezik a szinte minden modern platformon, amelyről nagy adat formájában izgalmaztunk, a Hadoop és természetesen a klaszterek. Ez a dolog Sparknak és most Hadoopnak futott benned. Ezer és ezer Linux gépet futtathatott rajta, és úgy nézett ki és érezte magát, mint bármely más fürt. Nagyon meghökkentő gép volt.

Számos szervezet vette fel ezeket a dolgokat, és valójában néhány adatot adtam arról, hogy ezeknek a gépeknek hányszor vesznek részt. Most úgy gondoltam, hogy a 3270 szöveges terminált egy ideje felváltotta a böngésző és a mobil alkalmazás, és rengeteg adat támogatja ezt. Azt hiszem, most egy olyan korszakba lépünk, ahol rájöttünk, hogy ezek a mainframe-k nem mennek el, és rengeteg adat van róluk. Tehát most azt csináljuk, hogy egyszerűen hozzáadjuk az általam elkészített elemző eszközöket. Ezek nem egyedi alkalmazásból készített alkalmazások. Ezek olyan dolgok, amelyekre egyszeri intézkedések vonatkoznak. Ezek olyan dolgok, amelyeket szó szerint önmagában is csak csomagolt dobozban vásárolhat, és bekapcsolhatja a nagygépet, és végezhet elemzést.

Ahogy korábban mondtam, a mainframe valójában több mint 60 éve működik. Ha arra gondolunk, mennyi ideig ez, akkor ez hosszabb, mint a legtöbb élő IT-szakember karrierje ténylegesen megtelik. És valójában valószínűleg életük egy része is. 2002-ben az IBM 2300 nagygépet értékesített. 2013-ban ez 2700 mainframe-re nőtt. Ez egy 2700 nagygépek eladása egy év alatt 2013-ban. Nem tudtam pontos adatokat szerezni a 2015-ről, de azt hiszem, hogy gyorsan megközelíti a 2013-ban, 2013-ban évente eladott 3000 egységet. Várom, hogy ezt meg tudom erősíteni.

A Z13 megjelenésével a mainframe platform 13. iterációja, amelynek szerintem körülbelül 1, 2 vagy 1, 3 milliárd dollárba kerültek a fejlesztés a nulláról, azaz az IBM: itt van egy olyan gép, amely úgy néz ki és érzi magát, mint bármely más klaszter, amely van ma, és natív módon futtatja a Hadoopot és a Sparkot. Biztosan kapcsolódhat más elemző eszközökhöz és nagy adat eszközökhöz, vagy mindig csatlakoztatható a meglévő vagy új Hadoop fürtökhöz. Véleményem szerint kötelező a mainframe platform beépítése a nagy adat stratégiájába. Nyilvánvaló, hogy ha van ilyen, rengeteg adatot kaptál, és kitalálni szeretnéd, hogyan lehet azt ott leszerezni. És sok módon, szellemileg és érzelmileg hagyják őket porgyűjtésben, amennyire az üzleti világ megy, de ők itt maradnak.

Az összes elemző eszköz csatlakoztathatóságának és interfészeinek a mainframe által üzemeltetett adatokhoz a vállalkozás kulcsfontosságú részét kell képeznie, különös tekintettel az állami nagy adattervekre. És változatlanul most a szoftverek észreveszik őket, hosszú ideig átnézve rájuk, észreveszik, mi van ezekben a dolgokban, és összekapcsolják az elméket, amelyek némi betekintést és érzést kapnak a motorháztető alatt. És ezzel átadom drága kollégámnak, Dr. Robin Bloornak, és ő hozzáteszi ehhez a kis utazáshoz. Robin, vedd el.

Robin Bloor: Nos, köszönöm. Oké, mióta Dez énekelte a mainframe dalt, megvizsgálom azt, ami szerintem a régi mainframe világ és az új Hadoop világ vonatkozásában történik. Azt hiszem, itt a nagy kérdés, hogyan kezeli ezeket az adatokat? Nem az a véleményem, hogy a nagygépet nagy adatátviteli képességük miatt megtámadják - nagy adatátviteli képessége rendkívüli, ahogyan azt Dez rámutatott, rendkívül képes. Valójában rá lehet helyezni a Hadoop klasztereket. Ahol ez kihívást jelent, az ökoszisztéma szempontjából szól, és ezt részletesebben kidolgozom.

Itt van néhány mainframe pozicionálás. Magas belépési költségekkel jár, és ami valóban történt a múltban, a '90 -es évek közepe óta, amikor a mainframe-k népszerűsége csökkenni kezdett, általában véve elvesztette alacsony színvonalát, azok az emberek, akik olcsó mainframe-kat vásároltak, Nem igazán gazdasági szempont az emberek számára. De magasabbra a nagygépek közép- és nagy tartományában, még mindig valóban hihetetlenül olcsó számítástechnika volt, és bizonyíthatóan valójában ez is.

Azt kell mondani, hogy a Linux megmentette, mert a nagygépen megvalósított Linux természetesen lehetővé tette az összes Linux alkalmazás futtatását. Nagyon sok Linux alkalmazás ment oda, mielőtt a nagy adat még szó vagy két szó lenne. Ez valójában egy meglehetősen kiváló platform a privát felhő számára. Emiatt részt vehet a hibrid felhő telepítésekben. Az egyik probléma az, hogy a mainframe készségek hiányosak. A meglévő mainframe készségek valójában elöregednek abban az értelemben, hogy az emberek évről évre nyugdíjba vonulnak és az emberek számát tekintve csak felváltják őket. Szóval ez egy probléma. De még mindig olcsó számítástechnika.

A terület, ahol természetesen kihívást jelent, ez az egész Hadoop-dolog. Ez egy kép a Doug Cuttingról az eredeti Hadoop elefánttal. A Hadoop ökoszisztéma - és meg fog maradni - az uralkodó nagy adatökoszisztéma. Jobb skálát kínál, mint a mainframe valóban képes elérni, és hosszú távon alacsonyabb adattárolási költségekkel jár. A Hadoop ökoszisztéma fejlődik. A legjobb módszer erre a gondolatra, ha egy adott hardverplatform és az azzal működő környezet dominánsvá válik, akkor az ökoszisztéma csak életre kel. És ez történt az IBM nagyszámítógépeivel. Nos, később történt a Digital VAX-kel, történt a Sun szervereivel, történt a Windows-kal, történt a Linux-nal.

És ami történt, az a Hadoop, amelyre mindig mint egyfajta elosztott környezetre gondolok, vagy szeretnék gondolkodni róla, az ökoszisztéma hihetetlen ütemben fejlődik. Úgy értem, ha megemlíti a nyílt forráskódú, a Spark, az Flink, a Kafka, a Presto, és a különféle lenyűgöző közleményeket, majd hozzáadja az adatbázisok, a NoSQL és az SQL képességek néhány részét, amelyek a Hadoop-on ülnek. A Hadoop a legaktívabb ökoszisztéma, amely valójában ott létezik, természetesen a vállalati számítástechnika területén. De ha adatbázisként szeretnénk kezelni, akkor ez egyáltalán nem tartalmaz összehasonlítást azzal, amit inkább valódi adatbázisnak gondolok, különösen az adattárházban. És ez bizonyos mértékig magyarázza számos olyan nagy NoSQL adatbázis eredményességét, amelyek nem futnak a Hadoop-on, mint például a CouchDB és így tovább.

Adattóként sokkal gazdagabb ökoszisztémájú, mint bármely más platformon, és nem fogja eltolni tőle. Ökoszisztéma nemcsak a nyílt forrású ökoszisztéma. Jelenleg drámai számú szoftver tag van, amelyek olyan termékeket tartalmaznak, amelyek alapvetően a Hadoop számára készültek, vagy amelyeket a Hadoopba importáltak. És csak olyan ökoszisztémát hoztak létre, amelyben senki sem versenyt vele szélessége szempontjából. És ez azt jelenti, hogy valóban ez a nagy adatinnováció platformja lett. De véleményem szerint ez még mindig éretlen, és hosszú vitákat folytathattunk arról, hogy mi van és mi, mondjuk, a működés szempontjából érett a Hadoopmal, de azt hiszem, hogy a legtöbb ember, aki ezt a konkrét területet vizsgálja, tisztában van azzal, hogy Hadoop évtizedek óta áll a mainframe alatt a működési képesség szempontjából.

A fejlődő adattó. Az adat-tó bármilyen meghatározás szerint egy platform, és ha úgy gondolja, hogy létezik adatréteg a vállalati számítástechnikában, akkor nagyon könnyű rá gondolni a rögzített adatbázisok, valamint az adatréteget alkotó adat-tó szempontjából. Az adattó-alkalmazások sokféle és változatosak. Nekem van egy diagramom, amely csak azokra a különféle adatzavaró dolgokra megy keresztül, amelyeket meg kell tenni, ha a Hadoop-ot állítja megállási területként, vagy a Hadoop-t és a Spark-t egy megállási területként. És megvan az egész - adatvonal, adattisztítás, metaadatkezelés, metaadat-felfedezés - magában az ETL-ben is használható, de gyakran megköveteli az ETL-től az adatok bevitelét. Mester adatkezelés, az adatok üzleti meghatározása, a szolgáltatás kezelése mi történik a Hadoopban, az adatok életciklus-menedzselésében és az ETL-ben a Hadoopból, valamint közvetlen analitikai alkalmazások is vannak, amelyeket futtathat a Hadoop-on.

És ezért válik nagyon hatalmasá, és ott, ahol sikeresen végrehajtották és bevezetik, általában legalább egy ilyen típusú alkalmazás fut rajta. És az alkalmazások többsége, különösen azok, amelyekről már tájékoztatták őket, manapság csak nem érhetők el a mainframe-en. De futtathatja őket a mainframe-en, egy Hadoop-fürtön, amely a mainframe partíciójában futott.

Az adattó véleményem szerint a gyors adatbázis-elemzés és a BI természetes megállóhelyévé válik. Ez lesz az a hely, ahol az adatokat felveszik, legyen szó vállalati vagy külső adatokról, és zavarja addig, amíg, mondjuk, nem elég tiszta a felhasználáshoz és jól felépítve a felhasználáshoz, majd továbbadja. És mindez még gyerekcipőben jár.

Véleményem szerint a mainframe / Hadoop együttélésről van szó, az első dolog az, hogy a nagyvállalatok valószínűleg nem hagyják abba a mainframe-et. Valójában azok a jelek, amelyeket a közelmúltban láttam, azt sugallják, hogy növekvő befektetés mutatkozik a mainframe-ben. De a Hadoop ökoszisztémáját sem hagyják figyelmen kívül. Látom a Hadoopot használó nagyvállalatok 60% -át, még akkor is, ha sokuk valójában csak prototípusokat készít és kísérletezik.

A feltevés akkor az: „Hogyan lehet, hogy ez a két dolog együtt létezzen?”, Mert nekik adatot kell megosztaniuk. Az adat-tóba bevitt adatok, amelyeket át kell adniuk a mainframe-hez. Előfordulhat, hogy a mainframe-en lévő adatokhoz az adat-tóhoz vagy az adat-tóba kell jutniuk, hogy más adatokhoz kapcsolódhassanak. És ez meg fog történni. És ez azt jelenti, hogy gyors adatátvitelt / ETL-képességet igényel. Nem valószínű, hogy a munkaterheléseket dinamikusan megosztják majd egy, például egy mainframe környezetben, vagy valami Hadoop környezetben. Adatok lesznek megosztva. És az adatok többsége elkerülhetetlenül a Hadoop-n fog tartózkodni, csak azért, mert ez a legolcsóbb platform. És a végpontok közötti analitikai feldolgozás valószínűleg ott is fog tartózkodni.

Összefoglalva: végül a vállalati adatrétegre kell gondolkodnunk, amely sok vállalat számára magában foglalja a mainframe-t. És ezt az adatréteget proaktív módon kell kezelni. Ellenkező esetben a kettő nem fog együtt létezni. Átadhatom a labdát neked Eric.

Eric Kavanagh: Ismét a Tendü-ből éppen téged rendeztem, szóval vegye el.

Tendü Yogurtçu: Köszönöm, Eric. Köszönöm, hogy vagy nekem. Helló mindenki. Az Syncsort ügyfelekkel kapcsolatos tapasztalatáról fogok beszélni azzal kapcsolatban, hogy az adatokat eszközként látjuk-e a szervezetben - a mainframe-től a big data-ig az analitikai platformon. És remélem, hogy az ülés végén is lesz idejük arra, hogy kérdéseket tegyünk fel a közönséggel, mivel ez valójában ezeknek a web-adásoknak a legértékesebb része.

Csak azoknak az embereknek, akik nem tudják, mit csinál a Syncsort, a Syncsort egy szoftvercég. Valójában több mint 40 éve vagyunk. A nagygépek oldalán kezdték el, és termékeink a mainframe-től az Unix-ig egészen a nagy adatplatformokig terjednek, beleértve a Hadoopot, a Sparkot, a Splunkot, mind a helyszínen, mind a felhőben. A figyelmünk mindig az adattermékekre, az adatfeldolgozásra és az adatok integrálására irányult.

A nagy adatokra és a Hadoopra vonatkozó stratégiánk az első naptól kezdve valóban az ökoszisztéma részévé vált. Mint a nagyon könnyű motorokkal történő adatfeldolgozásra koncentráló gyártók tulajdonosai, nagyszerű lehetőségünk volt a részvétel a Hadoop adatfeldolgozó platformmá válásában és a szervezet következő generációs adattárház-architektúrájának részeként. 2011 óta közreműködünk a nyílt forráskódú Apache projektekben, kezdve a MapReduce-val. A Hadoop 2. verziójának első tízében álltak, és valójában több projektben is részt vettek, beleértve a Spark csomagokat is, néhány csatlakozónk a Spark csomagokban jelenik meg.

Kihasználjuk a nagyon könnyű adatfeldolgozó motorunkat, amely teljesen lapos fájl-alapú metaadatok, és nagyon jól illeszkedik az elosztott fájlrendszerekhez, mint például a Hadoop Distributed File System. És kihasználjuk örökségünket a mainframe-on, az algoritmusokkal kapcsolatos szakértelmünket, amikor nagy adattermékeinket elkészítjük. És nagyon szorosan együttműködünk a nagy forgalmazókkal, a fő szereplőkkel, ideértve a Hortonworks-et, a Clouderat, a MapR-t, a Splunk-ot. A Hortonworks nemrégiben bejelentette, hogy a Hadoopmal való fedélzetre szállításra szánt terméket értékesítik az ETL számára. A Dell és a Cloudera-val nagyon szoros partnerkapcsolatunk van, amely szintén viszonteladja ETL termékünket a nagy adatkészülékük részeként. És valójában a Splunkkal közzéteszünk egy mainframe telemetriai és biztonsági adatokat a Splunk műszerfalán. Szoros partnerkapcsolatunk van.

Mi gondolja minden C-szintű vezetőt? Valójában ez: „Hogyan tudom felhasználni az adataimat?” Mindenki nagy adatokról beszél. Mindenki a Hadoopról, a Sparkról beszél, a következő számítógépes platformról, amely segíthet az üzleti agilitás megteremtésében és új transzformációs alkalmazások megnyitásában. Új piaci lehetőségek. Minden egyes ügyvezető gondolkodásmódja: „Mi az adataim stratégiája, mi az én kezdeményezéseim, és hogyan tudom megbizonyosodni arról, hogy ne maradjak hátra a versenyemben, és továbbra is ezen a piacon vagyok a következő három évben?” ezt úgy látjuk, amikor ügyfeleinkkel beszélünk, miközben beszélünk globális ügyfélkörünkkel, amely meglehetősen nagy, ahogy el tudod képzelni, mivel egy ideje itt vagyunk.

Ahogy ezekkel a szervezetekkel beszélünk, ezt láthatjuk a technológiai halomban a Hadoop-nal történt zavarban is. Valójában annak érdekében, hogy eleget tegyenek az adatokkal mint eszközkel szemben támasztott igényeknek. A szervezet összes adatainak kiaknázása. És láttuk, hogy a vállalati adattárház-architektúra úgy fejlődik, hogy a Hadoop a modern adat-architektúra új központi eleme. És az ügyfelek többsége - akár pénzügyi szolgáltatások, akár biztosítás, akár kiskereskedelem - általában a kezdeményezés vagy a Hadoop, mint szolgáltatás, vagy adat, mint szolgáltatás. Mivel mindenki megpróbálja hozzáférhetővé tenni az adatelemeket akár külső, akár belső ügyfelei számára. És néhány szervezetben olyan kezdeményezéseket látunk, mint szinte adatpiac ügyfeleik számára.

És ennek egyik első lépése a vállalati adatközpont létrehozása. Az embereket néha adat-tónak hívják. A vállalati adatközpont létrehozása valójában nem olyan egyszerű, mint amilyennek hangzik, mert valójában megköveteli a vállalati adatok gyakorlati elérését és gyűjtését. És ezek az adatok most az összes új forrásból származnak, mint például a mobil érzékelők, valamint a régi adatbázisok, és kötegelt és streaming módban vannak. Az adatintegráció mindig is kihívást jelentett, ugyanakkor az adatforrások számának és sokféleségének, valamint a különböző kézbesítési stílusoknak köszönhetően, akár kötegelt, akár valósidejű adatfolyamként, most még nagyobb kihívást jelent, mint öt évvel ezelőtt, tíz évvel ezelőtt. Néha arra hivatkozunk, hogy: „Ez már nem az apád ETL-je.”

Tehát a különféle adatállományokról beszélünk. Mivel a vállalkozások megpróbálják értelmezni az új adatokat, a mobil eszközöktől gyűjtött adatokat, legyen az autógyártó érzékelője vagy egy mobil szerencsejáték-társaság felhasználói adatai, gyakran hivatkozniuk kell a a vállalkozás, amely például vevőinformáció. Ezek a legkritikusabb adatkészletek gyakran a mainframe-en élnek. A nagyszámítógép-adatokkal való összekapcsolás ezekkel a feltörekvő új forrásokkal, amelyeket a felhőben gyűjtöttek, mobilon keresztül gyűjtöttek, egy japán autógyártó cég gyártósorán vagy a tárgyak internetes alkalmazásaiban gyűjtöttek, ennek az új adatnak meg kell értenie a régebbi adatkészletekre való hivatkozással. És ezek a régi adatkészletek gyakran a mainframe-en találhatók.

És ha ezek a cégek nem képesek erre, nem képesek bekapcsolni a mainframe adatait, akkor elmulasztott lehetőség van. Ekkor az adatok szolgáltatásként, vagy az összes vállalati adat kihasználása valójában nem érinti a szervezet legkritikusabb eszközeit. Itt van még a telemetriai és a biztonsági adatok része, mivel nagyjából az összes tranzakciós adat a mainframe-en működik.

Képzelje el, hogy ATM-be megy, és azt hiszem, hogy az egyik résztvevő üzenetet küldött a résztvevőknek a bankrendszer védelmére, amikor ellopja a kártyáját, hogy a tranzakciós adatok világszerte a mainframe-en vannak. A biztonsági adatok és a telemetriai adatok biztonságos tárolása és gyűjtése a nagygépektől, és azok rendelkezésre bocsátása akár a Splunk műszerfalakon, akár másokon keresztül, a Spark, SQL, kritikusabbá válik, mint valaha, az adatmennyiség és az adatok sokfélesége miatt.

A készségek meghatározása az egyik legnagyobb kihívás. Mivel egyrészt van egy gyorsan változó nagy adathalmaza, nem tudja, melyik projekt fog túlélni, melyik projekt nem fog túlélni, fel kell-e bérelnem Hive vagy Pig fejlesztőket? Be kellene fektetnem a MapReduce-ba vagy a Spark-ba? Vagy a következő dolog, Flink - mondta valaki. Be kellene fektetnem az egyik ilyen számítógépes platformon? Egyrészt kihívás a lépést tartani a gyorsan változó ökoszisztémával, másrészt rendelkeznek ezekkel a régi adatforrásokkal. Az új készségek nem igazán felelnek meg, és problémája lehet, mert ezek az erőforrások valójában visszavonulnak. Nagyon nagy a szakadék az emberek képességei között, akik megértik ezeket a régi adathalmazokat, és akik megértik a kialakulóban lévő technológiai halmazt.

A második kihívás a kormányzás. Amikor valóban hozzáfér az összes vállalati adathoz platformon keresztül, vannak olyan ügyfelek, akik aggályaikat fejezték ki amiatt, hogy „Nem akarom, hogy az adataim földet érjenek. Nem szeretném, ha adataimat több helyen másolnám, mert a lehető legnagyobb mértékben el akarom kerülni a többszörös másolatokat. Teljes hozzáférést akarok elérni anélkül, hogy a közepére kellene leraknom. ”Ezen adatok kezelése kihívássá válik. A másik rész az, hogy ha szűk keresztmetszetű adatokhoz fér hozzá, ha adatainak nagy részét a felhőben gyűjti, és a régi adatokhoz hozzáfér, és ezekre hivatkozik, akkor a hálózati sávszélesség kérdésré válik, klaszterplatformként. Számos kihívás van ezen a nagy adat-kezdeményezéssel és a fejlett elemző platformokkal, és mégis az összes vállalati adat kiaknázásával.

Amit a Syncsort kínál, „egyszerűen a legjobbnak” hívjuk bennünket, nem azért, mert egyszerűen a legjobbak vagyunk, de ügyfeleink valóban minket hivatkoznak ránk, mint a legjobbak a nagygépek adatainak elérésére és integrálására. Támogatjuk a mainframe összes adatformátumát, és elérhetővé teszjük a nagy adatok elemzésére. Legyen az a Hadoop-on vagy a Spark-on, vagy a következő számítógépes platformon. Mivel termékeink valóban szigetelik a számítógépes platform komplexitását. Fejlesztőként potenciálisan laptopot fejleszt, és az adatcsatornára és az adatok előkészítésére összpontosít, lépéseket tesz arra, hogy ezeket az adatokat az elemzéshez készítse, a következő szakaszra, és ugyanazt az alkalmazást a MapReduce alkalmazásba vigye, vagy ugyanaz az alkalmazás a Sparkban.

Segítettünk abban, hogy ügyfeleink ezt megtehessék, amikor a YARN elérhetővé vált, és alkalmazásaikat a MapReduce 1. verziójáról a YARN-re kellett helyezniük. Segítünk nekik ugyanezben az Apache Spark-ban. Termékünk, az új 9. kiadás a Spark-lal is fut, és dinamikus optimalizálással érkezik, amely szigetelni fogja ezeket az alkalmazásokat a jövőbeli számítógépes keretek számára.

Tehát hozzáférhetünk a nagyszámítógépes adatokhoz, függetlenül attól, hogy VSAM fájlok, DB2, vagy telemetriai adatok, például SMF rekordok, Log4j vagy syslogs -, amelyeket a Splunk irányítópulton keresztül kell megjeleníteni. Míg ezt megteszi, mivel a szervezet ki tudja használni a meglévő adatmérnöki vagy ETL készségkészletét, a fejlesztési idő jelentősen lecsökken. Valójában a Dell és a Cloudera esetében szponzorált független benchmark volt, és ez a benchmark arra a fejlesztési időre összpontosított, amely kézi kódolással vagy más eszközök, például Syncsort használatával jár, és ez körülbelül 60, 70% -kal csökkentette a fejlesztési időt . A készségek áthidalása megkülönbözteti a különbségeket csoportok között, az adatfájl-gazdagépek között, valamint az adatfájl-gazdagépek között az emberek szempontjából.

Általában a nagy adatcsoport, vagy az adatgyűjtő csapat, vagy az a csapat, amelynek feladata ezeknek az adatoknak a szolgáltatás architektúrájának fejlesztése, nem feltétlenül beszélnek a mainframe csoporttal. Szinte sok szervezetben akarják minimalizálni ezt az interakciót. E hiányosság megszüntetésével haladtunk. És a legfontosabb az egész folyamat biztosítása. Mivel a vállalkozásban, amikor ilyen érzékeny adatokkal foglalkozik, számos követelmény merül fel.

A nagyon szabályozott iparágakban, mint például a biztosítás és a bankok, az ügyfelek azt kérdezik, hogy „Ön felajánlja ezt a nagyszámítógépes adathozzáférést, és ez nagyszerű. Tudna ajánlani nekem azt is, hogy ezt az EBCDIC-kódolt rekord formátumot az eredeti formátumban tároljuk, hogy eleget tudjak tenni az ellenőrzési követelményeimnek? ”Tehát a Hadoop és az Apache Spark megértjük a mainframe adatait. Az adatokat megőrizheti az eredeti nyilvántartott formátumban, megteheti a feldolgozási és a szétosztói számítógépes platformot, és ha vissza kell helyeznie azt, akkor megmutathatja, hogy a rekord nem változott, és az adatformátum nem változott, akkor betarthatja a szabályozási követelményeket .

És a legtöbb szervezet, mivel az adatközpontot vagy az adattókat készítik, és egy kattintással is megpróbálják ezt megtenni, hogy az Oracle adatbázis sémáinak százaiból metaadatokat leképezzék a Hive táblákba vagy ORC vagy Parkett fájlokba. szükségessé válik. Szerszámokat szállítunk és eszközöket biztosítunk, amelyek ezt az egylépéses adathozzáférést, az automatikusan előállított feladatokat vagy az adatmozgást, valamint az automatikus előállítási feladatokat az adatok leképezéséhez teszik lehetővé.

Beszéltünk az összekapcsolhatóságról, a megfelelésről, az irányításról és az adatfeldolgozásról. Termékeink mind a helyszínen, mind a felhőben kaphatók, ami nagyon egyszerűvé teszi, mert a vállalatoknak nem kell arra gondolniuk, mi fog történni a következő két évben, ha úgy döntök, hogy teljesen nyilvános felhőben vagy hibridben megyek keresztül. környezetben, mivel néhány klaszter előfeltevésen vagy a felhőben futhat. Termékeink elérhetőek mind az Amazon Marketplace, az EC2, az Elastic MapReduce, mind a Docker konténerek számára.

Csak a fajta összefoglaláshoz, így van elég időnk a kérdésekre és válaszokra, valójában az adatkezelés elérésére, integrálására és betartására, mindazonáltal mindezt egyszerűbbé téve. És miközben ezt egyszerűbbé tesszük, valódi értelemben véve „egyszerre tervezz és telepítsünk”, nyílt forráskódú hozzájárulásaink eredményeként termékünk natív módon működik a Hadoop adatáramlásban és natív módon a Spark segítségével, szigetelve a szervezeteket a gyorsan változó ökoszisztémától. És egyetlen adatvezeték, egyetlen interfész biztosítása mind a kötegelt, mind pedig a streaminghez.

Ez segít abban is, hogy a szervezetek néha kiértékeljék ezeket a kereteket, mivel érdemes lehet alkalmazásokat létrehozni, és csak a MapReduce-on futtatni, szemben a Spark-lal, és megnézni magad, igen, a Spark ezt megígéri, és elősegíti az iteratív algoritmusok előrelépését a legjobb gépi tanulás érdekében. és a prediktív elemző alkalmazások együtt működnek a Spark-lal, elvégezhetem-e streaming- és kötegelt munkaterheléseimet is ezen a számítógépes rendszeren? Különböző számítógépes platformokat kipróbálhatja termékeinkkel. És a dinamikus optimalizálás függetlenül attól, hogy önálló kiszolgálón, laptopján fut, a Google Cloudban vagy az Apache Sparkban, valóban nagy értékű ajánlat ügyfeleink számára. És valóban a kihívások vezették őket.

Csak az egyik esettanulmányt tárgyalom. Ez a Guardian Life Insurance Company. A Guardian kezdeményezése valóban az volt, hogy központosítsák adatvagyonukat, és hozzáférhetővé tegyék az ügyfeleik számára, csökkentsék az adatok előkészítésének idejét, és azt mondták, hogy mindenki arról beszél, hogy az adatok előkészítése a teljes adatfeldolgozási folyamat 80% -át veszi igénybe, és azt mondták, hogy valójában ez az 75–80 százalék számukra, és csökkenteni akarták az adatok előkészítését, az átalakítási időt és az elemzési projektek piacra dobásának idejét. Hozza létre ezt a mozgékonyságot, mivel új adatforrásokat adnak hozzá. És tegye elérhetővé ezt a központosított adathozzáférést minden ügyfelének.

Megoldásuk, ideértve a Syncsort termékeket is, jelenleg egy Amazon Marketplace hasonló adatpiaclal rendelkeznek, amelyet egy alapvetõen Hadoop adattó és NoSQL adatbázis támogat. Termékeinket felhasználva az összes adatot eljuttatjuk az adat-tóhoz, ideértve a mainframe-en található DB2-t, beleértve a mainamfájl VSAM fájljait, valamint az adatbázis régebbi adatforrásait, valamint az új adatforrásokat. Ennek eredményeként központosították az újrafelhasználható adatkészleteket, amelyek kereshetők, elérhetőek és elérhetőek ügyfeleik számára. És valóban képesek felvenni az új adatforrásokat, és sokkal gyorsabban és hatékonyabban tudják kiszolgálni ügyfeleiket. Az elemzési kezdeményezések a prediktív oldalon is tovább haladnak. Szóval szünetet tartok, és remélem, hogy ez hasznos volt, és ha bármilyen kérdése van bármilyen kapcsolódó témával kapcsolatban, kérjük, üdvözöljük.

Eric Kavanagh: Persze, és Tendü, csak bedobom. Kaptam egy hozzászólást egy közönség tagjától, aki azt mondta: „Szeretem ezt a„ tervezést egyszer, bárhová telepíthetem ”.” Tudna belemerülni, hogy ez igaz? Úgy értem, mit tettél az ilyen mozgékonyság lehetővé tétele érdekében, és van-e adó? Mint például amikor a virtualizációról beszélünk, mindig egy kicsit adót kell fizetni a teljesítményre. Egyesek szerint két százalék, öt százalék 10 százalék. Mit tettél annak érdekében, hogy egyszerre engedélyezze a tervezést, bárhová telepítheti - hogyan csinálja, és van-e ehhez valamilyen adó a teljesítmény szempontjából?

Tendü Yogurtçu: Persze, köszönöm. Nem, mert a többi gyártótól eltérően nem igazán generálunk Hive vagy Pig vagy más olyan kódot, amely nem natív a motorjaink számára. Itt nyílt forráskódú hozzájárulásaink óriási szerepet játszottak, mert nagyon szorosan együttműködöttünk a Hadoop gyártókkal, a Cloudera, a Hortonworks és a MapR-rel, és a nyílt forráskódú hozzájárulásainknak köszönhetően motorunk valójában natív módon működik az áramlás részeként, a Hadoop áramlás részeként, a Spark részeként.

Amit ez is lefordít, megvan ez a dinamikus optimalizálás. Ez olyasmi, ami azért jött, mert ügyfeleink kihívást jelentettek a számítógépes keretekkel. Mikor elindultak az alkalmazások egy részével, visszatértek, és azt mondták: „Csak stabilizálom a Hadoop fürtöt, stabilizálom a MapReduce YARN 2., MapReduce 2. verziót, és az emberek azt mondják, hogy a MapReduce halott, a Spark pedig a következő dolog, és egyesek azt mondják, hogy a következő lesz az Flink, hogyan fogok megbirkózni ezzel?

És ezek a kihívások valóban annyira nyilvánvalóvá váltak számunkra, beruháztuk azt a dinamikus optimalizálást, amelyet intelligens végrehajtásnak nevezünk. Futási időben, amikor a feladat benyújtásakor az adatcsatornát elküldik, a fürt alapján, legyen az Spark, legyen az MapReduce vagy önálló Linux kiszolgáló, úgy döntünk, hogy hogyan kell ezt a feladatot natív módon a motorunkban futtatni ennek részeként. Hadoop vagy Spark adatáramlás. Nincs felesleges, mert mindent megteszünk ezen a dinamikus optimalizáláson keresztül, és mindent megteszünk azért is, mert motorunk annyira natív integrációja van a nyílt forráskódú hozzájárulásaink miatt. Ez válaszol a kérdésére?

Eric Kavanagh: Igen, ez jó. És szeretnék még egy kérdést feltenni oda, majd Dez, talán magunk és magunk is bevonulunk. Most kaptam egy vidám kommentárt az egyik résztvevőinktől. Elolvasom, mert ez tényleg nagyon bátorságos. Azt írja: „Úgy tűnik, hogy a forró dolgok történetében - szerezzük meg? Mint az IoT” - az, hogy minél inkább megpróbálsz „egyszerűsíteni” valamit, ami valóban összetett, többnyire nem annyira egyszerű, mint amilyennek látszik dolgokat tenni, további függőkötél szállítva. Gondoljon adatbázis-lekérdezésre, robbanásra, többszálú menetre stb. ”Meg tudja-e kommentálni ezt a paradoxont, amelyet hivatkozik? Egyszerűség és bonyolultság, és alapvetően mi folyik a borítások alatt?

Tendü Yogurtçu: Persze. Szerintem ez egy nagyon érvényes pont. Amikor egyszerűsíti a dolgokat, és ezeket az optimalizálásokat úgy végzi el, a borítók alatt, valakinek át kell vennie ezt a komplexitást, mi történik, igaz? Ha megbénít valamit, vagy ha úgy dönt, hogy egy adott feladatot hogyan hajt végre a számítógépes kerettel kapcsolatban, akkor nyilvánvaló, hogy van egy feladat egy része, amelyet a felhasználó végén, a menü kódolásakor vagy a motor optimalizálásánál tolnak el. Ennek egy része, ha egyszerűsíti a felhasználói élményt, hatalmas előnyt jelent a vállalkozásban meglévő készségek kiaknázása szempontjából.

És enyhítheti ezt a paradoxont, enyhítheti ezt a kihívást: „Igen, de nem tudom ellenőrizni mindazt, ami a fedél alatt, a motor motorháztetője alatt történik”, ha a haladóbb felhasználók számára kiállítja a dolgokat, ha akarni akarják ezt a fajta irányítást. Azáltal, hogy befektet bizonyos dolgokba a szolgáltathatóságot. Mivel több operatív metaadatot és több működési adatot tudunk ajánlani, amint az a példában szerepel, amelyet ez a résztvevő adott, SQL lekérdezéshez, valamint motorral együtt. Remélem, hogy válaszol.

Eric Kavanagh: Igen, jól hangzik. Dez, vedd el.

Dez Blanchfield: Nagyon szeretném, ha kicsit jobban betekintnék a lábnyomába a nyílt forráskódú hozzájárulásokban és az utazásban, amelyet a mainframe és a saját világ tradicionális, régóta szerzett tapasztalatából vezetett, majd az hozzájárulás a nyílt forráskódhoz, és hogyan történt ez. És a másik dolog, amelyet szívesen megértek, az a nézet, amelyet lát, hogy a vállalkozások, nem csak az informatikai részlegek, hanem a vállalkozások az adatközpontokkal vagy az adattavakkal kapcsolatban is gondolkodnak, ahogy az emberek most mondják, és látják-e ezt a tendenciát. csak egyetlen, konszolidált adat-tó, vagy látunk-e elosztott adat-tagokat, és az emberek eszközöket használnak az összerakáshoz?

Tendü Yogurtçu: Persze. Az első esetében ez egy nagyon érdekes utazás volt, mint a szoftvertulajdonos szoftvervállalat, az elsők között az IBM után. Mindenesetre ismét minden elkezdődött, amikor az evangélista ügyfeleink a Hadoopra nézték. Olyan adatcégek voltak, mint a ComScore, ők voltak az elsők, akik a Hadoop-ot alkalmazták, mivel digitális adatokat gyűjtöttek szerte a világon, és 90 nap adataikat nem tudták megőrizni, csak ha tízmillió dolláros adattárházba fektettek be. környezet. A Hadoopra néztek. Ezzel megkezdtük a Hadoop-ot is.

És amikor döntést hozottunk és felismertük, hogy a Hadoop valóban a jövő adatplatformja lesz, ráébredtünk arra is, hogy nem fogunk ebben játszani, egy sikeres játékban, hacsak nem az ökoszisztéma részét képezték. És nagyon szorosan együttműködtünk a Hadoop gyártókkal, a Cloudera, Hortonworks, MapR, stb-vel. Igazán beszélgettünk velük, mert a partnerség nagyon fontos, hogy érvényesítsük azt az értéket, amelyet az eladó adhat, és gondoskodunk arról is, hogy közösen vállaljuk a vállalkozást. és kínál valami értelmesebbet. Nagyon sok kapcsolat kiépítésére volt szükség, mivel nem voltunk ismertek az Apache nyílt forráskódú projektekben, ám ezeknek a Hadoop gyártóknak nagy támogatást kellett adnunk, mondom.

Elkezdtünk együtt dolgozni, és megvizsgáltuk a központot, hogyan tudunk értéket hozni anélkül, hogy akár a saját szoftverünk is lenne az űrben. Ez fontos volt. Nem csak az, hogy elhelyezzen néhány API-t, amelyeken a termék működhet, hanem azt is, hogy elmondhassuk, hogy bele fogok befektetni ebbe, mert úgy gondolom, hogy a Hadoop a jövő platformja lesz, tehát a forrásokba történő befektetés révén győződjön meg arról, hogy érlelődik és vállalkozásra kész. Valójában engedélyezhetjük azokat a felhasználási eseteket, amelyek nem voltak rendelkezésre a hozzájárulásunk előtt. Ez az egész ökoszisztéma számára előnyös, és ezeket a partnerségeket nagyon szorosan ki tudjuk fejleszteni.

Nagyon sok időbe telt. 2011-ben és 2013-ban kezdtük el a közreműködést, január 21-én - emlékszem a dátumra, mert arra a dátumra vállaltuk a legnagyobb hozzájárulást, ami azt jelentette, hogy termékeinket már ettől a pillanattól kezdve megvásárolhatjuk - ezeknek a kapcsolatoknak a kiépítése elég hosszú időbe telt, megmutatja az értéket, a partnerek tervező partnerekké válnak a szállítókkal és a nyílt forráskódú közösség alkotóival. De nagyon szórakoztató volt. Vállalatként nagyon hálás volt számunkra, hogy részese lehessen annak az ökoszisztémanak, és nagyszerű partnerséget alakítsunk ki.

A második kérdés az adatközponttal / adattóval kapcsolatban azt gondolom, hogy amikor ezeket az adatokat a legtöbb esetben szolgáltatási megvalósításnak tekintjük, igen, lehet, hogy klaszterek, fizikailag egyetlen vagy több klaszterek, de ez inkább fogalmi, mint hogy egyetlen helyré váljon az összes adat. Mivel egyes szervezetekben nagy klaszteres telepítést látunk a helyszínen, de vannak klaszterek is, például a nyilvános felhőben, mivel az online szakaszokból gyűjtött adatok egy része valóban a felhőben van. Fontos az a képesség, hogy egyetlen adatvezeték legyen, és mindkettőt valóban kiaknázhatja, és egyetlen adatközpontként, egyetlen adat-tóként felhasználhatja őket. Nem feltétlenül csak a fizikai hely, hanem azt hiszem, hogy az adatközpont és az adattó megléte klasztereken, földrajzi területeken, esetleg a helyszínen és a felhőn nagyon kritikus lesz. Különösen az előrehaladás. Ebben az évben egyre több felhő-telepítést láttunk. Ez elképesztő. Az év első felében eddig sok felhő-telepítést láthattunk.

Eric Kavanagh: Oké, jó. És Robin, van kérdése? Tudom, hogy csak néhány perc van hátra.

Robin Bloor: Oké, nos, feltehetek neki egy kérdést. Az első dolog, ami velem történt, az, hogy nagyon izgalom vált fel a Kafka iránt, és érdeklődött a véleményed a Kafka iránt, és hogyan integrálódik az emberek Kafka használatához?

Tendü Yogurtçu: Persze. Igen, a Kafka meglehetősen népszerű. Ügyfeleink között azt látjuk, hogy ilyen adatátviteli réteg, és úgy tekintjük, hogy az adatok nagyjából buszok. Például az egyik ügyfelünk valójában olyan fogyasztó adatokat használt, amelyek több katonai, például több ezer online felhasználó körüli adatba kerültek ebbe a Kafkába, és képesek voltak osztályozni, és átjutni.

A Kafka ismét adatbusz az adatok különféle fogyasztói számára. Osztályozzon néhány haladó felhasználót a nem túl haladó felhasználókkal szemben, és hajtson végre valami mást, ha továbblép az adott adatvezetékben. A Kafka-val való integráció alapvetően az, hogy a DMX-h termékünk megbízható fogyasztóvá, rendkívül hatékony és megbízható fogyasztóvá válik a Kafka számára. Le tudja olvasni az adatokat, és ez nem különbözik egymástól, ha számunkra más adatforrásból származó adatokat olvas. Annak lehetővé teszi a felhasználók számára, hogy ellenőrizzék az ablakot, akár a rendelkezésükre álló időigény, akár az üzenetek száma alapján, amelyeket a Kafka buszról fogyaszthatnak. És akkor gazdagíthatjuk ezeket az adatokat is, mivel az átjut a termékünkön, és visszajut a Kafkába. Kipróbáltuk ezt. Összehasonlítottuk azt az ügyfél webhelyén. A Confluent is tanúsítja. Szorosan együttműködünk a Confluent srácokkal, és ez nagyon nagy teljesítményű és könnyen használható. Megint megváltoznak az API-k, de nem kell aggódnia, mert a termék valóban csak egy másik adatforrásként, streaming adatforrásként kezeli. Nagyon szórakoztató a termékünkkel és a Kafkával való együttműködés.

Robin Bloor: Oké, van egy másik kérdésem, amely egyfajta általános üzleti kérdés, de régóta ismerem a Syncsort, és mindig hírnevet szerzett, és rendkívül gyors szoftvert szállított az ETL és a mainframe világ számára. Előfordul-e, hogy vállalkozása nagy részét most áthelyezik a Hadoop-ra? A helyzet az, hogy valamilyen módon eloszlatta vállalkozását drámai módon a mainframe világából?

Tendü Yogurtçu: A mainframe termékek világszerte továbbra is a mainframe 50% -át teszik ki. Tehát nagyon erős mainframe termékcsaládunk van amellett, amit a nagy adatokon és a Hadoop végén csinálunk. És továbbra is a legtöbb informatikai egyszerűsítési vagy optimalizálási projektben vagyunk, mert van egy vége, amellyel szeretné megismerni a mainframe adatait a big data Multex platformon, és felhasználni az összes vállalati adatot, de vannak nagyon kritikus tranzakciós munkaterhelések is amely továbbra is fut a mainframe-en, és az ügyfeleknek kínálunk módszereket az alkalmazások hatékonyabbá tételére, a zIIP-motorban való futtatásra, hogy azok ne menjenek fel annyi feldolgozási ciklust és MIPS-t, hogy költséghatékonyabbá váljanak.

Folytatunk beruházásokat a nagygépek termékekbe, és valójában belemegyünk ebbe a térbe, ahol az emberek a nagygépek nagy adataival a nagy adatokig mennek, és a termékskálát ezen platformokon át is átjárják. Tehát nem feltétlenül toljuk el az egész üzletet az egyik oldalra, továbbra is nagyon sikeres üzleti tevékenységet folytatunk mindkét oldalon. És a felvásárlások nagy hangsúlyt fektetnek számunkra is. Ahogy ez a nagy adatplatformok adatkezelési és adatfeldolgozási területe fejlődik, elkötelezettek vagyunk is számos ingyenes beszerzés elvégzésében.

Robin Bloor: Nos, azt hiszem, nem tudom megkérdezni tőled, hogy mi az, mert nem engedhetné meg, hogy elmondja nekem. Érdekel, vajon látta-e a Hadoop vagy a Spark sok megvalósítását a mainframe-en, vagy nagyon ritka dolog.

Tendü Yogurtçu: Nem látottunk semmit . Ennél több kérdés merül fel. Úgy gondolom, hogy a Hadoopnak a nagygépen nem volt sok értelme az ilyen magszerkezet miatt. A Spark a mainframe-en azonban nagyon értelmes, és a Spark valóban nagyon jó a gépi tanulás és a prediktív elemzés szempontjából, és hogy képesnek lennék arra, hogy a mainframe-adatokkal rendelkező alkalmazások némelyike ​​valóban, azt gondolom, elég értelmes. Még senki nem láttuk, hogy ezt csinálja, ám ezeket a dolgokat tényleg a használati eset indokolja. Ha vállalkozásaként inkább azt a mainframe-adatot hozza be, és a nagyobb adatplatformra integrálja a többi adatkészlettel, ez egy történet. Ez megköveteli a nagyszámítógépes adatok elérését a nagy adatállományú Multex platformon, mivel valószínűtlen, hogy az adatkészleteit nyitott rendszerekből hozza vissza, és visszahívják a nagygépekre. Ha azonban vannak olyan mainframe-adatok, amelyeket csak fel szeretne fedezni, és egy kicsit adat-felfedezést szeretne felfedezni, alkalmazzon néhány fejlett AI-t és fejlettebb elemzést, akkor a Spark jó módszer lehet a mainframe futtatására.

Eric Kavanagh: És itt van még egy kérdés a közönség részéről, valójában még két kérdés. Felteszek egy tag-csapat kérdést, majd összefoglaljuk. Az egyik résztvevő azt kérdezi: „Az IBM integrálja-e a nyílt forráskódú hozzájárulásait a nyilvános felhő-ökoszisztémájába, vagyis a Bluemix-be?”, És egy másik résztvevő nagyon jó észrevételt tett, megjegyezve, hogy a Syncsort kiválóan alkalmas a nagy vas életben tartására azok számára, akik már megvan, de ha a vállalatok lemondnak az új mainframe-ről annak, amit CE-nek hív, elhomályosít mindent, akkor valószínűleg csökkenni fog, de megjegyzi, hogy srácok, nagyon jók az adatok mozgatásában azáltal, hogy másodpercenként gigabájtnyi sebességgel megkerlik az operációs rendszereket. Tudna beszélni az alapvető erősségeiről, amint azt megemlítette, és arról, hogy az IBM integrálja-e a cuccokat a Bluemixbe?

Tendü Yogurtçu: Az IBM-vel már partnereink vagyunk az IBM-nek, és megbeszéléseket folytattunk az adatfelhő-szolgáltatásokról, amelyek a terméket kínálják. Nyílt forráskódú hozzászólásaink mindenki számára nyitva állnak, akik ki akarják használni őket. A mainframe-csatlakozások némelyike ​​a Spark-csomagokban is elérhető, tehát nem csak az IBM-hez. Bárki felhasználhatja azokat. A Bluemix-ben még nem tettünk semmit konkrétan erre vonatkozóan. És nem bánja megismételve a második kérdést?

Eric Kavanagh: Igen, a második kérdés az alapvető funkcionális területére vonatkozott az évek során, amely valóban az ETL szűk keresztmetszeteivel foglalkozott, és nyilvánvalóan ez valami olyan, amit srácok továbbra is mainframe-ként csináltok, nos, elméletileg távol maradsz, bár Dez A point még mindig egyfajta ringató és gördülő. De a résztvevő csak megjegyezte, hogy a Syncsort nagyon jól mozgatja az adatokat azáltal, hogy megkerüli az operációs rendszereket, és másodpercig akár gigabájtot is képes megtenni. Meg tudod mondani ezt?

Tendü Yogurtçu: Igen, ez a tényleges átfogó erőforrás-hatékonyság volt az erőnk, és a skálázhatóság és a teljesítmény volt az erőnk. Nem kompromittálunk, az egyszerűsítésnek sok jelentése van, nem teszünk kompromisszumot ezekkel. Amikor például az emberek 2014-ben elkezdtek beszélni a Hadoop-ról, sok szervezet nem eredetileg nézett a teljesítményre. Azt mondták: "Ó, ha történik valami, még néhány csomópontot felvehetek, és jól leszek, a teljesítmény nem követelményem."

Miközben arról beszéltünk, hogy a legjobb teljesítményről van szó, mert már natív módon futottunk, még a kezdeti csuklások sem volt, amelyek Hive-nek több MapReduce-feladatával és általános indításával jártak. Az emberek azt mondták nekünk: "Ó, ez nem az én aggódásom, ne aggódj miatta ebben a pillanatban."

Amikor 2015-re jöttünk, ez a táj megváltozott, mert néhány ügyfelünk már meghaladta a raktárkészletét, amely a termelési klaszterükben volt. Nagyon kritikus lett számukra, hogy megnézhessék, mit kínál a Syncsort. Ha valamilyen adatot vesz egy adatbázisból vagy egy mainframe-ből, és Parkett formátumba írja a klaszterekben, függetlenül attól, hogy megérkezel-e és elindítasz egy másik átalakítást, vagy csak a repülési átalakítást és a leszállt célfájl formátumot változtatja meg, mert tároló, a hálózati sávszélességet takarítja meg, a fürt munkaterheléséből takarít meg, mert nem végez extra feladatokat. Azok az erősségek, amelyekkel nagyon tudatosan játszunk, úgy tűnik, hogy erőforrás-hatékonyságunkat a bőrünk alatt érezzük.

Így írjuk le. Ez kritikus számunkra. Nem vesszük magától értetődőnek. Soha nem vettük magától értetődőnek, így továbbra is erősek vagyunk az Apache Spark vagy a következő számítógépes keretrendszer ezen erőfeszítéseivel. Ez továbbra is a hangsúly. Az adatmozgató elem és az adathozzáférési elem szempontjából határozottan ez az egyik erősségünk, és a Hadoop vagy a Spark összefüggésében hozzáférünk a mainframek DB2 vagy VSAM adataihoz.

Eric Kavanagh: Nos, ez egy nagyszerű módja annak, hogy véget vessünk az internetes adásnak. Nagyon köszönöm az idejét és figyelmét. Köszönöm neked, Tendü és a Syncsort, hogy beléptél az eligazító terembe és beléptek a körbe, ahogy mondják. Sok nagyszerű kérdés a közönség részéről. Ez egy állandóan mozgó környezet, emberek. Ezt a forró technikát archiváljuk, ahogy a többi példánkat is. Megtalálhat minket a insideanalysis.com oldalon és a techopedia.com webhelyen. Általában körülbelül egy nap alatt felmegy. És ezzel búcsút fogunk adni neked, emberek. Nagyon szépen köszönöm. Hamarosan beszélünk. Vigyázz magadra. Viszlát.

Nagy vas, találkozz nagy adatokkal: felszabadítva a mainframe-adatokat hadoop és szikra segítségével