K:
Milyen kulcsfontosságú módszerek vannak az adattudományi folyamatok automatizálására és optimalizálására?
A:Az adattudományi folyamatok a gépi tanulás és az AI összefüggésében négy különálló szakaszra oszthatók:
- adatgyűjtés és feltárás,
- modellépület,
- modell telepítése és
- online értékelés és finomítás.
Tapasztalataim szerint a leginkább akadályozó szakaszok az adatgyűjtés és a modellek telepítésének fázisai bármely gépi tanuláson alapuló adattudományi folyamatban, és ezek optimalizálásának két módja van:
1. Hozzon létre egy nagyon hozzáférhető adatboltot.
A legtöbb szervezetben az adatokat nem egy központi helyen tárolják. Vegyük csak az ügyfelekkel kapcsolatos információkat. Van vevő elérhetősége, ügyféltámogatási e-mailje, vevői visszajelzése és ügyfél böngészési előzményei, ha vállalkozása webes alkalmazás. Ezek az adatok természetesen szétszórtan vannak, mivel eltérő célokat szolgálnak. Tartózkodhatnak különféle adatbázisokban, és részben teljesen strukturáltak, mások nem szerkezettelenek, sőt egyszerű szöveges fájlokként is tárolhatók.
Sajnos ezeknek az adatkészleteknek a szórottsága erősen korlátozza az adattudományi munkát, mivel az összes NLP, gépi tanulás és AI probléma alapja az adat . Tehát, ha ezeket az adatokat egy helyen - az adattárban - tartjuk, rendkívül fontos a modell fejlesztésének és telepítésének felgyorsítása szempontjából. Mivel ez minden adattudományi folyamat szempontjából döntő jelentőségű, a szervezeteknek képzett adatmérnököket kell felvenniük, hogy segítsék őket adatállományuk felépítésében. Ez könnyen elindulhat, amikor az egyszerű adatok egy helyre kerülnek, és lassan egy jól átgondolt adattárré alakulnak, teljesen dokumentálva és igénybe vehető segédeszközökkel, hogy az adatok részhalmazát különböző formátumokba exportálják különböző célokra.
2. Mutassa be modelleit a zökkenőmentes integráció szolgáltatásaként.
Amellett, hogy lehetővé teszi az adatokhoz való hozzáférést, az is fontos, hogy képes legyen az adattudósok által kifejlesztett modelleket a termékbe integrálni. Rendkívül nehéz lehet a Pythonban kifejlesztett modellek integrálása a Ruby-on futó webalkalmazással. Ezenkívül a modelleknek sok olyan adatfüggőségük lehet, amelyet a termék nem biztos, hogy képes biztosítani.
Ennek egyik módja egy erős infrastruktúra felállítása a modell körül, és csak annyi funkcionalitás felfedése, amely a termékéhez szüksége van ahhoz, hogy a modellt „webszolgáltatásként” lehessen használni. Például, ha az alkalmazásnak érzelmi osztályozásra van szüksége a termékértékelések során., csak annyit kell tennie, hogy meghívja a webszolgáltatást, feltéve, hogy a vonatkozó szöveg és a szolgáltatás visszaadja a megfelelő érzelmi osztályozást, amelyet a termék közvetlenül felhasználhat. Ilyen módon az integráció egyszerűen egy API hívás formájában történik. A modell és az azt használó termék szétválasztása megkönnyíti a felmerülő új termékek számára, hogy ezeket a modelleket is könnyedén használják.
A modell körüli infrastruktúra felállítása már egy teljesen más történet, és komoly kezdeti beruházást igényel a mérnöki csapatoktól. Miután az infrastruktúra megvan, csak modellek építésének kérdése, amely illeszkedik az infrastruktúrához.