K:
Hogyan vált az adatkaparás a gépi tanuláshoz a legigényesebb szűk keresztmetszetté az örökölt migráció manuális bevitele óta?
A:Az egyik gyakorlati probléma, amellyel a vállalatok szembesülhetnek, amikor megpróbálják elindítani egy gépi tanulási (ML) projektet, a kiindulási képzési adatkészletek megszerzésének kihívása. Ez magában foglalhatja a munkaintenzív folyamatokat, mint például a webkaparás vagy más adatkaparás.
A webkaparás és az adatkaparás kifejezések nagyrészt a számítógépes szoftverek által végzett automatikus tevékenységre utalnak, de sok ML-projekt esetében előfordulnak olyan esetek, amikor a számítógépeknek nincs kifinomultsága a megfelelő célzott adatok gyűjtésére, ezért ezt meg kell tenni. "kézzel." Ezt hívhatjuk "emberi web / adatkaparás" -nak, és ez hálátlan feladat. Ez általában magában foglalja az adatok vagy képek keresését és az adatok keresését az ML program "etetésére" edzőkészletek útján. Gyakran elég iteratív, ami unalmas, lassú, igényes munkát okoz.
Ingyenes letöltés: Gépi tanulás és miért számít? |
Az ML-oktatókészletek adatainak lekaparása egyedülállóan problematikus szűk keresztmetszetet jelent a gépi tanulásban, részben azért, mert a többi munka nagy része nagyon fogalmi és nem ismétlődő. Sok ember nagyszerű ötlettel állhat elő egy új alkalmazás számára, amely gépi tanulási feladatokat hajt végre, de az anyák és csavarok, valamint a gyakorlati munka sokkal nehezebbek lehetnek. Különösen az edzőkészletek összeszerelésének munkájának átruházása lehet az ML-projekt egyik legnehezebb része, amint azt Mike Judge "Szilícium-völgy" TV-műsorában teljes mértékben feltárják. A negyedik évad egyik epizódjában az induló vállalkozó először megkísérti a partnert, hogy munkaigényes munkát végezzen, majd megpróbálja ezt átadni a főiskolai hallgatóknak, házi feladatként álcázva.
Ez a példa oktató, mert megmutatja, hogy mennyire nem tetszik és látszólag nem lényeges a kézi adatkaparás. Ugyanakkor azt is megmutatja, hogy ez a folyamat szükséges a gépi tanulási termékek széles skálájához. Bár a legtöbb ember utálja az adatbevitelt, az edzőkészleteket valamilyen módon össze kell szerelni. A folyamat szakértői gyakran javasolnak egy webkaparási szolgáltatást - lényegében csak ezt a nagyon munkaigényes tevékenységet kiszervezik külső feleknek, de ez biztonsági következményekkel járhat és más problémákat okozhat. Ha a kézi adatgyűjtést házon belül tartják, ismét rendelkezni kell arról, ami gyakran nagyon kézi és időigényes folyamat.
Bizonyos értelemben a gépi tanuláshoz szükséges "emberi adatok lekaparása" úgy néz ki, mint a kézi adatbevitel, amelyet időnként a régi migráció során kellett elvégezni. Ahogy a felhő egyre népszerűbbé vált, és a vállalatok beillesztették folyamataikat és munkafolyamataikat a felhőbe, egyesek úgy találták, hogy nem dolgoztak át azon gyakorlati szempontokon, hogyan lehetne vállalati adataikat elkülönített régi rendszerből felhőalapú alkalmazásokba helyezni. Ennek eredményeként egyesek, akik egyébként adattudósok vagy alapvető informatikai ismeretekkel rendelkező kreatív emberek voltak, kellemetlen adatbeviteli feladatokat végeztek.
Valószínűleg ugyanez történik a gépi tanulással. Előfordulhat, hogy adattudósok panaszkodnak, hogy „kreatív ember vagyok” vagy „a fejlesztési oldalon vagyok” - de valakinek meg kell tennie a piszkos munkát.
Ismét, ha a kreatív folyamathoz nem igazodik a munkafolyamat-delegálás gyakorlati értékelése, akkor eltérés mutatkozik a feladatkezelés irányításában. Ha egy vállalatnak nincs embere az adatkaparási munka az adatkészletek gyűjtésében, akkor hiányzik a sikeres projekt eljárásrendjének kulcsfontosságú része. Érdemes ezt szem előtt tartani minden alkalommal, amikor egy vállalat megkísérel megvalósítani egy olyan ötletét, amely új gépi tanulási alkalmazások kifejlesztésén alapul.