Itthon Hang Lehet-e túl sok adat a nagy adatban?

Lehet-e túl sok adat a nagy adatban?

Anonim

K:

Lehet-e túl sok adat a nagy adatban?

A:

A kérdésre a válasz hangos IGEN. A nagy adatprojektekben feltétlenül lehet túl sok adat.

Számos módja van annak, hogy ez megtörténjen, és számos oka annak, hogy a szakembereknek bármilyen módon korlátozzák és tárolják az adatokat a megfelelő eredmények elérése érdekében. (Olvassa el a 10 nagy mítoszot a nagy adatokról.)

Általában véve a szakértők arról beszélnek, hogy egy modellben megkülönböztetik a "jelet" a "zajtól". Más szavakkal: a nagy adatokkal rendelkező tengeren a releváns betekintési adatok megcélzása nehézkessé válik. Egyes esetekben tűt keres egy szénakazalban.

Tegyük fel például, hogy egy vállalat nagy adatok felhasználásával próbál specifikus betekintést generálni egy ügyfélbázis egy szegmensében, és vásárlásaikat egy adott időkereten belül. (Olvassa el: Mit csinál a nagy adat?)

Az óriási mennyiségű adatkészlet beszerzése véletlenszerű adatok begyűjtését eredményezheti, ami nem releváns, vagy akár olyan elfogultságot eredményezhet, amely az adatokat egy vagy másik irányba torzítja.

Ez drasztikusan lelassítja a folyamatot is, mivel a számítási rendszereknek nagyobb és nagyobb adatkészletekkel kell birkózniuk.

Olyan sokféle projektben nagyon fontos az adatmérnökök számára, hogy az adatokat a korlátozott és specifikus adatkészletekre készítsék - a fenti esetben csak a vizsgált vásárlói szegmensre vonatkoznának az adatok, csak az adott időre vonatkozó adatok. a vizsgált keret, és egy olyan megközelítés, amely eltávolítja a további azonosítókat vagy háttérinformációkat, amelyek megzavarhatják a dolgokat vagy lelassíthatják a rendszereket. (ReadJob Szerep: Adatmérnök.)

Bővebben nézzük meg, hogyan működik ez a gépi tanulás határain. (Olvassa el a Machine Learning 101. számot.)

A gépi tanulás szakértői beszélnek valami úgynevezett "túlfűtésről", ahol a túlságosan bonyolult modell kevésbé eredményes eredményeket eredményez, ha a gépi tanulási programot új termelési adatokhoz kapcsolják.

A túlteljesítés akkor fordul elő, amikor egy összetett adatpont halmaza túl jól felel meg a kezdeti edzéskészletnek, és nem engedi, hogy a program könnyen alkalmazkodjon az új adatokhoz.

Technikai szempontból a túlcsatlakozást nem túl sok adatminta okozza, hanem túl sok adatpont koronálása. De azt állíthatja, hogy a túl sok adat rendelkezésével hozzájárulhat az ilyen típusú problémákhoz is. A dimenzió átok kezelése ugyanazokkal a technikákkal foglalkozik, mint amelyeket a korábbi nagy adatprojektekben végeztek, amikor a szakemberek megpróbálták meghatározni, hogy mit táplálnak informatikai rendszerek.

A lényeg az, hogy a nagy adatok rendkívül hasznosak lehetnek a vállalatok számára, vagy pedig nagy kihívásokká válhatnak. Ennek egyik aspektusa az, hogy a társaság rendelkezik-e a megfelelő adatokkal. A szakértők tudják, hogy nem tanácsos az összes adatot egyszerűen egy garatba dobni, és így betekintést nyújtani - az új, felhőben natív és kifinomult adatrendszerekben erőfeszítést kell tenni az adatok ellenőrzésére és kezelésére, valamint a kurátúrára annak érdekében, hogy pontosabb és pontosabb legyen. az adatvagyon hatékony felhasználása.

Lehet-e túl sok adat a nagy adatban?