Tartalomjegyzék:
Meghatározás - Mit jelent az adatbányászat?
Az adatbányászat az adatok rejtett mintáinak elemzése különböző szempontból, hasznos információkkal történő kategorizálása céljából, amelyeket a közös területeken - például adattárházakban - összegyűjtünk és összeszerelünk a hatékony elemzéshez, az adatbányászási algoritmusokhoz, az üzleti döntéshozatal elősegítéséhez és egyéb információkhoz. a költségek végső csökkentésének és a bevételek növelésének követelményei.
Az adatbányászatot adat-felfedezésnek és tudás-felfedezésnek is nevezik.
A Techopedia magyarázza az Adatbányászatot
Az adatbányászati folyamat fő lépései:
- Az adatok kibontása, átalakítása és betöltése az adattárházba
- Tárolja és kezelje az adatokat többdimenziós adatbázisokban
- Biztosítson adatokhoz hozzáférést az üzleti elemzők számára az alkalmazás szoftver segítségével
- Az elemzett adatokat könnyen érthető formában, például grafikonok formájában kell bemutatni
Az adatbányászat első lépése az üzleti szempontból kritikus adatok gyűjtése. A vállalati adatok tranzakciós, nem működési vagy metaadatok. A tranzakciós adatok olyan napi műveletekkel foglalkoznak, mint az értékesítés, a készlet és a költségek stb. A nem működési adatokat általában előrejelzik, míg a metaadatok a logikai adatbázis-tervezéssel foglalkoznak. Az adatelemek mintázata és kapcsolatai releváns információkat szolgáltatnak, amelyek növelhetik a szervezeti bevételeket. Az erősen fogyasztóközpontú szervezetek az adatbányászati technikákkal foglalkoznak, amelyek tiszta képet nyújtanak az eladott termékekről, az árról, a versenyről és az ügyfelek demográfiairól.
Például a Wal-Mart kiskereskedelmi óriás minden releváns információt továbbít egy adattárházba, terabájt adatokkal. Ezekre az adatokra a szállítók könnyen hozzáférhetnek, lehetővé téve számukra az ügyfelek vásárlási mintáinak azonosítását. Generálhatnak vásárlási szokásokat, a legtöbb vásárolt napot, a legkeresettebb termékeket és egyéb adatokat adatbányászati technikák felhasználásával.
Az adatbányászat második lépése egy megfelelő algoritmus kiválasztása - egy adatbányászati modell előállítási mechanizmusa. Az algoritmus általános működése magában foglalja az adatkészlet trendjeinek azonosítását és a kimenet felhasználását a paraméterek meghatározásához. Az adatbányászathoz használt legnépszerűbb algoritmusok a besorolási algoritmusok és a regressziós algoritmusok, amelyeket az adatelemek közötti kapcsolatok azonosítására használnak. A nagyobb adatbázis-szállítók, mint például az Oracle és az SQL, az adatbányászási algoritmusokat, például a fürtözés és a regressziós tress beépítik az adatbányászat iránti igény kielégítése érdekében.