Tartalomjegyzék:
- Meghatározás - Mit jelent az ismeretek felfedezése az adatbázisokban (KDD)?
- A Techopedia magyarázza az ismeretek felfedezését az adatbázisokban (KDD)
Meghatározás - Mit jelent az ismeretek felfedezése az adatbázisokban (KDD)?
A tudásfeltárás az adatbázisokban (KDD) az az adatgyűjtésből származó hasznos tudás felfedezésének folyamata. Ez a széles körben alkalmazott adatbányászati technika egy olyan folyamat, amely magában foglalja az adatok előkészítését és kiválasztását, az adatok tisztítását, az adatkészletekkel kapcsolatos előzetes ismeretek beépítését és a megfigyelt eredményekből származó pontos megoldások értelmezését.
A KDD főbb alkalmazási területei a marketing, a csalások felderítése, a telekommunikáció és a gyártás.
A Techopedia magyarázza az ismeretek felfedezését az adatbázisokban (KDD)
Az adatbányászat és a tudás felfedezése hagyományosan manuálisan történt. Az idő múlásával sok rendszerben az adatmennyiség meghaladta a terabájt méretét, és már nem lehetett karbantartani. Ezenkívül bármely vállalkozás sikeres létezéséhez elengedhetetlen az adatok mögöttes mintáinak feltárása. Ennek eredményeként számos szoftver eszközt fejlesztettek ki a rejtett adatok felfedezésére és feltételezések készítésére, amelyek a mesterséges intelligencia részét képezték.
A KDD folyamata elérte az elmúlt 10 év csúcspontját. Most sokféle megközelítést tartalmaz a felfedezéshez, beleértve az induktív tanulást, a Bayes-statisztikákat, a szemantikai lekérdezés optimalizálását, a szakértői rendszerekhez szükséges ismeretek megszerzését és az információelméletet. A végső cél az, hogy magas szintű tudást nyerjen az alacsony szintű adatokból.
A KDD multidiszciplináris tevékenységeket foglal magában. Ez magában foglalja az adatok tárolását és elérését, az algoritmusok méretezését a hatalmas adatkészletekhez és az eredmények értelmezését. Az adattárolásba beépített adattisztítási és adathozzáférési folyamat megkönnyíti a KDD-folyamatot. A mesterséges intelligencia szintén támogatja a KDD-t azáltal, hogy a kísérletekből és a megfigyelésekből empirikus törvényeket fedez fel. Az adatokban felismert mintáknak az új adatokra érvényeseknek kell lenniük, és bizonyos fokú bizonyossággal kell rendelkezniük. Ezeket a mintákat új tudásnak tekintik. A teljes KDD-folyamatban a következő lépések vannak:
- Azonosítsa a KDD-folyamat célját az ügyfél szempontjából.
- Ismerje meg az érintett alkalmazási területeket és a szükséges ismereteket
- Válassza ki a céladatkészletet vagy az adatminta részhalmazát, amelyen a felfedezést végrehajtják.
- Tisztítsa meg és feldolgozza az adatokat azáltal, hogy stratégiákat határoz meg a hiányzó mezők kezelésére és az adatoknak a követelményeknek megfelelő módosítására.
- Egyszerűsítse az adatkészleteket a nem kívánt változók eltávolításával. Ezután elemezze azokat a hasznos funkciókat, amelyek felhasználhatók az adatok ábrázolására, a céltól vagy a feladattól függően.
- A rejtett minták javaslatához illessze össze a KDD céljait az adatbányászati módszerekkel.
- Válasszon adatbányászati algoritmusokat a rejtett minták felfedezéséhez. Ez a folyamat magában foglalja annak eldöntését, hogy mely modellek és paraméterek lehetnek megfelelőek az általános KDD-folyamathoz.
- Keressen egy érdekes mintát egy adott reprezentációs formában, amely magában foglalja a besorolási szabályokat vagy a fákat, a regressziót és a csoportosítást.
- Értelmezze az alapvető ismereteket a bányászminták alapján.
- Használja a tudást, és beépítse egy másik rendszerbe a további cselekvéshez.
- Dokumentálja és jelentéseket készít az érdekelt felek számára.