Tartalomjegyzék:
Meghatározás - Mit jelent a piszkos adatok?
A piszkos adatok olyan adatokra utalnak, amelyek téves információkat tartalmaznak. Arra is használható, ha olyan adatokra hivatkozik, amelyek a memóriában vannak, és amelyeket még nem töltöttek be az adatbázisba. A szennyezett adatok teljes eltávolítása a forrásból nem praktikus vagy gyakorlatilag lehetetlen.
A következő adatok tekinthetők piszkos adatoknak:
- Megtévesztő adatok
- Ismétlődő adatok
- Helytelen adatok
- Nem pontos adatok
- Nem integrált adatok
- Az üzleti szabályokat sértő adatok
- Adatok általános formázás nélkül
- Helytelenül elválasztott vagy kitöltött adatok
A Techopedia magyarázza a Dirty Data-t
A helytelen adatbevitel mellett piszkos adatok keletkezhetnek az adatkezelés és az adattárolás nem megfelelő módszerei miatt. Néhány piszkos adattípust az alábbiakban magyarázunk:
- Helytelen adatok - Az adatok érvényességének vagy helyességének biztosítása érdekében a megadott értéknek meg kell felelnie a mező érvényes értékeinek. Például a hónap mezőbe bevitt értéknek 1 és 12 közötti tartományba kell esnie, vagy az egyén életkorának kevesebbnek kell lennie, mint 130. Az adatérték helyességét programozottan be lehet állítani keresési táblázatok vagy szerkesztési ellenőrzések segítségével.
- Pontatlan adatok - lehetséges, hogy egy adatérték helyes, de nem pontos. Időnként célszerű más fájlokkal vagy mezőkkel összehasonlítani, hogy megtudja, az adat értéke pontos-e az alkalmazott kontextustól függően. Ennek ellenére a pontosság gyakran csak kézi ellenőrzéssel érvényesíthető.
- Üzleti szabályok megsértése - Az üzleti szabályokat sértő adatok egy másik típusú piszkos adatok. Például a hatálybalépés napjának mindig megelőznie kell a lejárat dátumát. Egy másik üzleti szabálysértési példa lehet a beteg Medicare biztosítási igénye, ahol a beteg még mindig nyugdíjkorhatár alatt lehet, és nem jogosult a Medicare-re.
- Inkonzisztens adatok - A nem ellenőrzött adat redundancia következetlenségeket okoz az adatban. Minden szervezetet következetlen és ismétlődő adatok érintik. Ez különösen jellemző az ügyféladatokra.
- Hiányos adatok - A hiányos adatok fő típusa a hiányos adatok.
- Ismétlődő adatok - Ismétlődő beküldés, nem megfelelő adatcsatlakozás vagy felhasználói hiba miatt ismétlődő adatok fordulhatnak elő.
Az adatminőség javítása és a piszkos adatok megakadályozása érdekében a szervezeteknek módszertant kell beépíteniük az adatok teljességének, érvényességének, következetességének és helyességének biztosítása érdekében.