K:
Hogyan lehet egyszerűen leírni a torzítást és a varianciát a gépi tanulásban?
A:Számos bonyolult módszer létezik a torzítás és a variancia leírására a gépi tanulásban. Sokan szignifikánsan bonyolult matematikai egyenleteket használnak, és grafikonon ábrázolják, hogy a konkrét példák hogyan mutatják az eltéréseket és eltéréseket.
Íme egy egyszerű módszer a torzulás, a variancia és az eltérés / variancia kompromisszum leírására a gépi tanulás során.
A lényegében az elfogultság egy egyszerűsítés. Fontos lehet az elfogultság definíciójához hozzátenni bizonyos feltételezést vagy feltételezett hibát.
Ha egy erősen elfogult eredmény nem volt hiba - ha a pénzre vonatkozik -, akkor nagyon pontos lenne. A probléma az, hogy az egyszerűsített modell tartalmaz némi hibát, így nincs a szem előtt - a jelentős hiba folyamatosan megismétlődik, vagy akár tovább erősödik, amikor a gépi tanulási program működik.
A variancia egyszerű meghatározása az, hogy az eredmények túl szétszórtak. Ez gyakran a program túl komplexitásához, valamint a teszt és az edzéskészlet közötti problémákhoz vezet.
A nagy szórás azt jelenti, hogy a kis változások nagy változásokat eredményeznek a kimenetekben vagy az eredményekben.
A variancia egyszerű leírásának másik módja az, hogy túl sok a zaj a modellben, és így a gépi tanulási programnak nehezebb elkülöníteni és azonosítani a valódi jelet.
Tehát az torzítás és a variancia összehasonlításának az egyik legegyszerűbb módja az, ha azt sugalljuk, hogy a gépi tanulást végző mérnököknek finoman kell átmenniük a túl sok torzítás vagy túl egyszerűsítés, valamint a túl sok eltérés vagy túlkomplexitás között.
A kút ábrázolásának másik módja egy négy kvadráns diagram, amely bemutatja a magas és az alacsony szórás összes kombinációját. Az alacsony torzítású / alacsony szórású kvadránsban az összes eredményt pontos klaszterbe gyűjtik. Nagy torzítás / alacsony szórású eredmény esetén az összes eredményt pontatlan klaszterben gyűjtik össze. Alacsony torzítás / nagy szórású eredmény esetén az eredmények egy központi pont körül vannak szétszórva, amely pontos klasztert képvisel, míg nagy torzítás / nagy szórású eredmény esetén az adatpontok szétszórtak és együttesen pontatlanok.