Tartalomjegyzék:
Meghatározás - Mit jelent a megerősítéses tanulás?
A megerősítéses tanulás a mesterséges intelligencia kontextusában egy olyan dinamikus programozás egy típusa, amely jutalmazási és büntetési rendszer segítségével képzi az algoritmusokat.
Egy megerősítő tanulási algoritmus, vagy ügynök, a környezettel való kölcsönhatás révén tanul. Az ügynök jutalomban részesül a helyes végrehajtás és a büntetés a helytelen végrehajtásért. Az ügynök beavatkozás nélkül megtanulja az embert azáltal, hogy maximalizálja jutalmát és minimalizálja a büntetést.
A Techopedia magyarázza a megerősítéses tanulást
A megerősítő tanulás egy olyan megközelítés a gépi tanuláshoz, amelyet a biheviorista pszichológia ihlette. Hasonló ahhoz, ahogy a gyermek megtanul egy új feladat elvégzésére. A megerősítéses tanulás ellentétben áll más gépi tanulási megközelítésekkel abban az értelemben, hogy az algoritmust nem kifejezetten mondják el, hogyan kell egy feladatot végrehajtani, hanem önmagában dolgozik a problémán.
Mint ügynök, amely önálló vezetésű autó vagy sakkjáték program lehet, kölcsönhatásba lép a környezetével, jutalomértéket kap, attól függően, hogy teljesít, például biztonságosan vezet a rendeltetési helyre vagy nyer egy játékot. Ellenkezőleg, az ügynök büntetést kap a hibás végrehajtásért, például az útról való elhagyásért vagy cselekedetekért.
Az ügynök idővel dönt arról, hogy maximalizálja jutalmát és minimalizálja a büntetést a dinamikus programozás segítségével. A mesterséges intelligencia e megközelítésének előnye, hogy lehetővé teszi egy AI program számára, hogy programozó nélkül megtanulja, hogy pontosan megmondja, hogyan kell az ügynöknek végrehajtania a feladatot.