Reinforcement Learning (RL) kry 'n stelsel van belonings en strawwe. Versterkingsleer is wyer as gemonitorde of sonder toesig leer om 'n doelwit te bereik of om net voordeel te trek uit aansporings en strawwe van omgewingskontak.
In watter tipe belonings en strawwe word as terugvoer gegee?
Die eerste is evaluerende terugvoer as versterking, waar belonings en strawwe gebruik word om leerdergedrag deur middel van versterkingsleermeganismes te vorm.
Wat is die tipes beloning en straf?
Kom ons kombineer nou hierdie vier terme: positiewe versterking, negatiewe versterking, positiewe straf en negatiewe straf (Tabel 1). Iets word bygevoeg om die waarskynlikheid van 'n gedrag te verhoog. Iets word bygevoeg om die waarskynlikheid van 'n gedrag te verminder.
Watter tipe leer is gebaseer op beloning- en strafbenadering?
Implisiet, sonder bewuste verwerking, leer individue oor die beloning en strafwaarde van elke konteks en aktiwiteit. Hierdie assosiatiewe leer-prosesse beïnvloed weer die waarskynlikheid dat individue weer by sulke aktiwiteite betrokke sal raak of daardie konteks sal soek.
Hoe beïnvloed beloning en straf leer?
Algehele, ons het min effek van beloning op leer of behoud gesien. Straf het geen effek op vaardigheidsbehoud gehad nie, maar het beduidende,taakafhanklike effekte op leer. In die SRTT-straf verbeterde spoed met minimale impak op akkuraatheid. Daarteenoor het straf prestasie op die FTT benadeel.