Onko annettu palkkio- ja rangaistusjärjestelmä?

Onko annettu palkkio- ja rangaistusjärjestelmä?
Onko annettu palkkio- ja rangaistusjärjestelmä?
Anonim

Reinforcement Learning (RL) saa palkkioiden ja rangaistusten järjestelmän. Vahvistusoppiminen on laajempaa kuin valvottu tai ohjaamaton oppiminen tavoitteen saavuttamiseksi tai vain hyötyä ympäristökontaktin kannustimista ja rangaistuksista.

Millaisissa palkinnoissa ja rangaistuksissa palautetta annetaan?

Ensimmäinen on arvioiva palaute vahvistuksena, jossa palkintoja ja rangaistuksia käytetään oppijan käyttäytymisen muokkaamiseen vahvistavien oppimismekanismien avulla.

Mitä palkinto- ja rangaistustyypit ovat?

Yhdistetään nyt nämä neljä termiä: positiivinen vahvistus, negatiivinen vahvistus, positiivinen rangaistus ja negatiivinen rangaistus (taulukko 1). Jotain on lisätty lisäämään käyttäytymisen todennäköisyyttä. Jotain on lisätty vähentämään käyttäytymisen todennäköisyyttä.

Millainen oppiminen perustuu palkitsemiseen ja rangaistukseen?

Epäsuorasti, ilman tietoista käsittelyä, yksilöt oppivat kunkin kontekstin ja toiminnan palkkion ja rangaistuksen arvosta. Nämä assosiatiivisen oppimisen prosessit puolestaan vaikuttavat todennäköisyyteen, että yksilöt ryhtyvät uudelleen sellaisiin toimiin tai etsivät sitä kontekstia.

Miten palkitseminen ja rangaistus vaikuttavat oppimiseen?

Kaiken kaikkiaan palkitsemisella oli vain vähän vaikutusta oppimiseen tai säilyttämiseen. Rangaistus ei vaikuttanut taitojen säilyttämiseen, mutta sillä oli merkittäväätehtävästä riippuvaisia vaikutuksia oppimiseen. SRTT-rangaistuksessa parempi nopeus, mutta vaikutus tarkkuuteen on minimaalinen. Sen sijaan rangaistus heikensi FTT:n suorituskykyä.

Suositeltava: