VAHVISTUSAIKATAULUT (SCHEDULES OF REINFORCEMENT)

 

  • kertovat, miten ja milloin koiraa palkitaan

  • ihmiset turhan systemaattisia palkitsemisessa

  • tutkimus hiiristä labyrintissä: satunnainen vahvistaminen laittoi hiiret juoksemaan nopeammin. Jos vahvistettiin joka toista juoksemista säännöllisesti à joka toinen juokseminen hidas ja joka toinen nopea = oppivat kaavan (jos nyt palkitaan, seuraavaa ei à ei kannata juosta silloin lujaa)

  • oppivat myös monimutkaisemmat säännölliset palkitsemisen kaavat

  • tämän vuoksi palkitsemistapaa suositellaan vaihdeltavaksi

Erilaisia vahvistusaikatauluja

1. Jatkuva vahvistaminen (continuous reinforcement CRF): jokaisesta palkitaan. Paras uuden asian opettamisessa. Tasainen tahti reaktioissa, reagointi vähitellen hidastuu.

  • esim. valojen laittaminen päälle, limsa-automaatin käyttäminen  tällä aikataululla

  • jos ei heti toimi -> ei käytetä yydelleen

  • sammummiselle altis

 

2. Osittainen tai jaksottainen vahvistaminen (partial tai intermittent reinforcement PRF): silloin tällöin palkitaan

  • kiinteä suhde (fixed ratio FR). Esim. FR-5 à joka viides palkitaan. Korkea tasainen tahti, nopeat vastineet, mutta palkkion jälkeen heti seuraavat heikompia.

  • vaihteleva suhde (variable ratio VR). Palkkioiden tulo vaihtelee. Keskiarvokaavat, VR-5 à keskiarvo on viisi, eläin palkitaan keskimäärin 5 kerran jälkeen. Korkea tasainen tahti, ei vahvisteenjälkeisiä hitauksia. Peliautomaatit, kalastaminen. Ei liian suuri väli, ettei eläin lopeta työskentelemästä. Suhdetta ei saa nostaa liian nopeasti.

  • kiinteä väli (fixed interval FI). Palkkio tulee tietyn ajan jälkeen. Esim. FI-5 à 5 s jälkeen edellisestä vastineesta palkitaan. Koira oppii odottamaan ennen tekemistä.

  • vaihteleva väli (variable interval VI). Esim. VI-5 à väli ennen palkkion ansaitsemismahdollisuutta vaihtelee keskimäärin 5 s välein. Joskus joutuu odottamaan 10 s, joskus vain 1 s. Esim. yritetään soittaa jollekin, ei vastaa / puhuu toisen kanssa - ei voida tietää, milloin vastaa, joten soitetaan epäsäännöllisin välein.

  • em. väliaikataulut (FI, VI) à voidaan täydentää ns. limited hold eli rajoitettu odotusaika.
  • jos eläin ei tee halutussa ajassa à palkkio pois à latenssin parantaminen

  • esim. ruoka tarjolla koulussa tiettynä aikana ja jos ei silloin tule syömään à  ruokaa ei enää ole

Erotteleva vahvistaminen (differential reinforcement)

  • määrään liittyvä vahvistaminen: kuinka nopeasti reaktio tapahtui edellisen jälkeen
  • tyyppiin liittyvä vahvistaminen: vastineen laatu
  • vastineen nopeusaikataulut (rate)
  • tietty määrä vastineita ennen vahvistamista

  • palkkion saaminen riippuu siitä, kuinka nopeasti uusi toiminto tulee edellisen jälkeen

  • esim. vahvistetaan vain jos koira tekee alle 5 s jälkeen edellisestä

  • differential reinforcement of high/low rates DRH ja DRL: joko lyhyt aika edellisestä toistosta tai pitempi aika ennen seuraavaa toistoa

  • vastineen tyypin aikataulut (type)
  • vastineen pitää olla tietyn tyyppinen tai -laatuinen

  • kannustetaan oikeaa käytöstä ja eliminoidaan ei-toivottua

  • tähän kuuluu yhteensopimattomien toimintojen vahvistaminen (diffrential reinforcement of incompatible behaviors DRI) tai vaihtoehtoisten toimintojen harjoittelu (alternative response training) tai vastakäskyttäminen (countercommanding)

  • esim. koira hyppii – vahvistetaan istumista, jota ei voi tehdä hyppimisen kanssa samaan aikaan (DRI)

  • voidaan myös vahvistaa mitä tahansa käytöstä, joka ei ole ei-toivottua (erilaisten käytösten erottelevaa vahvistamista = differential reinforcement of other behaviors DRO)

  • erinomaisten käytösten erotteleva vahvistaminen (differential reinforcement of excellent behaviors DRE): ei psykologian oppikirjoissa. Käytännöllinen harjoitellessa, valitaan hyvät suoritukset palkittaviksi

Kestoaikataulut (duration schedules), keskiarvon ympärillä muuntelu keston lisäämiseksi (bouncing)

  • kesto yksi (vaikea) ulottuvuus
  • eläimen pitää tehdä samalla tasolla koko ajan palkkion saadakseen, esim. paikallaolo, vähitellen lisätään kestoa
  • kestoa pidennettäessä pidennetään ensimmäistä paikallaolojaksoa sekä viimeistä
  • bouncing metodi eli keskiarvon ympärillä ”pomppiminen”
  • ihmiset ennalta-arvattavia, rytmi helposti tulee esille -> siksi parempi laskea miten lisää kestoa
  • uusi käytös ja kestoa sille
  • viivytetään klikkausta 1 s ajan = 1 vaihe
  • sitten 2 s kunnes päästään 5 s:in
  • 5 s rajana pomppimiselle: maksimi 5, joten keskiarvo 3. Vaihdellaan tästä lähtien aikaa kuinka kauan koiran pitää säilyttää haluttu käytös, esim.
  • 2 – 5 – 3 – 1– 4 – 3  s ennen klikkausta

  • koira kesti 6 3:n keskiarvon harjoitusta
  • seuraava keskiarvo 4 tai 5 ja sen ympärillä pomppimista
  • jatketaan samaa rataa lisäten aikaa
  • toistoja / keskiarvo max. 10

Mitä pitäisi käyttää?

  • joidenkin mielestä pitää käyttää ajoittaista vahvistamista, joidenkin mielestä ei, koska ei kuitenkaan pystytä vahvistamaan jatkuvasti – monimutkaisissa käytöksissä tulee aina ajoittaista vahvistamista -> ei tarvetta erikseen muuttaa jatkuvasta vahvistamisesta ajoittaiseen
  • ajoittainen vahvistaminen -> käytös tulee vahvemmaksi häviämistä vastaan (etenkin VR)
  • jatkuva vahvistaminen -> vahvistaminen loppuu äkillisesti -> käytös häviää nopeasti
  • B.Bailey: tottelevaisuutta ajatellen käytöksestä pitää tehdä mahdollisimman hyvä/vahva, ilman suurta vaihtelua (sitä ei kehässä haluta vaan tasaisia samanlaisia hyviä suorituksia). Jos käyttää vaihtelevia aikatauluja -> saa vaihtelua. Kokeessa palautetta voi antaa muutoinkin kuin namilla/lelulla (kehu, eleet jne.). Jatkuva (erotteleva) vahvistaminen käytössä hänen mukaansa tottelevaisuussuorituksia ajatellen.
  • yleistä on käyttää: kun koira osaa -> sen jälkeen ajoittaiseen/satunnaiseen palkitsemiseen
  • milloin koira osaa? 80 % sääntö hyvä = 8/10 tekee oikein (tai 4/5)
  • ehdotus: jotain vaihtelevuutta harjoitteluun
  • uutta opetettaessa à jatkuva vahvistaminen

  • sheipatessa ajoittaista vahvistamista, kun valitaan käytökset, joista palkitaan

  • käytös vakaa à voidaan pyytää 2-3 toistoa ennen palkkiota, pitempiä ja lyhyempiä kestoltaan, erottelevaa vahvistamista

  • erilaiset palkkiot

  • toisaalta; kun käytös on jo olemassa à sitä ei tule palkinneeksi, joten luonnollisestikin ajoittaista vahvistamista (esim. istuminen, jota tapahtuu usein ilman palkkiota)
  • ongelmia voi syntyä, jos yhtäkkiä siirtyy ajoittaiseen palkitsemiseen pitkään jatkuneen jatkuvan palkitsemisen jälkeen 

Ajoittainen vahvistaminen – mikä niistä?

  • joko–tai –toiminto -> satunnainen suhde tai vaihteleva suhde (RR tai VR)
  • monimutkaisemmat -> erotteleva vahvistaminen
  • erottelutehtävä -> jatkuva vahvistaminen (kuten palapelin kokoamisessa palojen pitää sopia omille paikoilleen)
  • pitkäkestoiset toiminnot -> välillä "yllätyspalkkioita" heti alussa, jottei suoritus heikkene (esim. seuraaminen) (= menee liian kaavamaiseksi = kiinteä suhde tai väli FR tai FI, koira on oppinut, että alussa ei kuitenkaan palkita -> siksi kokeessa esim. seuraaminen paranee huomattavasti loppua kohden)

Kuinka monta palkitaan ja kuinka monta välissä ei palkita?

  • vaihtelee koiran mukaan
  • rottakokeet käytävässä: 50-75% vahvistus saatava, jotta toiminto säilyisi
  • helppo toiminto à palkkio harvemmin ja päinvastoin
  • primaaristen ja sekundaaristen vahvisteiden osuus eli kuinka paljon esim. kehuu koiraa -> vaikuttaa toiminnon säilymiseen (jos ei kehu -> enemmän primaarisia vahvisteita, jos kehuu -> vähemmän primaarisia vahvisteita samaan määrään toistoja) (HUOM! Naksu = aina primaarinen vahviste mukana)
  • koiran pitää erottaa ne toiminnot, joista ei tule palkkiota ja ovat joko a) oikein tai b) väärin
  • joissakin väärä toiminto à time-out/palkkion poisvienti (P-) tai väärin –signaalit (no-reward-marker NRM)
  • voidaan jakaa…tekee oikein, mutta ei vahvistetta à ehdollinen vahviste (hyvä); tekee oikein ja vahvistetaan à ehdollinen ja ehdoton vahviste; tekee väärin à ehdollinen vahviste (väärin NRM)
  • Huom: ketjuttamisessa edellinen osa toimii seuraavan osan vahvisteena

Entä klassinen ehdollistuminen?

  • jatkuva vahvistaminen parasta tässä
  • jatkuva yhteys primaarisen ja sekundaarisen vahvisteen välillä

Esimerkkejä vahvistamisesta

  • valojen laittaminen päälle = jatkuva vahv. Jos ei toimi -> ei kovin kauaa napsutella valoja päälle = ei vahva sammumiselle
  • huonosti käynnistyvä auto = ajoittainen vahv. Jos ei toimi -> startataan uudelleen kunnes lähtee liikkeelle = vahva sammumiselle
  • peliautomaatti = ajoittainen vahv., VR. Jos ei koskaan saa rahaa -> silloin (ehkä) lopettaa. Erittäin vahva sammumiselle