Det er lidt ligesom man træner en hund med belønning i form af godbidder.
Når udviklere skal træne en kunstig intelligens til at blive bedre til en opgave, sætter de den nemlig til at udføre en handling igen og igen, samtidig med at give den en belønning, når den gør noget rigtigt.
Belønningen eller “godbidden” for en kunstig intelligens er for eksempel point i et computerspil eller brætspil. Den kunstige intelligens prioriterer at få “godbidder” og maksimerer handlinger, der giver point.
På den måde bliver den bedre og bedre til at spille.
Det er fx den metode, udviklerne brugte til at træne AlphaGo, der for nyligt slog verdensmesteren i spillet “Go”. Men for den kunstige intelligens kan blive bedre, er det nødvendigt, at der er en form for belønning, som systemet kan registrere.
Men et forskerhold ledet af Deepak Pathak fra Berkley-universitetet har nu udviklet en metode, der belønner systemerne for at være nysgerrige helt af sig selv, dvs. at intelligensen bliver belønnet for at opdage nye områder, uden at den får “point” i spillet. Det skriver New Scientist.
Nye færdigheder
Selvom det måske lyder simpelt, så betyder den menneskeskabte nysgerrighed, at den kunstige intelligens bliver bedre til at udforske. I stedet for at blive belønnet for at lede efter point i spillet, bliver den belønnet for at udforske og lære nye færdigheder af sig selv.
Metoden betyder, at en kunstig intelligens på den måde kan lære langt hurtigere og mere effektivt end ved den konventionelle metode.
Deepak Pathak mener, at metoden kan bruges til at træne computere og robotter til at bevæge sig mere bevidst.
Indtil videre kun i computerspil, men han mener, at det måske kunne blive aktuelt i fx. robotstøvsugere i fremtiden, hvor den kunstige intelligens kan lære at udforske nye steder.
Andre forskere indenfor feltet er dog mere tvivlsomme om metoden kan overføres til virkeligheden endnu, skriver New Scientist.
I videoen kan man se, hvordan den kunstige intelligens afprøver sin nysgerrighed i to forskellige spil.
https://www.youtube.com/watch?v=J3FHOyhUn3A