A visszacsatolás dícsérete IV.: A tanulás hurkai

2025. június 25. szerda

Címkék: _SzürkeÁ _SzürkeÁ.Agyséta

Az elmúlt hetekben az agyi hálózatok talán egyik legbonyolultabbjának, a tanulási rendszernek a viselt dolgait szedtem össze. Belecsapunk egy sorozatba, mely bemutatja hogyan tanul agyunk.

Történetünk veleje, hogy az agy egy több szerveződési szintet magában foglaló többszörösen összetett alaposan visszacsatolt hálózat.

Az eddigiek során megbeszéltük hogyan működnek az idegsejtek, hogyan és milyen tulajdonságokkal rendelkező hálózatokat alkotnak. A PDP alapállításai szerint (lásd a galériát a cikk végén):

1) a jelen az idegsejtek mindenkori aktivitás mintázata, ezzel reprezentáljuk, kódoljuk a világ történéseit,

2) a múltat, a memóriát, a tudást, a sejtek közötti kapcsolatok, a szinapszisok erőssége tárolja,

3) a hálózat aktivitásának fejlődését, következő állapotát, a jövőt (információ feldolgozása, a gondolkodás) az határozza meg, hogy az éppen aktív idegsejtek (jelen) szinaptikus kapcsolataik alapján (múlt) mely más idegsejteket aktiválnak (jövő, tervek) és végül,

4) a tanulás, új memórianyomok kialakulása, a szinaptikus súlyok megváltozása az asszociatív Hebb szabály alapján. A kishálózatok szintjén ez egyszerű, ha két idegsejt egyszerre aktív akkor a közöttük levő kapcsolatok megerősödnek.

Az egész agyat tekintve a tanulás és a memória azonban ennél jelentősen bonyolultabb. Mint kifejtettük, az első szintű hálózatok, melyek az egyes agyi magvakat és agykérgi területeket felépítő kérgi oszlopokat alkotják, egy magasabb szintű, másodlagos hálózatba szerveződnek: az agyi területek hierarchkusan összekapcsolt meta-hálózatába. Az egyes kishálózatok egy-egy feladat megoldására szakosodtak és kölcsönhatásukból áll az információ magas szintű feldolgozása, a cselekvési tervek kovácsolása és a magasabb szintű mentális folyamatok. Láttuk azt, hogy mindkét szinten nagyon fontosak a visszacsatolások, mert káprázatos új képességek megjelenését teszik lehetővé.

Nos, a kishálózatokon működő „egyszerű” tanulásnak is van egy, a meta-hálózatokon működő, a visszacsatolás előnyeit kihasználó meta változata, az agy tanulási rendszere. Ezt a cikornyát mesélem most el.

De miért is kellet kialakulni egy második, összetett tanulási rendszernek az agyban? A kishálózatokban működő Hebbi tanulás mindössze annyit vizsgál, hogy van-e összefüggés a sejtek aktivitása között? Ha van erősítjük, ha nincs, gyengítjük a közöttük lévő kapcsolatokat. Ez egy tanító nélküli tanulás (unsupervised learning), és mint ahogy a tanár nélküli osztályban se mennek túl hatékonyan a dolgok, úgy egy ilyen hálózatokból felépült agy sem tanul a leghatékonyabban. Miért? Mert mindig tanul, mert nem tudja mikor kell tanulni és mikor nem! Azt is megtanulná, amikor a hálózat valami butasággal áll elő megoldásként.
A híres orosz neuropszichológusnak Alexander Romanovics Lurijának (számos olvasmányos könyve jelent meg magyarul, ajánlom mindenkinek őket) volt egy betege, aki mindenre emlékezett. Emlékezett az utcán minden házra, minden ablakra, hány alma volt a zöldséges ládájában, milyen színű lovak húzták a szekeret az utcán. Ez egy hasznos tulajdonságnak tűnik. De nem az, mert a beteg életének lényeges élményei megfulladtak a sok apró tény között, életképtelen volt. Nem tudta a fontosat a lényegtelentől megkülönböztetni, mert valahol valami rosszul volt kapcsolva az agyában.
A felügyelet nélküli és a felügyelt tanulás összehasonlítása.
A hatékony tanuláshoz szükség van tehát egy rendszerre, ami képes a tanulást ki vagy bekapcsolni (a dolgok jelentőségét súlyozni), annak alapján, hogy ami éppen történt az jó vagy rossz, pontosabban, jobb-e vagy kevésbé rossz, mint korábban. Mert ha a megoldással jó irányba mozdultunk, akkor azt nagyon érdemes megjegyezni, ha nem akkor inkább felejtsük el. Ha teljesen lényegtelen nincs mit tanulni, közömbös.

Mi kell mindehhez? Először is fel kell ismernünk, hogy jobb lett-e valami? Ehhez tudnunk kell mi volt korábban és mi van most. Azaz emlékeznünk kell, szükséges egy (vagy több) memória. Ezután össze kell hasonlítanunk a múltat a jelennel, hogy tudjuk a változás irányát. Majd ha jóra fordultak a dolgok, akkor az agy kishálózatainak meg kell mondani, hogy „tessék megjegyezni azt amit éppen csináltál”! Ehhez összehasonlításokra és visszacsatolásokra van szükség, de mint láttuk ez akad bőven az agyban. Az ilyen kiértékelésen és visszacsatoláson alapuló tanítást hívják felügyelt tanulásnak, azaz supervised learning-nek. Ez az amit az agy bonyolult meta-tanuló rendszere megvalósít.
A jutalmazási rendszerben résztvevő területek. A VTA (ventral tegmental area) dopaminerg sejtjei jelzik menyire sikeres a próbálkozásunk. A dopamin a homloklebenyben, a hippokampuszban, az amigdalában és a NAc (nucleus accumbens) területén hatva, sikeres esetben, beindítja a tanulást, örömet és sikerélményt vált ki. A továbbiakban először röviden összefoglalom a dolgok menetét, majd aprólékosan is végig megyünk a rendszereken. Kicsit nehéz a helyes sorrendet felépíteni, mert alaposan összefonódnak a dolgok. Ugyanis a memóriatípusok, a tanulási módok és a jutalom rendszer alaposan egymásba gabalyodik, ráadásul még a döntés/gondolkodás (az előzőekben leírtak) sem válnak el a kiértékelő/jutalmazó rendszertől és a memória kialakulásától.

A memóriák típusaival és időbeli felbontásukkal kezdjük. Merthogy nem egyféle memória van az agyban, hanem többféle, a bonyolult feldolgozási és tervezési hierarchia minden szintjéhez társulnak különböző típusú memóriák.

Utána megnézzük pontosan milyen típusú tanulások vannak, ezek mely memóriarendszerekben zajlanak. Ezután tárgyaljuk talán a legbonyolultabb részrendszert, a jutalmazási rendszert. Ez a rendszer dönti el mikor és mit tanuljunk és mit nem. Ebben számos agyterület hat kölcsön. Agyunknak ki kell számolnia, hogy egy ingerre vagy cselekedetre adott válasz eredménye jó vagy rossz eredménnyel járt-e, pontosabban, hogy jobb lett-e az eredmény mint amit vártunk. Össze kell vetni cselekedeteink eredményét az elvárttal. Azaz, korábbi tapasztalataink alapján (memória, múlt) egy bonyolult jóslatot kell tenni, majd el kell döntenünk, hogy ez jobb-e vagy roszabb mint amit tapasztaltunk (érzékelés, jelen). Ha jobb, akkor a jutalmazási rendszer dopamint szabadít fel az agy számos részén. Agyunk ezzel adja áldását a tanulásra, és egyúttal azt is jelzi, hogy örüljünk, remek tudásra tettünk szert, érdemes volt próbálkozni, mert a próba sikeres volt. Az utolsó részben azt mutatjuk be, hogy a jutalmazási rendszer dopamin pecsétje által jóváhagyott dolgok hogyan rögzülnek végül a memóriában. Hogyan történik meg a Hebbi társításos tanulás az érintett memória rendszerekben az egyes agyterületeken.

Szerző: Gulyás Attila

Eseménynaptár 2025. november

A visszacsatolás dícsérete IV.: A tanulás hurkai

A PDP állításai