A pszichológiában évtizedek óta használt klasszikus Stroop-figyelemtesztet alkalmazva a kutatók kimutatták, hogy a vezető mesterséges intelligencia modellek teljesítménye drasztikusan összeomlik, amint a feladat hosszabbá válik. Az LLM-architektúra alapvető korlátaira rávilágító kísérlet bizonyítja, hogy a kontextusablak növelése önmagában képtelen helyettesíteni a valódi, tartós kognitív fókuszt.
A színek és szavak csatája a pszichológiában
A kognitív tudományok egyik legrégebbi és legmegbízhatóbb eszköze a Stroop-hatás vizsgálata, amely az automatikus válaszreakciók és a tudatos kontroll közötti konfliktust méri. Amikor egy kísérleti alanynak a zöld tintával írt kék szó láttán a tinta színét kell megneveznie, a berögzült olvasási inger interferenciát okoz, ami lassítja a reakcióidőt és növeli a hibaarányt. Ez a teszt tökéletesen alkalmas az agy szelektív figyelmének és végrehajtó funkcióinak mérésére, mivel folyamatos koncentrációt követel meg a zavaró tényezők kiszűrésére.
Összeomló figyelem a promptok tengerében
A legfrissebb kutatások során a szakemberek ezt a humánpszichológiai módszert ültették át a digitális térbe, hogy teszteljék a modern nagy nyelvi modellek képességeit. Az eredmények megdöbbentő strukturális gyengeségre mutattak rá. Bár a rövid promptok esetében az LLM-architektúra szinte hibátlanul teljesíti a feladatot, a kontextus hosszának növekedésével a pontosság lineárisan és drasztikusan zuhanni kezd. Amikor a modelleknek több ezer szavas szövegkörnyezetben kellett volna fenntartaniuk a szelektív figyelmet és figyelmen kívül hagyniuk a relevánsnak tűnő, de valójában zavaró mintázatokat, a rendszer belső figyelmi mechanizmusa, a self-attention teljesen csődöt mondott.
A kontextusablak illúziója és a technológiai korlátok
A fejlesztők az elmúlt években óriási hangsúlyt fektettek a kontextusablakok méretének növelésére, azt sugallva, hogy a több százezer token befogadására képes rendszerek képesek komplex, hosszú dokumentumok konzisztens értelmezésére. A Stroop-teszt alapján végzett vizsgálat azonban rávilágít, hogy a hatalmas adatmennyiség egyidejű kezelése nem egyenlő a minőségi feldolgozással. A modellek hajlamosak elveszni a részletekben, és a matematikai valószínűségszámítás alapú működésük miatt a hosszú szövegek végén egyszerűen a korábbi domináns mintákat ismétlik meg, ahelyett, hogy követnék a specifikus utasításokat. Ez komoly aggályokat vet fel az MI-alapú jogi, orvosi és adatelemző szoftverek megbízhatóságával kapcsolatban.
A kísérleti adatok és a modellek teljesítménye
A kutatás során rögzített számszerűsíthető eredmények egyértelműen szemléltetik, hogyan válik bizonytalanná az LLM-architektúra a terhelés növekedésével.
| Vizsgált paraméter | Rövid kontextus (100-500 token) | Hosszú kontextus (10 000+ token) |
|---|---|---|
| Átlagos pontossági ráta | 98,4% | 41,2% |
| Interferencia-kezelési hiba | Minimális | Kritikus mértékű |
| Domináns válaszreakció | Utasításkövető | Mintázatkövető (Ismétlés) |
Hazai kutatási irányok és nyelvi sajátosságok
A felfedezés a magyar nyelvtechnológiai fejlesztések számára is kritikus tanulságokkal szolgál. A ragozó nyelvtan és a bonyolultabb mondatszerkezetek miatt a hazai fejlesztésű nyelvi modellek még inkább ki vannak téve a hosszú távú kontextusvesztés kockázatának. Magyar kutatócsoportok már dolgoznak olyan hibrid eljárásokon, amelyek a hagyományos neurális hálózatokat szabályalapú szűréssel kombinálják, hogy elejét vegyék az ilyen jellegű kognitív fáradásnak a specifikus, hazai közigazgatási és elemző szoftverekben.
A transzformer modellek jövője
Ez a diagnózis kényszerű irányváltást hozhat az iparágban. Nyilvánvalóvá vált, hogy a puszta méretnövelés és a brute force alapú tanítás elérte a határait. A jövő fejlesztéseinek nem a kontextusablak további nyújtására, hanem a dinamikus fókuszmechanizmusok és a külső memória-architektúrák integrálására kell összpontosítaniuk, ha valóban megbízható, autonóm módon gondolkodó rendszereket szeretnének létrehozni.