A hosszas csevegés a mesterséges intelligencia veszte: Elbukott a Stroop-teszten az LLM-architektúra

LLM Stroop-teszt

A pszichológiában évtizedek óta használt klasszikus Stroop-figyelemtesztet alkalmazva a kutatók kimutatták, hogy a vezető mesterséges intelligencia modellek teljesítménye drasztikusan összeomlik, amint a feladat hosszabbá válik. Az LLM-architektúra alapvető korlátaira rávilágító kísérlet bizonyítja, hogy a kontextusablak növelése önmagában képtelen helyettesíteni a valódi, tartós kognitív fókuszt.

A színek és szavak csatája a pszichológiában

A kognitív tudományok egyik legrégebbi és legmegbízhatóbb eszköze a Stroop-hatás vizsgálata, amely az automatikus válaszreakciók és a tudatos kontroll közötti konfliktust méri. Amikor egy kísérleti alanynak a zöld tintával írt kék szó láttán a tinta színét kell megneveznie, a berögzült olvasási inger interferenciát okoz, ami lassítja a reakcióidőt és növeli a hibaarányt. Ez a teszt tökéletesen alkalmas az agy szelektív figyelmének és végrehajtó funkcióinak mérésére, mivel folyamatos koncentrációt követel meg a zavaró tényezők kiszűrésére.

Összeomló figyelem a promptok tengerében

A legfrissebb kutatások során a szakemberek ezt a humánpszichológiai módszert ültették át a digitális térbe, hogy teszteljék a modern nagy nyelvi modellek képességeit. Az eredmények megdöbbentő strukturális gyengeségre mutattak rá. Bár a rövid promptok esetében az LLM-architektúra szinte hibátlanul teljesíti a feladatot, a kontextus hosszának növekedésével a pontosság lineárisan és drasztikusan zuhanni kezd. Amikor a modelleknek több ezer szavas szövegkörnyezetben kellett volna fenntartaniuk a szelektív figyelmet és figyelmen kívül hagyniuk a relevánsnak tűnő, de valójában zavaró mintázatokat, a rendszer belső figyelmi mechanizmusa, a self-attention teljesen csődöt mondott.

A kontextusablak illúziója és a technológiai korlátok

A fejlesztők az elmúlt években óriási hangsúlyt fektettek a kontextusablakok méretének növelésére, azt sugallva, hogy a több százezer token befogadására képes rendszerek képesek komplex, hosszú dokumentumok konzisztens értelmezésére. A Stroop-teszt alapján végzett vizsgálat azonban rávilágít, hogy a hatalmas adatmennyiség egyidejű kezelése nem egyenlő a minőségi feldolgozással. A modellek hajlamosak elveszni a részletekben, és a matematikai valószínűségszámítás alapú működésük miatt a hosszú szövegek végén egyszerűen a korábbi domináns mintákat ismétlik meg, ahelyett, hogy követnék a specifikus utasításokat. Ez komoly aggályokat vet fel az MI-alapú jogi, orvosi és adatelemző szoftverek megbízhatóságával kapcsolatban.

A kísérleti adatok és a modellek teljesítménye

A kutatás során rögzített számszerűsíthető eredmények egyértelműen szemléltetik, hogyan válik bizonytalanná az LLM-architektúra a terhelés növekedésével.

Vizsgált paraméter Rövid kontextus (100-500 token) Hosszú kontextus (10 000+ token)
Átlagos pontossági ráta 98,4% 41,2%
Interferencia-kezelési hiba Minimális Kritikus mértékű
Domináns válaszreakció Utasításkövető Mintázatkövető (Ismétlés)

Hazai kutatási irányok és nyelvi sajátosságok

A felfedezés a magyar nyelvtechnológiai fejlesztések számára is kritikus tanulságokkal szolgál. A ragozó nyelvtan és a bonyolultabb mondatszerkezetek miatt a hazai fejlesztésű nyelvi modellek még inkább ki vannak téve a hosszú távú kontextusvesztés kockázatának. Magyar kutatócsoportok már dolgoznak olyan hibrid eljárásokon, amelyek a hagyományos neurális hálózatokat szabályalapú szűréssel kombinálják, hogy elejét vegyék az ilyen jellegű kognitív fáradásnak a specifikus, hazai közigazgatási és elemző szoftverekben.

A transzformer modellek jövője

Ez a diagnózis kényszerű irányváltást hozhat az iparágban. Nyilvánvalóvá vált, hogy a puszta méretnövelés és a brute force alapú tanítás elérte a határait. A jövő fejlesztéseinek nem a kontextusablak további nyújtására, hanem a dinamikus fókuszmechanizmusok és a külső memória-architektúrák integrálására kell összpontosítaniuk, ha valóban megbízható, autonóm módon gondolkodó rendszereket szeretnének létrehozni.