A hosszas csevegés a mesterséges intelligencia veszte: Elbukott a Stroop-teszten az LLM-architektúra

A pszichológiában évtizedek óta használt klasszikus Stroop-figyelemtesztet alkalmazva a kutatók kimutatták, hogy a vezető mesterséges intelligencia modellek teljesítménye drasztikusan összeomlik, amint a feladat hosszabbá válik. Az LLM-architektúra alapvető korlátaira rávilágító kísérlet bizonyítja, hogy a kontextusablak növelése önmagában képtelen helyettesíteni a valódi, tartós kognitív fókuszt.

A színek és szavak csatája a pszichológiában

A kognitív tudományok egyik legrégebbi és legmegbízhatóbb eszköze a Stroop-hatás vizsgálata, amely az automatikus válaszreakciók és a tudatos kontroll közötti konfliktust méri. Amikor egy kísérleti alanynak a zöld tintával írt kék szó láttán a tinta színét kell megneveznie, a berögzült olvasási inger interferenciát okoz, ami lassítja a reakcióidőt és növeli a hibaarányt. Ez a teszt tökéletesen alkalmas az agy szelektív figyelmének és végrehajtó funkcióinak mérésére, mivel folyamatos koncentrációt követel meg a zavaró tényezők kiszűrésére.

Összeomló figyelem a promptok tengerében

A legfrissebb kutatások során a szakemberek ezt a humánpszichológiai módszert ültették át a digitális térbe, hogy teszteljék a modern nagy nyelvi modellek képességeit. Az eredmények megdöbbentő strukturális gyengeségre mutattak rá. Bár a rövid promptok esetében az LLM-architektúra szinte hibátlanul teljesíti a feladatot, a kontextus hosszának növekedésével a pontosság lineárisan és drasztikusan zuhanni kezd. Amikor a modelleknek több ezer szavas szövegkörnyezetben kellett volna fenntartaniuk a szelektív figyelmet és figyelmen kívül hagyniuk a relevánsnak tűnő, de valójában zavaró mintázatokat, a rendszer belső figyelmi mechanizmusa, a self-attention teljesen csődöt mondott.

A kontextusablak illúziója és a technológiai korlátok

A fejlesztők az elmúlt években óriási hangsúlyt fektettek a kontextusablakok méretének növelésére, azt sugallva, hogy a több százezer token befogadására képes rendszerek képesek komplex, hosszú dokumentumok konzisztens értelmezésére. A Stroop-teszt alapján végzett vizsgálat azonban rávilágít, hogy a hatalmas adatmennyiség egyidejű kezelése nem egyenlő a minőségi feldolgozással. A modellek hajlamosak elveszni a részletekben, és a matematikai valószínűségszámítás alapú működésük miatt a hosszú szövegek végén egyszerűen a korábbi domináns mintákat ismétlik meg, ahelyett, hogy követnék a specifikus utasításokat. Ez komoly aggályokat vet fel az MI-alapú jogi, orvosi és adatelemző szoftverek megbízhatóságával kapcsolatban.

A kísérleti adatok és a modellek teljesítménye

A kutatás során rögzített számszerűsíthető eredmények egyértelműen szemléltetik, hogyan válik bizonytalanná az LLM-architektúra a terhelés növekedésével.

Vizsgált paraméter	Rövid kontextus (100-500 token)	Hosszú kontextus (10 000+ token)
Átlagos pontossági ráta	98,4%	41,2%
Interferencia-kezelési hiba	Minimális	Kritikus mértékű
Domináns válaszreakció	Utasításkövető	Mintázatkövető (Ismétlés)

Hazai kutatási irányok és nyelvi sajátosságok

A felfedezés a magyar nyelvtechnológiai fejlesztések számára is kritikus tanulságokkal szolgál. A ragozó nyelvtan és a bonyolultabb mondatszerkezetek miatt a hazai fejlesztésű nyelvi modellek még inkább ki vannak téve a hosszú távú kontextusvesztés kockázatának. Magyar kutatócsoportok már dolgoznak olyan hibrid eljárásokon, amelyek a hagyományos neurális hálózatokat szabályalapú szűréssel kombinálják, hogy elejét vegyék az ilyen jellegű kognitív fáradásnak a specifikus, hazai közigazgatási és elemző szoftverekben.

A transzformer modellek jövője

Ez a diagnózis kényszerű irányváltást hozhat az iparágban. Nyilvánvalóvá vált, hogy a puszta méretnövelés és a brute force alapú tanítás elérte a határait. A jövő fejlesztéseinek nem a kontextusablak további nyújtására, hanem a dinamikus fókuszmechanizmusok és a külső memória-architektúrák integrálására kell összpontosítaniuk, ha valóban megbízható, autonóm módon gondolkodó rendszereket szeretnének létrehozni.

Kapcsolódó tartalom

A Grim Dawn kiegészítője és kézzel hímzett indie csoda a július végi játékkínálatban

Elveszi a kedvet a rendszerszintű változástól a szelektív hulladékgyűjtés? Döntött a tudomány.

Gyorsabban tágul az Univerzum a fénynél: Einstein törvényei mégis sértetlenek maradnak

A memóriakrízis elérte a Google-t: drágább lesz a Pixel 11 széria

Adatszivárgási botrány a Vatikánban: Védtelenül maradt a Click to Pray alkalmazás 700 ezer felhasználója

Bíróságon csap össze az Amazon és a Warner Bros. Discovery a stúdió kulcsemberének átigazolása miatt

Mérnöki szigor válthatja a pénzügyi szemléletet az Apple élén

NVIDIA és SK Group: 500 milliárd dolláros AI-infrastruktúra szövetség indult

A Revelations kiegészítő elhozta a Doom: The Dark Ages valódi csúcspontját

A Silent Hill f íróinak évi 200 könyvet kellett elolvasniuk a fejlesztés alatt