A vakbizalom ára: Miért hiszik el az LLM-ek a téves állításokat a figyelmeztetések ellenére is?

strukturalis kognitiv torzítas

A nagy nyelvi modellek (LLM-ek) terjedésével egyre kritikusabbá válik a rendszerek megbízhatósága és ténybeli pontossága. Egy friss kutatás rávilágított arra a rendkívül aggasztó jelenségre, miszerint a mesterséges intelligencia modellek hajlamosak elhinni és készpénznek venni a hamis állításokat, még akkor is, ha a bemenetben explicit módon figyelmeztetést kapnak azok valótlanságáról. Ez a strukturális sérülékenység alapjaiban kérdőjelezi meg az AI-alapú tudásrendszerek és asszisztensek megbízhatóságát olyan kritikus területeken, mint az orvostudomány, a jog vagy a tényellenőrzés.

A kognitív torzítás háttere a neurális hálózatokban

A probléma gyökere a modellek alapvető tanítási módszertanában és a finomhangolási (fine-tuning) folyamatokban rejlik. Amikor egy nyelvi modellt arra készítenek fel, hogy különböző szöveges állításokat dolgozzon fel, a neurális hálózat belső súlyozása hajlamos prioritást adni a kontextusban határozottan megjelenő állításoknak. A tesztek kimutatták, hogy a finomhangolási szakaszok során egy erős belső torzítás (bias) alakul ki, amely a megfogalmazott kijelentéseket igaznak és magabiztosan képviselendőnek jelöli meg, függetlenül az azt megelőző vagy követő rendszerszintű cáfolatoktól.

A finomhangolási tesztek eredményei és a magabiztossági csapda

A kutatók által elvégzett finomhangolási tesztek egyértelműen bizonyítják, hogy az LLM-ek belső reprezentációja aszimmetrikus. Ha a bemeneti szöveg tartalmaz egy fals információt – például egy téves történelmi dátumot vagy egy koholt tudományos tényt –, majd a prompt külön felhívja a gép figyelmét arra, hogy a fentebb olvasható állítás bizonyítottan hamis, a modell a vázadás során mégis hajlamos igazként kezelni és beépíteni azt a válaszába. A generált szövegek ráadásul nem bizonytalanságot tükröznek, hanem kifejezetten magabiztos, tényként közlő narratívát alkalmaznak, ami a felhasználók megtévesztésének legmagasabb kockázatát hordozza magában.

A strukturális torzítás működése és hatásai

Ez a jelenség nem egyszerű hallucináció, hanem a mintafelismerési mechanizmus mellékhatása. Az LLM-ek nem rendelkeznek valóságtudattal vagy a klasszikus értelemben vett logikai szűrővel; a szövegek valószínűségi eloszlását modellezik. Ha egy állítás hangsúlyosan szerepel a kontextusablakban, a matematikai figyelem-mechanizmus (attention mechanism) fókuszba helyezi azt, elnyomva a kísérő meta-információkat, például a figyelmeztetéseket vagy a tiltásokat. Ez a működési sajátosság sebezhetővé teszi a rendszereket a célzott dezinformációs támadásokkal és az adatmérgezéssel (data poisoning) szemben.

Adat-összefoglaló a modellek viselkedési jellemzőiről

Vizsgált terület Megfigyelt viselkedési mintázat Kockázati szint
Explicit figyelmeztetések kezelése A modell figyelmen kívül hagyja a tiltást, és beépíti a fals állítást. Kritikus
Finomhangolási torzítás (Fine-tuning bias) Erős belső elmozdulás a kijelentések igaznak való reprezentálása felé. Magas
Kimeneti narratíva stílusa Túlzott magabiztosság a téves adatok közlése során is. Magas

Magyar vonatkozások és a nyelvi korlátok felerősödése

A kisebb erőforrással rendelkező nyelvek, mint a magyar, még inkább kitettek a fenti problémának. Mivel a magyar nyelvű finomhangolási adathalmazok nagyságrendekkel kisebbek az angolhoz képest, a modellek belső logikai és tényellenőrző képességei korlátozottabbak. Magyar nyelvű promptok esetén a kontextusban elhelyezett hamis állítások és az arra figyelmeztető utasítások nyelvi feldolgozása könnyebben csúszik el, aminek eredményeként a rendszer még nagyobb arányban veszi át a téves információkat, mint a globális nyelveken futtatott teszteknél.

Kilátások és a technológiai fejlesztés irányai

A probléma megoldása érdekében a kutatók szerint radikálisan meg kell változtatni a modellek igazságtartalom-értékelő architektúráját. A tisztán statisztikai alapú szöveggenerálást össze kell kapcsolni külső, szimbolikus tudásgráfokkal és olyan dedikált ellenőrző rétegekkel, amelyek képesek a logikai ellentmondásokat még a kimenet generálása előtt kiszűrni. Amíg ezek a technológiák nem válnak a standard architektúrák részévé, az LLM-ek asszisztensi szerepköre komoly emberi felügyeletet igényel.