A nagy nyelvi modellek (LLM-ek) terjedésével egyre kritikusabbá válik a rendszerek megbízhatósága és ténybeli pontossága. Egy friss kutatás rávilágított arra a rendkívül aggasztó jelenségre, miszerint a mesterséges intelligencia modellek hajlamosak elhinni és készpénznek venni a hamis állításokat, még akkor is, ha a bemenetben explicit módon figyelmeztetést kapnak azok valótlanságáról. Ez a strukturális sérülékenység alapjaiban kérdőjelezi meg az AI-alapú tudásrendszerek és asszisztensek megbízhatóságát olyan kritikus területeken, mint az orvostudomány, a jog vagy a tényellenőrzés.
A kognitív torzítás háttere a neurális hálózatokban
A probléma gyökere a modellek alapvető tanítási módszertanában és a finomhangolási (fine-tuning) folyamatokban rejlik. Amikor egy nyelvi modellt arra készítenek fel, hogy különböző szöveges állításokat dolgozzon fel, a neurális hálózat belső súlyozása hajlamos prioritást adni a kontextusban határozottan megjelenő állításoknak. A tesztek kimutatták, hogy a finomhangolási szakaszok során egy erős belső torzítás (bias) alakul ki, amely a megfogalmazott kijelentéseket igaznak és magabiztosan képviselendőnek jelöli meg, függetlenül az azt megelőző vagy követő rendszerszintű cáfolatoktól.
A finomhangolási tesztek eredményei és a magabiztossági csapda
A kutatók által elvégzett finomhangolási tesztek egyértelműen bizonyítják, hogy az LLM-ek belső reprezentációja aszimmetrikus. Ha a bemeneti szöveg tartalmaz egy fals információt – például egy téves történelmi dátumot vagy egy koholt tudományos tényt –, majd a prompt külön felhívja a gép figyelmét arra, hogy a fentebb olvasható állítás bizonyítottan hamis, a modell a vázadás során mégis hajlamos igazként kezelni és beépíteni azt a válaszába. A generált szövegek ráadásul nem bizonytalanságot tükröznek, hanem kifejezetten magabiztos, tényként közlő narratívát alkalmaznak, ami a felhasználók megtévesztésének legmagasabb kockázatát hordozza magában.
A strukturális torzítás működése és hatásai
Ez a jelenség nem egyszerű hallucináció, hanem a mintafelismerési mechanizmus mellékhatása. Az LLM-ek nem rendelkeznek valóságtudattal vagy a klasszikus értelemben vett logikai szűrővel; a szövegek valószínűségi eloszlását modellezik. Ha egy állítás hangsúlyosan szerepel a kontextusablakban, a matematikai figyelem-mechanizmus (attention mechanism) fókuszba helyezi azt, elnyomva a kísérő meta-információkat, például a figyelmeztetéseket vagy a tiltásokat. Ez a működési sajátosság sebezhetővé teszi a rendszereket a célzott dezinformációs támadásokkal és az adatmérgezéssel (data poisoning) szemben.
Adat-összefoglaló a modellek viselkedési jellemzőiről
| Vizsgált terület | Megfigyelt viselkedési mintázat | Kockázati szint |
|---|---|---|
| Explicit figyelmeztetések kezelése | A modell figyelmen kívül hagyja a tiltást, és beépíti a fals állítást. | Kritikus |
| Finomhangolási torzítás (Fine-tuning bias) | Erős belső elmozdulás a kijelentések igaznak való reprezentálása felé. | Magas |
| Kimeneti narratíva stílusa | Túlzott magabiztosság a téves adatok közlése során is. | Magas |
Magyar vonatkozások és a nyelvi korlátok felerősödése
A kisebb erőforrással rendelkező nyelvek, mint a magyar, még inkább kitettek a fenti problémának. Mivel a magyar nyelvű finomhangolási adathalmazok nagyságrendekkel kisebbek az angolhoz képest, a modellek belső logikai és tényellenőrző képességei korlátozottabbak. Magyar nyelvű promptok esetén a kontextusban elhelyezett hamis állítások és az arra figyelmeztető utasítások nyelvi feldolgozása könnyebben csúszik el, aminek eredményeként a rendszer még nagyobb arányban veszi át a téves információkat, mint a globális nyelveken futtatott teszteknél.
Kilátások és a technológiai fejlesztés irányai
A probléma megoldása érdekében a kutatók szerint radikálisan meg kell változtatni a modellek igazságtartalom-értékelő architektúráját. A tisztán statisztikai alapú szöveggenerálást össze kell kapcsolni külső, szimbolikus tudásgráfokkal és olyan dedikált ellenőrző rétegekkel, amelyek képesek a logikai ellentmondásokat még a kimenet generálása előtt kiszűrni. Amíg ezek a technológiák nem válnak a standard architektúrák részévé, az LLM-ek asszisztensi szerepköre komoly emberi felügyeletet igényel.