Evo2: Az open source mesterséges intelligencia, amely a DNS nyelvén beszél

A bioinformatika és a genetikai kutatások új korszakba léptek az Evo2 megjelenésével. Ez a nagyméretű genommodell (Large Genome Model – LGM) képes értelmezni és generálni az élet kódját, áthidalva a baktériumok egyszerű felépítése és az eukarióták, köztük az emberi genom komplexitása közötti szakadékot. A nyílt forráskódú projekt nemcsak a tudományos közösség számára vált elérhetővé, hanem új utat mutat a betegségek megértése és a precíziós orvoslás felé.

A bakteriális egyszerűségtől az emberi komplexitásig

A genetikai modellek korábbi generációi, mint például az első Evo változat, elsősorban a baktériumok genomjára összpontosítottak. Ennek oka a bakteriális DNS viszonylagos egyszerűsége: a gének szorosan egymás mellett helyezkednek el, nincsenek bennük felesleges szakaszok, és a szabályozó mechanizmusaik is jól átláthatóak. Ezzel szemben az eukarióta sejtek – amelyek az embert is felépítik – genomja sokkal kaotikusabbnak tűnik a hagyományos algoritmusok számára.

Az emberi DNS-ben a kódoló szakaszokat (exonok) hosszú, nem kódoló régiók (intronok) szakítják meg. A szabályozó elemek pedig gyakran több százezer bázispárnyi távolságra helyezkednek el attól a géntől, amelyet vezérelnek. Az Evo2 legnagyobb áttörése, hogy képes felismerni ezeket a távoli összefüggéseket, és azonosítani a genom azon rejtett mintázatait, amelyeket az emberi szem vagy a korábbi szoftverek gyakran figyelmen kívül hagytak.

Trilliónyi bázispárra épülő tudás

Az Evo2 tanítása során a kutatók az OpenGenome2 adatbázist használták, amely elképesztő mennyiségű, 8,8 trillió bázispárnyi DNS-szekvenciát tartalmaz az élet mindhárom doménjéből: baktériumokból, archeákból és eukariótákból. A folyamat két fázisban zajlott, hogy a modell egyszerre értse meg a lokális részleteket és a globális összefüggéseket.

Első fázis: Rövidebb, körülbelül 8000 bázispár hosszúságú szakaszokon tanították meg a rendszernek az alapvető funkciók, mint a promoter régiók és a génhatárok felismerését.
Második fázis: Egymillió bázispár hosszúságú kontextusablakot használtak, ami lehetővé tette a modell számára a nagyléptékű genomszerkezet és a távoli szabályozó elemek közötti kapcsolatok feltérképezését.

A kutatók szándékosan kihagyták a tanításból az emberi eukariótákat fertőző vírusokat, hogy elkerüljék a rendszer esetleges visszaélését biológiai veszélyforrások tervezésére. Ez az etikai megfontolás alapvető része volt a projektnek, miközben maga a forráskód és a modell paraméterei teljesen nyitottak maradtak a kutatók számára.

Jellemző	Evo2 Specifikációk
Modell architektúra	Konvolúciós neurális hálózat (StripedHyena2)
Tanítási adathalmaz	8,8 trillió bázispár (OpenGenome2)
Paraméterszám	7 milliárd és 40 milliárdos verziók
Fő képességek	Intron/exon határok azonosítása, mutációk hatásának becslése
Licenc	Open Source (nyílt forráskódú)

A mutációk hatásának precíz előrejelzése

Az orvostudomány egyik legnagyobb kihívása annak eldöntése, hogy egy adott DNS-mutáció ártalmatlan variáció vagy egy súlyos betegség okozója. Az Evo2 ebben a feladatban kiemelkedő teljesítményt nyújt. A kutatók tesztelték a modellt a BRCA2 génen, amelynek mutációi szoros összefüggésben állnak a rák kialakulásával.

A rendszer képes volt azonosítani, hogy mely báziscsere szakítja meg a fehérjeszintézist (például egy stop-szignál korai beiktatásával), és melyek azok, amelyek csak kisebb változást okoznak. Az Evo2 predikciós képességei bizonyos esetekben felülmúlták a kifejezetten erre a célra fejlesztett, speciális szoftvereket is, mindezt úgy, hogy a modell nem kapott előzetes útmutatást konkrét betegségekről – tisztán a genom statisztikai mintázataiból tanult.

Magyar vonatkozások és a kutatás jövője

Bár a fejlesztés az Egyesült Államokban (Columbia University, UC Berkeley) zajlott, az Evo2 nyílt forráskódú jellege kritikus fontosságú a magyar kutatóhálózat számára is. A hazai bioinformatikai műhelyek, például az Eötvös Loránd Kutatási Hálózat (HUN-REN) vagy a nagy egyetemek genetikai tanszékei számára az Evo2 egy olyan ingyenesen hozzáférhető eszközt jelent, amellyel saját adatsorokon végezhetnek mélyelemzést, anélkül, hogy drága kereskedelmi szoftverekre vagy zárt architektúrájú rendszerekre támaszkodnának.

A modell segítségével a magyar kutatók is hatékonyabban azonosíthatják a ritka betegségek hátterében álló genetikai variánsokat, vagy tervezhetnek olyan RNS-alapú terápiákat, amelyek a genom szabályozó mechanizmusait használják ki. Az Evo2 képessége, hogy felismeri a funkcionális RNS-molekulákat és azok szerkezeti elemeit, kulcsfontosságú lehet az innovatív gyógyszerfejlesztésben.

Kilátások: Egy új automatizált annotáció felé

Az Evo2 jelenlegi formájában leginkább egy rendkívül fejlett „szövegértelmezőként” működik a biológia számára. A jövőben a modell finomhangolásával lehetőség nyílik arra, hogy teljesen ismeretlen fajok genomját másodpercek alatt annotálják, azaz megjelöljék benne a géneket és funkcionális egységeket. Ez alapjaiban gyorsíthatja fel az evolúciós biológiai kutatásokat és a mezőgazdasági géntechnológiát.

Bár az Evo2 még nem képes komplex, teljesen új fehérjéket tervezni nulláról az emberi sejtek számára úgy, mint tette azt korábban a baktériumoknál, a fejlődés iránya egyértelmű. Ahogy a biológiai kísérletek adatai visszacsatolásként beépülnek a rendszerbe, a mesterséges intelligencia nemcsak olvasni, hanem precízen írni is megtanulja majd az élet kódját.

Diablo 4: Sürgős mentőövet dobott a Blizzard a dühöngő játékosoknak

A szürreális, agycsavaró The Dream of a Cockspur júliusban szabadítja ránk a kozmikus horrort

Távozik az Epic Games Store vezére: Steve Allison a Saber Interactive csapatánál folytatja

Kényelmi funkciókkal és komoly optimalizációval fut be a Dragon’s Dogma 2: Dark Arisen

Triplázik a Future Games Show a nyári Gamescomon

Közös napon debütál a Castlevania: Belmont’s Curse: itt a Switch-verzió dátuma

Elveszett lemezek, elszálló árak: Trösztellenes eljárás fenyegeti a PlayStationt Mexikóban

8000 MHz felett a kínai DDR5: az MSI komoly tuningot hoz a CXMT memóriákra

Visszavonul Glen Schofield, a sci-fi horror és az akciójátékok korszakos veteránja

Elmaradt a csoda: újabb leépítési hullám sújtja a Splitgate alkotóit

Evo2: Az open source mesterséges intelligencia, amely a DNS nyelvén beszél