Kiszivárgott a mesterséges intelligenciát tápláló zenei adatbázis: bárki rákereshet a saját dalaira

ai-zenei-adatbazis-szerzoi-jog

Hatalmas mérföldkőhöz érkezett az engedély nélküli tartalomfelhasználás elleni küzdelem, miután fény derült az AI-modellek tanítására használt gigantikus zenei gyűjteményekre. Az iparági titkolózást megtörve mostantól közvetlenül is ellenőrizhetővé vált, hogy a technológiai vállalatok mely előadók szerzői jog által védett alkotásait használták fel saját generatív rendszereik kiképzésére.

Az ellopott dallamok nyomában

Az Atlantic riportere, Alex Reisner oknyomozó munkája során feltárt négy olyan hatalmas zenei adatkészletet, amelyeket a tech vállalatok a generatív zenei modellek tanítására használnak fel. A vizsgálat kiderítette, hogy ezek a gyűjtemények összesen körülbelül 21,2 millió dalt tartalmaznak. Az adatkészletek átláthatóságának biztosítása érdekében a magazin ingyenesen elérhetővé és kereshetővé tette a teljes adatbázist az AI Watchdog nevű platformján. Ez a felület korábban, még 2025-ben könyvek, kutatási cikkek és videók nyomon követésére indult, ám a zenei szektor rendszerszintű adatkaparási gyakorlata miatt most kibővítették a hanganyagok vizsgálatával is.

Milliós tételek a Hugging Face és a LAION szerverein

A kutatás részletesen azonosította a fejlesztői közösségekben kézről kézre járó négy fő forrást. A két legnagyobb adatbázis egészen elképesztő mennyiségű zeneszámot tömörít magában: az egyik 12 millió, míg a másik 9 millió dalt tartalmaz. Technikailag ezek a rendszerek többnyire nem magukat az audiofájlokat tárolják, hanem strukturált mutatóként működnek, amelyek YouTube és Spotify hivatkozásokat, valamint a hozzájuk tartozó metaadatokat tartalmazzák. Az AI-fejlesztők olyan automatizált letöltőszoftvereket használnak, amelyek képesek megkerülni a platformok bejelentkezési felületeit, a hirdetéseket és a készítők monetizációs mechanizmusait is. A kisebb csomagok között megtalálható a Free Music Archive egyetemi kutatók által összeállított verziója is, amely ugyan Creative Commons licenc alatt futott, de eredetileg nem kereskedelmi célú generátorok kiképzésére hozták létre.

A legnagyobb sztárok és a felháborodott művészek

Az adatok szerint a legnépszerűbb világmárkák és független előadók számai egyaránt bekerültek a darálóba. Olyan nevek szerepelnek a listákon, mint Taylor Swift, Drake, The Weeknd, Justin Bieber, Bad Bunny, a Nirvana és a Beatles. Drake esetében csaknem 800, míg The Weekndnél 460 egyedi bejegyzést találtak. A művészek reakciója a felfedezésre rendkívül heves volt. Tre Mission kanadai rapper és producer, akinek 20 dala bukkant fel a rendszerben, nyilvánosan kijelentette, hogy százszalékig biztos benne, hogy soha nem adott ehhez hozzájárulást, és mélységesen csalódott a tech cégek eljárásában. Hasonló elkeseredettségnek adott hangot többek között a Backxwash és a Titus Andronicus is.

Adatkészlet / Forrás neve Érintett dalok száma Főbb érintett előadók (példák) Technikai működés jellege
LAION-DISCO-12M Körülbelül 12,6 millió Taylor Swift, Bad Bunny, Billie Eilish YouTube Music URL-ek és metaadatok jegyzéke
Sleeping-DISCO-9M Körülbelül 9 millió Drake, The Weeknd, Nirvana, AC/DC Kereskedelmi platformokról lekapart linkrendszer
Free Music Archive (FMA) származék Több mint 100 000 Független és underground előadók Eredetileg tudományos kutatásra szánt archívum
Negyedik azonosított adatkészlet Több mint 100 000 Klasszikus zenei és jazz formációk Megosztott fejlesztői csomag

A hazai alkotók és a globális elszámoltatás

Bár a nemzetközi sajtó elsősorban a tengerentúli sztárok, valamint az ausztrál és új-zélandi jogvédők (mint az APRA AMCOS) tiltakozását hangosítja ki, a probléma a magyar zeneipart és a hazai előadókat is közvetlenül érinti. Mivel a LAION és a Sleeping AI kollektívák algoritmusa a globális zenei streaming-szolgáltatók nyilvános adatbázisait, lejátszási listáit és a YouTube hálóját térképezte fel, a nemzetközi terjesztésben lévő, online elérhető magyar dalok ugyanúgy belekerültek a mintavételbe. A hazai jogtulajdonosok és zenészek számára az AI Watchdog keresője most először ad kézzelfogható bizonyítékot arra, ha műveiket engedély nélkül szippantották be a modellek fejlesztői.

Fordulat a milliárdos szerzői jogi perekben

Az iparági szakértők szerint ez a leleplezés alapjaiban változtatja meg a bírósági eljárások dinamikáját. A Universal Music Group, a Sony Music Entertainment és a Warner Music Group már korábban is súlyos jogi csatákat indított az olyan generatív szolgáltatások ellen, mint a Suno és az Udio. Eddig a technológiai cégek azzal védekeztek, hogy a kiképzési adatok üzleti titoknak minősülnek, vagy a méltányos használat (fair use) körébe tartoznak. Azzal, hogy Alex Reisner kereshető formában nyilvánossá tette a bizonyítékokat, a bizonyítási teher megfordult. A kiadók máris kérték a bíróságot, hogy újabb több tízezer hangfelvételt adhassanak hozzá a keresetekhez, miközben gazdasági előrejelzések szerint kötelező licencelési keretrendszer hiányában a generatív AI 2028-ig a zenei alkotók bevételeinek akár 24 százalékát is felemésztheti.