A Google TurboQuant algoritmusa forradalmasíthatja az AI-modellek memóriakezelését
A Google DeepMind kutatói bemutatták a TurboQuant nevezetű új tömörítési eljárást, amely alapjaiban változtathatja meg a nagy nyelvi modellek (LLM) futtatásának hardverigényét. Az algoritmus képes az úgynevezett KV-cache (kulcs-érték gyorsítótár) méretét akár a hatodára csökkenteni anélkül, hogy az AI válaszainak minősége vagy pontossága érdemben romlana. Ez az áttörés közvetlen választ ad az iparág egyik legnagyobb…