Le nouvel algorithme de Google réduit l'utilisation de la mémoire par six. Le matériel coûteux est-il condamné ?
Google Research a publié un article sur TurboQuant, un algorithme qui réduit la mémoire requise pour les charges de travail d'IA d'au moins six fois, le tout sans compromettre la précision des réponses et sans nécessiter d'entraînement supplémentaire du modèle.
Lors de la génération de texte, les modèles s'appuient sur le soi-disant cache KV—un tampon mémoire qui stocke les données du mécanisme d'attention précédemment calculées, leur permettant d'éviter de les recalculer à chaque étape. Mais plus la fenêtre de contexte est longue, plus ce cache gonfle. À un certain moment, il commence à consommer des dizaines de gigaoctets de mémoire, et même les puissantes cartes graphiques avec des tonnes de VRAM se retrouvent impuissantes. Des méthodes de quantification traditionnelles ont longtemps été utilisées pour compresser le cache, mais elles présentent un inconvénient caché : avec les données compressées, vous devez également stocker les soi-disant constantes de quantification—essentiellement une table de recherche, similaire à ce que les archiveurs ZIP ou RAR utilisent.
Les chercheurs ont testé TurboQuant sur des modèles open-source comme Gemma et Mistral, en utilisant des suites de benchmarks à long contexte telles que LongBench, Needle In A Haystack, ZeroSCROLLS, RULER et L-Eval. Sur des tâches simples, l'algorithme a donné des résultats impeccables, réduisant la taille du cache KV d'au moins six fois. Dans des scénarios plus complexes—comme la réponse à des questions, la génération de code et la summarisation—la marge n'était pas aussi spectaculaire, mais il a tout de même surpassé l'algorithme de compression KIVI existant. Sur les accélérateurs NVIDIA H100, la version 4 bits de TurboQuant a démontré une augmentation de performance par huit.
Le marché a déjà réagi à l'annonce, les actions des principaux fabricants de mémoire ayant chuté—réflétant un changement dans les attentes des investisseurs. Si l'adoption généralisée de TurboQuant réduit les besoins en VRAM, les entreprises pourraient soit réduire les coûts matériels , soit élargir les fenêtres de contexte des modèles sans avoir besoin d'augmenter la puissance de calcul.
Les auteurs de l'étude soulignent que leur travail n'est pas seulement une solution d'ingénierie—c'est un moyen de limiter la consommation de mémoire à un moment où la mémoire devient de plus en plus rare.
Un algorithme comme celui-ci peut-il réellement aider à mettre fin à la "crise de la mémoire" sur le marché, ou la pénurie restera-t-elle un problème pour les utilisateurs quotidiens, peu importe les astuces logicielles qui y sont appliquées ? Partagez vos réflexions dans les commentaires.
