Nouvelles Matériel et Technologies Le nouvel algorithme de Google réduit l'utilisation de la mémoire par six. Le matériel coûteux est-il condamné ?

Le nouvel algorithme de Google réduit l'utilisation de la mémoire par six. Le matériel coûteux est-il condamné ?

Arkadiy Andrienko

26 mars 2026, 17:10

Google Research a publié un article sur TurboQuant, un algorithme qui réduit la mémoire requise pour les charges de travail d'IA d'au moins six fois, le tout sans compromettre la précision des réponses et sans nécessiter d'entraînement supplémentaire du modèle.

Lors de la génération de texte, les modèles s'appuient sur le soi-disant cache KV—un tampon mémoire qui stocke les données du mécanisme d'attention précédemment calculées, leur permettant d'éviter de les recalculer à chaque étape. Mais plus la fenêtre de contexte est longue, plus ce cache gonfle. À un certain moment, il commence à consommer des dizaines de gigaoctets de mémoire, et même les puissantes cartes graphiques avec des tonnes de VRAM se retrouvent impuissantes. Des méthodes de quantification traditionnelles ont longtemps été utilisées pour compresser le cache, mais elles présentent un inconvénient caché : avec les données compressées, vous devez également stocker les soi-disant constantes de quantification—essentiellement une table de recherche, similaire à ce que les archiveurs ZIP ou RAR utilisent.

Les chercheurs ont testé TurboQuant sur des modèles open-source comme Gemma et Mistral, en utilisant des suites de benchmarks à long contexte telles que LongBench, Needle In A Haystack, ZeroSCROLLS, RULER et L-Eval. Sur des tâches simples, l'algorithme a donné des résultats impeccables, réduisant la taille du cache KV d'au moins six fois. Dans des scénarios plus complexes—comme la réponse à des questions, la génération de code et la summarisation—la marge n'était pas aussi spectaculaire, mais il a tout de même surpassé l'algorithme de compression KIVI existant. Sur les accélérateurs NVIDIA H100, la version 4 bits de TurboQuant a démontré une augmentation de performance par huit.

Le marché a déjà réagi à l'annonce, les actions des principaux fabricants de mémoire ayant chuté—réflétant un changement dans les attentes des investisseurs. Si l'adoption généralisée de TurboQuant réduit les besoins en VRAM, les entreprises pourraient soit réduire les coûts matériels , soit élargir les fenêtres de contexte des modèles sans avoir besoin d'augmenter la puissance de calcul.

Les auteurs de l'étude soulignent que leur travail n'est pas seulement une solution d'ingénierie—c'est un moyen de limiter la consommation de mémoire à un moment où la mémoire devient de plus en plus rare.

Un algorithme comme celui-ci peut-il réellement aider à mettre fin à la "crise de la mémoire" sur le marché, ou la pénurie restera-t-elle un problème pour les utilisateurs quotidiens, peu importe les astuces logicielles qui y sont appliquées ? Partagez vos réflexions dans les commentaires.

Le post a été traduit Afficher l'original (EN)

Nouvelles Matériel et Technologies Google intelligence artificielle

À propos de l'auteur

Arkadiy Andrienko

Auteur d'articles et de nouvelles

En tant que journaliste technique pour VGTimes, je discute avec le même plaisir des dernières cartes graphiques et de l'intérieur des consoles et autres gadgets. Depuis 2018, j'écris sur les jeux et le matériel, mon expérience en ingénierie du son m'a permis de bien comprendre les subtilités des technologies audio, et mon amour pour l'électronique m'a poussé à étudier l'intérieur des PC, c'est pourquoi je suis toujours à la recherche de quelque chose de nouveau et d'intéressant dans le domaine du matériel de jeu.

...Développer

Commentaires0