3 articles tagués avec « Actualité »

Actualité

Une attention à 360°

28 mai 2026 · 2 minutes de lecture

Doctorant en Machine Learning

On a tous besoin d'attention, même un LLM

Le mécanisme d’attention permet à un LLM d’identifier ce qui est pertinent dans une séquence, et explique en grande partie ses performances impressionnantes. Mais s’il a révolutionné son domaine il y a quelques années, il est aussi le principal responsable d’un important coût de calcul et de mémoire. Google Research a récemment dévoilé TurboQuant, une méthode permettant de compresser le cache d’attention.

Le cache d'attention ?

Lors de la phase de génération (la production des tokens un par un), recalculer l'attention sur l'intégralité du contexte à chaque étape serait beaucoup trop lourd. Pour optimiser ça, le modèle stocke les projections des tokens précédents dans ce qu'on appelle le KV Cache (Key-Value Cache). Si ce mécanisme permet de réduire la complexité de calcul, il déplace le problème vers la mémoire : la taille de ces matrices de clés et de valeurs croît linéairement avec la longueur de la séquence et le nombre de requêtes simultanées (batch size). C'est le principal goulot d'étranglement qui sature la VRAM des GPU.

Le cache c'est de l'argent

L’idée est simple : au lieu de lire les matrices en utilisant des coordonnées cartésiennes, on utilise des coordonnées polaires. Pour faire simple, au lieu de dire “Avance de 3 blocs à l’est et 4 au nord” on dit “Avance de 5 blocs avec un angle de 37°” (PolarQuant).

Cette reformulation permet de capturer l’essentiel de l’information (la direction du vecteur) avec très peu de bits. Un mécanisme de correction (QJL) vient ensuite compenser les erreurs de quantification les plus importantes. On économise de la RAM et du temps tout sans perte significative de performance.

📚 Sources

TurboQuant: Redefining AI efficiency with extreme compression. March 24, 2026 Amir Zandieh, Research Scientist, and Vahab Mirrokni, VP and Google Fellow, Google Research

Les agents avant les LLM ?

15 mai 2025 · 3 minutes de lecture

Bilel Saghrouchni

Doctorant en Machine Learning

Nous entendons beaucoup parler d’agent, les articles et les posts sont envahis par les mots “Agentic AI” (maintenant, celui-ci aussi 👀) mais est-ce vraiment nouveau ? Dans les années 90, certains parlaient déjà d’agent et le décrivait comme une entité qui fonctionne de manière continue et autonome dans un environnement dynamique et évolutif. D’autres sont plus philosophiques et parle d’une entité dont l'état est représenté par des concepts mentaux tels que les croyances, les capacités, les choix et les engagements. Les actions sont restreintes et régis par des règles fixes.

Model Collapse

15 février 2025 · 2 minutes de lecture

Bilel Saghrouchni

Doctorant en Machine Learning

L’invasion silencieuse du contenu IA

Une grande partie du contenu sur Internet est en train de devenir du contenu généré par IA. L’intégration progressive des LLMs (Large Language Models) dans notre quotidien démocratise et facilite leur utilisation. Les réseaux sociaux sont devenus de véritables mines d’or pour ce type de contenu : de plus en plus d’utilisateurs confient la rédaction ou la reformulation de leurs posts à ChatGPT ou LeChat de Mistral avant de les publier (peut-être que ce post y est passé aussi ? 👀). Un exemple frappant est celui de Quora dont le contenu généré par IA est passé de 2% en 2022 à ~38% en 2024 !

On a tous besoin d'attention, même un LLM​

Le cache d'attention ?​

Le cache c'est de l'argent​

📚 Sources​

L’invasion silencieuse du contenu IA​

On a tous besoin d'attention, même un LLM

Le cache d'attention ?

Le cache c'est de l'argent

📚 Sources

L’invasion silencieuse du contenu IA