Bilel Saghrouchni

Doctorant en Machine Learning

View All Authors

Une attention à 360°

28 mai 2026 · 2 minutes de lecture

Bilel Saghrouchni

Doctorant en Machine Learning

On a tous besoin d'attention, même un LLM

Le mécanisme d’attention permet à un LLM d’identifier ce qui est pertinent dans une séquence, et explique en grande partie ses performances impressionnantes. Mais s’il a révolutionné son domaine il y a quelques années, il est aussi le principal responsable d’un important coût de calcul et de mémoire. Google Research a récemment dévoilé TurboQuant, une méthode permettant de compresser le cache d’attention.

Le cache d'attention ?

Lors de la phase de génération (la production des tokens un par un), recalculer l'attention sur l'intégralité du contexte à chaque étape serait beaucoup trop lourd. Pour optimiser ça, le modèle stocke les projections des tokens précédents dans ce qu'on appelle le KV Cache (Key-Value Cache). Si ce mécanisme permet de réduire la complexité de calcul, il déplace le problème vers la mémoire : la taille de ces matrices de clés et de valeurs croît linéairement avec la longueur de la séquence et le nombre de requêtes simultanées (batch size). C'est le principal goulot d'étranglement qui sature la VRAM des GPU.

Le cache c'est de l'argent

L’idée est simple : au lieu de lire les matrices en utilisant des coordonnées cartésiennes, on utilise des coordonnées polaires. Pour faire simple, au lieu de dire “Avance de 3 blocs à l’est et 4 au nord” on dit “Avance de 5 blocs avec un angle de 37°” (PolarQuant).

Cette reformulation permet de capturer l’essentiel de l’information (la direction du vecteur) avec très peu de bits. Un mécanisme de correction (QJL) vient ensuite compenser les erreurs de quantification les plus importantes. On économise de la RAM et du temps tout sans perte significative de performance.

📚 Sources

TurboQuant: Redefining AI efficiency with extreme compression. March 24, 2026 Amir Zandieh, Research Scientist, and Vahab Mirrokni, VP and Google Fellow, Google Research

Stackoverflow est mort ? Les LLMs aussi ?

12 novembre 2025 · 6 minutes de lecture

Bilel Saghrouchni

Doctorant en Machine Learning

Ce n'est aujourd'hui plus un secret, les LLMs ont besoin d'énormément de données textuelles pour être entrainés efficacement. De part son volume immense, le web est rapidement devenu la source de données principale et la majorité des datasets d'entraînements se basent aujourd'hui dessus. En plus de la quantité stratosphérique de données, la diversité des sources est également un facteur clé pour garantir une bonne couverture des différents styles d'écriture, sujets et contextes. Parmi ces sources, les forums de développeurs comme Stackoverflow jouent un rôle crucial. Mais ces dernières années, l'activité sur Stackoverflow a connu une baisse significative, soulevant des questions sur son avenir et son impact potentiel sur les futurs entraînements des LLMs.

Un agent de sécurité pour nos réseaux ? L’apprentissage par renforcement pour détecter les anomalies dans le trafic réseau

21 juillet 2025 · 6 minutes de lecture

Bilel Saghrouchni

Doctorant en Machine Learning

Notre quotidien se numérise rapidement, et les réseaux informatiques ne cessent de croître en taille et en complexité. Le trafic qu’ils transportent est de plus en plus dense et varié : transactions bancaires, données de santé, communications privées, etc. Avec l’essor des technologies dites intelligentes — smart homes, smart cities, médecine personnalisée — le nombre d’objets connectés devrait dépasser les 50 milliards d’ici fin 2025. Ces dispositifs, bien qu’omniprésents, sont souvent peu sécurisés : mises à jour négligées, mots de passe faibles, protocoles obsolètes. Dans ce contexte, les réseaux informatiques représentent une cible de choix pour les cybercriminels, qui profitent d’une surface d’attaque en constante expansion. Concevoir des solutions de cybersécurité efficaces et robustes devient ainsi un enjeu crucial, un champ de recherche particulièrement dynamique, mais aussi un défi de plus en plus complexe.

Les agents avant les LLM ?

15 mai 2025 · 3 minutes de lecture

Bilel Saghrouchni

Doctorant en Machine Learning

Nous entendons beaucoup parler d’agent, les articles et les posts sont envahis par les mots “Agentic AI” (maintenant, celui-ci aussi 👀) mais est-ce vraiment nouveau ? Dans les années 90, certains parlaient déjà d’agent et le décrivait comme une entité qui fonctionne de manière continue et autonome dans un environnement dynamique et évolutif. D’autres sont plus philosophiques et parle d’une entité dont l'état est représenté par des concepts mentaux tels que les croyances, les capacités, les choix et les engagements. Les actions sont restreintes et régis par des règles fixes.

Model Collapse

15 février 2025 · 2 minutes de lecture

Bilel Saghrouchni

Doctorant en Machine Learning

L’invasion silencieuse du contenu IA

Une grande partie du contenu sur Internet est en train de devenir du contenu généré par IA. L’intégration progressive des LLMs (Large Language Models) dans notre quotidien démocratise et facilite leur utilisation. Les réseaux sociaux sont devenus de véritables mines d’or pour ce type de contenu : de plus en plus d’utilisateurs confient la rédaction ou la reformulation de leurs posts à ChatGPT ou LeChat de Mistral avant de les publier (peut-être que ce post y est passé aussi ? 👀). Un exemple frappant est celui de Quora dont le contenu généré par IA est passé de 2% en 2022 à ~38% en 2024 !

On a tous besoin d'attention, même un LLM​

Le cache d'attention ?​

Le cache c'est de l'argent​

📚 Sources​

L’invasion silencieuse du contenu IA​

On a tous besoin d'attention, même un LLM

Le cache d'attention ?

Le cache c'est de l'argent

📚 Sources

L’invasion silencieuse du contenu IA