On confond souvent deux choses très différentes : la fenêtre de contexte d'un modèle et sa mémoire. La première est sa mémoire de travail, immédiate et volatile. La seconde n'existe pas par défaut, il faut la construire. Comprendre l'écart, c'est comprendre pourquoi ton IA oublie tout et comment y remédier.
La fenêtre de contexte, expliquée
La fenêtre de contexte, c'est la quantité de texte qu'un modèle peut lire et prendre en compte pour répondre, ici et maintenant. Ta question, les fichiers que tu colles, l'historique de la conversation en cours : tout ça occupe la fenêtre.
C'est une mémoire de travail, comparable à un bureau sur lequel tu poses les documents du moment. Elle est puissante, mais elle a deux caractéristiques qui changent tout : elle est limitée en taille, et elle est effacée à la fin de la session. Rien ne persiste.
Pourquoi une grande fenêtre ne suffit pas
La tentation est de croire qu'il suffit d'une fenêtre plus grande pour régler le problème. Un plus grand bureau, et on y met tout. Ça ne marche pas, pour trois raisons.
- Le coût. Plus tu remplis la fenêtre, plus chaque réponse coûte cher en tokens. Charger tout ton vault à chaque question est intenable.
- Le bruit. Noyer la vraie information dans des milliers de lignes non pertinentes dégrade la réponse. Le modèle se disperse. Mieux vaut un passage juste que mille passages vagues.
- L'oubli. Même immense, la fenêtre se vide à la session suivante. Tu repars de zéro, comme expliqué dans pourquoi ton IA oublie tout.
Une grande fenêtre améliore la mémoire de travail. Elle ne crée pas de mémoire long terme.
Ce qu'est une mémoire long terme
La mémoire long terme est d'une autre nature. Elle est :
- externe à la conversation : ta connaissance vit ailleurs que dans la fenêtre ;
- persistante : elle survit à la fermeture de la session ;
- interrogeable : on n'y lit pas tout, on y retrouve le passage pertinent ;
- sourcée : chaque réponse pointe vers son origine.
Autrement dit, ce n'est pas un bureau plus grand. C'est une bibliothèque, avec un bibliothécaire qui sait exactement où aller chercher.
Le RAG : le pont entre les deux
La bonne architecture ne choisit pas entre fenêtre et mémoire : elle les relie. C'est le rôle du RAG (retrieval augmented generation).
Le mécanisme est précis : ta mémoire long terme (la bibliothèque) est interrogée à chaque question, et seuls les bons passages sont injectés dans la fenêtre de contexte (le bureau) avant que le modèle réponde. La fenétre reste petite et nette ; la mémoire, elle, est vaste et persistante.
C'est exactement ce que fait un RAG local : il transforme ta connaissance en mémoire long terme et n'en sert que ce qui répond à ta question. On montre aussi comment ça s'applique à un agent dans un RAG local comme mémoire d'un agent de code.
Comment Smart Brain incarne la mémoire long terme
Smart Brain est cette bibliothèque, en local. Il indexe ta connaissance (environ 23 500 chunks sur le vault de référence) et, pour chaque question, retrouve le passage juste plutôt que le morceau le plus proche. Trois étages s'en chargent : recherche hybride BM25 plus embeddings Qwen3, graphe des liens, reranking cross-encoder. La qualité est mesurée : Hit@1 de 0,909, Hit@5 de 0,98. Les détails sont sur la page technique.
Ce qui arrive dans la fenêtre de ton IA n'est donc pas tout ton vault, mais le bon extrait, sourcé. La fenêtre reste légère, la mémoire reste complète, et ton assistant cesse de répondre dans le vide.
La bonne question à se poser
La prochaine fois qu'on te vend une fenêtre de contexte géante, demande-toi : est-ce que je veux un plus grand bureau, ou une vraie bibliothèque ? Pour arrêter de tout réexpliquer, c'est la bibliothèque qu'il te faut.
Pour brancher cette mémoire sur ton assistant, vois donner une mémoire persistante à Claude Code et les offres.