Chez l'humain, on distingue la mémoire de travail, celle qui retient un numéro le temps de le composer, et la mémoire long terme, celle qui garde tes souvenirs des années. Une IA connaît une distinction analogue, et la comprendre évite bien des malentendus sur ce qu'une IA peut ou ne peut pas « retenir ».
Deux mémoires, deux rôles
Une IA dispose, de fait, de deux types de mémoire, qui ne jouent pas le même rôle :
- la mémoire de travail : ce qu'elle traite à l'instant, c'est-à-dire sa fenêtre de contexte ;
- la mémoire long terme : une connaissance externe, stockée et interrogeable, qui dure au-delà de la session.
La première est native au modèle. La seconde, il faut la lui donner. C'est tout l'enjeu d'une mémoire pour ton IA.
La mémoire de travail : la fenêtre de contexte
La mémoire de travail d'une IA, c'est sa fenêtre de contexte : le texte qu'elle lit et prend en compte maintenant. Puissante, mais avec deux propriétés contraignantes : elle est limitée en taille, et effacée à la fin de la session.
Comme la mémoire de travail humaine, elle est faite pour manipuler l'information du moment, pas pour la conserver. C'est pour ça qu'augmenter sa taille ne crée pas de mémoire durable, un point qu'on approfondit dans mémoire long terme vs fenêtre de contexte et fenêtres de contexte géantes.
La mémoire long terme : externe et persistante
La mémoire long terme est d'une autre nature. Elle vit en dehors de la session, dans une connaissance indexée que l'IA peut interroger. Ses propriétés : elle persiste, elle est interrogeable, elle est sourcée.
Tu ne l'obtiens pas en agrandissant la fenêtre, mais en branchant une mémoire externe, typiquement un RAG local sur ta connaissance. C'est elle qui contient ton fond durable : décisions, code, notes, conventions.
Comment les deux coopèrent
Le point clé : ces deux mémoires ne s'opposent pas, elles travaillent ensemble. La mémoire long terme alimente la mémoire de travail.
L'enchaînement, à chaque question :
- la mémoire long terme (le RAG) retrouve le passage pertinent dans ta connaissance ;
- ce passage est injecté dans la mémoire de travail (la fenêtre) ;
- le modèle raisonne sur ce contexte ciblé et répond, sourcé.
La fenêtre reste légère parce qu'on n'y met que le bon extrait ; la mémoire long terme reste vaste parce qu'elle n'a pas à tenir dans la fenêtre. On détaille ce passage de l'une à l'autre dans comment ton IA retrouve le bon souvenir.
Pourquoi la distinction est utile
Confondre les deux mène à de fausses attentes. Espérer qu'une grande fenêtre tienne lieu de mémoire long terme, c'est demander à ta mémoire de travail de faire un travail qu'elle n'est pas faite pour. À l'inverse, croire qu'une mémoire long terme rend la fenêtre inutile est faux : c'est dans la fenêtre que le modèle raisonne.
La bonne architecture assume les deux : une mémoire de travail nette, alimentée par une mémoire long terme riche. C'est exactement ce que fait Smart Brain, qui retrouve dans ta connaissance (mesuré à Hit@1 de 0,909, voir la page technique) le passage à placer dans la fenêtre.
En résumé
Ton IA a une mémoire de travail native, sa fenêtre, et une mémoire long terme à construire, externe. L'une traite l'instant, l'autre conserve ton fond. Leur coopération, retrouver puis raisonner, est ce qui rend une mémoire IA réellement utile.
Pour le coût de bien alimenter la fenêtre, vois le coût en tokens d'une mémoire. Pour le pilier, pourquoi ton IA oublie tout.