Une grande fenêtre de contexte remplace-t-elle un RAG ?

Non. Une grande fenêtre permet de lire plus à la fois, mais elle reste coûteuse à remplir, sujette au bruit, et vidée à chaque session. Un RAG sert le passage pertinent à la demande et conserve la connaissance hors de la fenêtre.

Pourquoi ne pas tout charger dans une grande fenêtre ?

Parce que charger tout ton contenu coûte en tokens à chaque appel et noie l'information utile dans du bruit, ce qui dégrade la réponse. Mieux vaut retrouver et injecter seulement le passage pertinent.

Fenêtres de contexte géantes : pourquoi ça ne suffit pas

Chaque génération de modèles annonce une fenêtre de contexte plus grande. La promesse implicite : bientôt, tu pourras tout y mettre, et le problème de la mémoire disparaîtra. C'est séduisant, et c'est faux. Une fenêtre géante reste une fenêtre, et une fenêtre n'est pas une mémoire. Voici pourquoi, concrètement.

La promesse des fenêtres géantes

Les fenêtres ont grandi de quelques milliers à des centaines de milliers de tokens, voire au-delà. C'est un vrai progrès : tu peux soumettre un long document, plusieurs fichiers, un historique fourni, et le modèle les prend en compte d'un coup.

Pour la mémoire de travail, c'est utile, et on s'en réjouit. Le piège, c'est d'en conclure que la mémoire long terme devient inutile. Ce n'est pas le cas, pour trois raisons qui ne dépendent pas de la taille.

Le coût : tu paies ce que tu charges

Plus tu remplis la fenêtre, plus chaque réponse coûte en tokens. Charger tout ton vault à chaque question, même si c'était possible, serait économiquement absurde : tu paierais pour du contexte inutile à 99%.

Une mémoire bien faite fait l'inverse : elle ne charge que le passage pertinent. On chiffre cet écart dans le coût en tokens d'une mémoire. Le bon objectif n'est pas de tout mettre dans la fenêtre, mais d'y mettre juste ce qu'il faut.

Le bruit : trop de contexte dégrade la réponse

Contre-intuitivement, plus de contexte n'est pas toujours mieux. Noyer l'information pertinente dans des milliers de lignes non pertinentes disperse le modèle. Il a plus de mal à isoler ce qui compte, et la qualité baisse.

Servir un passage ciblé donne souvent une meilleure réponse que servir tout le document qui le contient. C'est la logique du retrieval : trouver le bon extrait, pas inonder. On la détaille dans comment ton IA retrouve le bon souvenir.

L'oubli : la fenêtre se vide quand même

La limite la plus structurelle : aussi grande soit-elle, la fenêtre est effacée à la fin de la session. Une fenêtre géante n'est pas plus persistante qu'une petite. Tu repars de zéro à la session suivante, comme expliqué dans pourquoi ton IA oublie tout.

La taille de la fenêtre ne change rien à l'amnésie entre sessions. Elle agrandit le bureau, elle ne crée pas de bibliothèque. C'est la distinction de fond entre mémoire de travail et mémoire long terme.

Ce qui fait vraiment le travail

La bonne approche n'oppose pas fenêtre et mémoire : elle les combine. Une mémoire long terme, externe, conserve ta connaissance ; un retrieval en extrait le bon passage ; ce passage est placé dans la fenêtre, qui reste légère et nette.

C'est ce que fait Smart Brain : il garde ta connaissance hors de la fenêtre (environ 23 500 chunks indexés sur le vault de référence) et n'injecte que le passage juste, sourcé, mesuré à Hit@1 de 0,909 (voir la page technique). Tu gagnes le meilleur des deux : une fenêtre propre, une mémoire vaste.

La question à se poser

Devant l'annonce d'une fenêtre toujours plus grande, demande-toi : ai-je besoin d'un plus grand bureau, ou d'une bibliothèque ? Pour traiter un gros document ponctuel, la grande fenêtre aide. Pour que ton IA se souvienne de ton projet d'une session à l'autre, il te faut une mémoire.

Pour les autres façons de fournir du contexte, vois fichier, prompt ou mémoire.