Le prompt système est l'outil que tout le monde utilise en premier pour donner du contexte à une IA : un bloc d'instructions chargé au début de chaque conversation. Il est précieux, mais on lui demande souvent ce qu'il ne sait pas faire : servir de mémoire. Voici comment bien l'employer, et où le retrieval prend le relais.
Ce qu'est un prompt système
Le prompt système est un texte d'amorce, invisible dans la conversation, qui cadre le comportement de l'assistant : qui il est, comment il doit répondre, quelles règles suivre. Il est chargé à chaque session, avant tes messages.
Sa nature est d'être stable et permanent : il ne change pas d'une question à l'autre, il pose le cadre. C'est sa force, et la source de ses limites.
Ce que le prompt système fait bien
Pour un socle stable et court, le prompt système est parfait :
- ton rôle attendu de l'assistant ;
- tes préférences de format et de style ;
- quelques règles non négociables, valables partout.
Ce sont des informations qui ne dépendent pas de la question posée, et qu'il est logique de réinjecter à chaque fois. Le prompt système est leur bon endroit.
Pourquoi il échoue comme mémoire de fond
Le problème commence quand on essaie d'y mettre toute sa connaissance : décisions, code, notes, historique. Trois plafonds, déjà évoqués dans donner du contexte à ton IA : fichier, prompt ou mémoire :
- Figé. Le prompt système est statique. Ta connaissance évolue, lui pas, sauf à le maintenir à la main.
- Limité. Tu ne peux pas y caser un vault entier. La place est comptée.
- Coûteux. Chargé à chaque appel, tout ce que tu y mets se paie à chaque fois, comme expliqué dans le coût en tokens d'une mémoire.
Surtout, il est non sélectif : il injecte les mêmes informations pour toutes les questions, qu'elles soient pertinentes ou non. Or chaque question n'a besoin que d'un fragment précis de ta connaissance.
Le retrieval : injecter le bon passage, dynamiquement
C'est là que la mémoire par retrieval complète le prompt système. Au lieu d'un bloc statique, le retrieval choisit, pour chaque question, le passage pertinent de ta connaissance et l'injecte dans le contexte.
La différence est celle entre statique et dynamique :
- le prompt système porte ce qui est vrai pour toutes les questions (le cadre) ;
- le retrieval apporte ce qui est vrai pour cette question-ci (le contenu).
On explique comment le retrieval choisit dans comment ton IA retrouve le bon souvenir. Smart Brain assure ce choix avec une précision mesurée (Hit@1 de 0,909, voir la page technique).
Les deux ensemble : cadre + contenu
La bonne architecture n'oppose pas prompt système et mémoire : elle les combine. Un prompt système court pour le cadre stable, une mémoire par retrieval pour le fond mouvant et à jour.
Concrètement, ton assistant démarre avec un cadre (prompt système), puis, à chaque question, reçoit le passage pertinent retrouvé dans ta mémoire. Tu gardes un prompt léger et une connaissance illimitée, plutôt qu'un prompt obèse et figé.
La règle simple
Mets dans le prompt système ce qui est stable et universel pour toi. Mets dans une mémoire interrogeable ce qui est mouvant et spécifique à chaque question. Tu cesses ainsi de gonfler ton prompt avec une connaissance qu'il ne sait pas tenir à jour.
Pour brancher cette mémoire, vois comment donner une mémoire à un agent IA et la page technique.