Donner une mémoire à un agent IA n'est pas un coup de baguette magique, mais ce n'est pas non plus sorcier. C'est un montage en trois étapes, toujours le même, que tu peux faire tourner en local. Voici le guide, sans jargon et sans inventer de fonctionnalités qui n'existent pas.
Le principe : retrouver, pas mémoriser
D'abord, le bon modèle mental. Tu ne vas pas faire « apprendre » ta connaissance au modèle. Tu vas lui donner accès à une mémoire externe qu'il interroge. C'est la différence entre RAG et fine-tuning : on retrouve, on n'entraîne pas.
L'avantage est double : ta mémoire reste à jour (tu modifies une note, c'est pris en compte) et sourcée (chaque réponse pointe vers son origine).
Étape 1 : indexer ta connaissance
Tout part de ta connaissance écrite : notes, décisions, conventions, documentation, ADR. Si elle vit déjà dans un vault (par exemple Obsidian), c'est parfait.
La première opération est de la découper en morceaux interrogeables, les chunks, puis de les indexer. Pourquoi découper ? Pour retrouver un passage précis plutôt qu'un fichier entier. On détaille ça dans le chunking expliqué. Chaque chunk est ensuite représenté par ses embeddings, qui captent le sens.
Étape 2 : rendre la connaissance interrogeable
Indexer ne suffit pas : il faut retrouver le bon passage, pas un vaguement proche. Un bon retrieval empile pour ça plusieurs signaux :
- la recherche hybride : BM25 pour les termes exacts, embeddings pour le sens ;
- le graphe : suivre les liens entre notes pour remonter le contexte voisin ;
- le reranking : reclasser les candidats et mettre le meilleur en tête.
C'est ce que fait Smart Brain, avec une qualité mesurée (Hit@1 de 0,909, Hit@5 de 0,98, voir la page technique). On explique l'enchaînement dans comment ton IA retrouve le bon souvenir.
Étape 3 : servir le passage à l'agent
Reste à brancher cette mémoire sur ton agent. Le tuyau standard est MCP : ta mémoire est exposée comme une source que l'assistant interroge, on le détaille dans MCP + mémoire. Quand l'agent a une question, MCP transmet, le RAG retrouve, l'agent reçoit le passage sourcé et agit.
Pour un agent qui exécute des tâches, cette mémoire change le comportement : il cesse de répéter ce qui a déjà été tranché, comme on le voit dans un RAG local comme mémoire d'un agent de code et mémoire pour agents autonomes.
En local, de bout en bout
Tout ce montage tient sur ta machine. Smart Brain indexe et retrouve en local (Ollama plus base vectorielle ChromaDB) ; rien ne part dans un cloud. C'est ce qui rend la mémoire à la fois privée et sans facturation au token. On développe l'intérêt dans IA 100% locale.
Honnêtement, ce que ça demande
Soyons clairs sur l'effort. Donner cette mémoire à ton agent passe par un système que tu héberges, Artefact Neural, orienté profil technique (à l'aise avec un flux de développeur). Ce n'est pas un bouton « activer la mémoire » dans une app grand public. La contrepartie, c'est le contrôle total et la confidentialité.
Par où commencer
Le chemin le plus direct est de partir d'un vault de notes et de brancher Smart Brain dessus, interrogeable depuis Claude Code. La documentation couvre l'installation, la page technique le moteur, et les offres incluent Smart Brain.
Donner une mémoire à ton IA, c'est trois étapes : indexer, retrouver, servir. Le reste, c'est ta connaissance qui travaille pour toi.