Quand un dev veut qu'une IA connaisse ses données, deux mots reviennent : fine-tuning et RAG. On les présente parfois comme deux moyens du même but, ce qui prête à confusion. En réalité ils répondent à des besoins différents, et pour donner une mémoire à ton IA, l'un est bien plus adapté que l'autre.
Deux opérations qui n'ont pas le même but
Le fine-tuning consiste à ré-entraîner un modèle sur des exemples, pour ajuster son comportement : un ton, un format de réponse, une tâche spécialisée. Tu modifies les poids du modèle.
Le RAG (retrieval augmented generation) ne touche pas au modèle. Il va chercher, dans une source externe, les passages pertinents pour ta question, et les fournit au modèle au moment de répondre. Le modèle reste générique ; c'est le contexte qui change.
Cette différence d'objet est la clé. L'un façonne le comportement, l'autre fournit la connaissance.
Pourquoi le fine-tuning fige la connaissance
Si tu fine-tunes un modèle sur tes notes, tu incorpores ces informations dans ses poids, à un instant donné. Trois problèmes en découlent quand le but est la mémoire :
- La mise à jour est lourde. Tes décisions changent, tes notes évoluent. Refléter ça suppose de réentraîner, coûteux et lent.
- Ce n'est pas sourcé. Le modèle restitue une connaissance fondue dans ses poids, sans pointer la note d'origine. Tu ne peux pas vérifier.
- Le risque d'invention reste. Un modèle fine-tuné continue de générer, et peut inventer autour de ce qu'il a appris.
Le fine-tuning est très utile pour spécialiser un comportement. Il l'est beaucoup moins pour mémoriser des faits qui bougent.
Pourquoi le RAG retrouve, à jour et sourcé
Le RAG inverse l'approche : ta connaissance reste à l'extérieur, dans une mémoire interrogeable, et le modèle vient y puiser. Les avantages tombent d'eux-mêmes :
- Toujours à jour. Tu modifies une note, le retrieval en tient compte immédiatement. Pas de réentraînement.
- Sourcé. Le passage retrouvé vient d'une note précise, vérifiable. C'est ce qui réduit l'invention, on le détaille dans mémoire IA et hallucinations.
- Maîtrisé. Tu contrôles ce qui est indexé et retrouvé.
C'est exactement le mécanisme d'une mémoire pour ton IA : ta connaissance vit dehors, l'assistant l'interroge. On l'explique dans pourquoi ton IA oublie tout et RAG vs mémoire IA.
Quand entraîner, quand retrouver
Une règle simple :
- Fine-tune quand tu veux changer la forme : un style de réponse, un format structuré, une tâche répétitive très spécifique.
- RAG quand tu veux donner accès à un fond : tes décisions, ton code, tes notes, qui évoluent et que tu veux sourcés.
Pour la quasi-totalité des usages « mon IA doit connaître mon projet », c'est le RAG. Le fine-tuning ne mémorise pas ta connaissance de façon vivante ; il ajuste un comportement.
Comment ça se passe en local
Un RAG local pousse la logique au bout : ta connaissance reste sur ta machine, et le retrieval aussi. Smart Brain, le moteur d'Artefact Neural, indexe ton vault et sert le bon passage en trois étages (recherche hybride, graphe, reranking), avec une précision mesurée (Hit@1 de 0,909, voir la page technique). Aucun réentraînement, aucune donnée qui sort.
Tu n'as donc pas à choisir un gros modèle fine-tuné coûteux pour qu'il « connaisse » tes données. Tu lui donnes accès à ta mémoire, et il s'en sert.
En résumé
Fine-tuning et RAG ne sont pas concurrents : ils règlent des problèmes différents. Pour le comportement, entraîne. Pour la mémoire de ta connaissance, retrouve. Quand un dev demande « comment faire connaître mes données à une IA », la réponse honnête est presque toujours : un RAG, pas un fine-tune.
Pour la suite, vois un RAG local comme mémoire d'un agent de code et qu'est-ce qu'un RAG local.