Un RAG, pour « retrieval augmented generation », c'est un système qui va chercher les bons passages dans tes données avant de laisser un modèle de langage répondre. Au lieu de demander au modèle ce qu'il croit savoir, tu lui fournis le contexte exact tiré de tes propres notes. Le mot important ici, c'est « local » : tout tourne sur ta machine, rien ne part dans un cloud.
Le problème que le RAG résout
Un modèle de langage seul a deux faiblesses. Il invente quand il ne sait pas, et il ignore tout de tes notes privées. Tu peux coller un document dans une fenêtre de chat, mais à l'échelle d'un vault de plusieurs centaines de notes, ça ne tient plus. Le RAG automatise cette étape : il indexe ton vault, retrouve les passages pertinents pour ta question, et ne donne au modèle que ce dont il a besoin.
Le résultat est sourcé. Tu vois d'où vient la réponse, tu peux vérifier, et le modèle reste collé à tes données plutôt qu'à ses souvenirs flous.
Pourquoi « local » change tout
Héberger ton propre Smart Brain, c'est garder le contrôle sur trois axes.
- Confidentialité. Tes notes ne quittent jamais ta machine. Pas d'envoi vers une API tierce, pas de mise en cache chez un fournisseur. Pour des notes de travail, des décisions clients ou de la recherche, ce n'est pas un détail.
- Coût. Un RAG local tourne sur des modèles ouverts via Ollama et une base vectorielle locale (ChromaDB). Zéro abonnement, zéro facturation au token, zéro metering.
- Contrôle. Tu choisis l'embedder, le reranker, la façon de chunker, les seuils. Le système t'appartient et évolue avec ton vault.
On détaille ce comparatif dans RAG local vs RAG cloud.
Comment marche un Smart Brain
Smart Brain empile trois étages pour servir le bon passage à chaque requête, pas juste le chunk le plus proche.
- Recherche hybride. Deux signaux notent ta question en parallèle : BM25 pour les termes exacts (un acronyme, un nom de fichier), et des embeddings pour le sens. Les scores fusionnent en un seul classement.
- Graphe. Tes wikilinks deviennent du contexte. Une note pertinente allume ses voisines, exactement comme tu aurais ouvert les liens à la main.
- Reranking. Un cross-encoder re-note les meilleurs candidats contre ta question et fait remonter le passage le plus juste en tête.
Chaque étage est expliqué en détail dans le retrieval hybride et dans le reranking cross-encoder.
Concrètement, sur un vault Obsidian
Si tu prends des notes dans Obsidian, ton vault est déjà une base de connaissances structurée par des liens. Un RAG local le transforme en quelque chose d'interrogeable en langage naturel : tu poses une question, le système retrouve le passage exact avec sa source. On montre le flux complet dans interroger ton vault Obsidian.
Par où commencer
Tu n'as pas besoin de tout coder. Artefact Neural fournit le système complet : les templates, les prompts, les garde-fous et le moteur Smart Brain prêt à brancher sur ton vault. La documentation couvre l'installation locale, et les offres vont du starter au studio avec Smart Brain inclus.
Un RAG local, ce n'est pas une démo de plus. C'est ta connaissance, sur ta machine, enfin interrogeable.