Comment une IA retrouve-t-elle la bonne information dans mes notes ?

Par le retrieval : le système compare ta question à ta connaissance indexée, d'abord par mots exacts et par sens, puis affine avec les liens entre notes et un reclassement final. Il sert le passage le plus pertinent, sourcé, plutôt que de tout relire.

Pourquoi pas juste une recherche par similarité ?

La similarité seule rate souvent : elle ignore les termes exacts rares et le contexte voisin. Combiner recherche exacte, recherche par sens, graphe et reranking donne un passage bien plus précis qu'une simple mesure de proximité.

Comment ton IA retrouve le bon souvenir (retrieval expliqué)

Donner une mémoire à ton IA, c'est bien ; encore faut-il qu'elle y retrouve le bon souvenir. Un mauvais passage vaut parfois moins que pas de passage du tout, parce qu'il ancre la réponse à côté. Voici, en vue d'ensemble, comment un bon retrieval s'y prend pour servir le passage juste. C'est l'étage au-dessus des détails techniques, côté usage.

Le problème : trouver le passage juste, pas un passage proche

Quand tu poses une question, le système ne peut pas tout relire : ce serait lent, coûteux et bruyant. Il doit retrouver, dans toute ta connaissance, le ou les passages réellement pertinents. La naïveté serait de prendre le morceau le plus « proche » de ta question par similarité. Ça marche parfois, ça rate souvent.

Un bon moteur empile plusieurs signaux pour fiabiliser ce choix. Smart Brain en utilise trois, et c'est cette combinaison qui fait la précision mesurée (Hit@1 de 0,909, voir la page technique).

Étage 1 : la recherche hybride

Premier filtre, deux signaux en parallèle :

BM25 attrape les termes exacts : un acronyme, un nom de fonction, un identifiant, là où le sens seul rate ;
les embeddings attrapent le sens : ils retrouvent une idée même formulée autrement, on les explique dans les embeddings expliqués.

Les scores des deux fusionnent en un seul classement. Tu ne choisis pas entre la lettre et l'esprit : tu as les deux. Le détail technique est dans le retrieval hybride.

Étage 2 : le graphe

La bonne réponse n'est pas toujours dans une seule note. Souvent, le contexte utile est réparti : une décision ici, sa justification dans une note voisine. Le graphe, construit à partir de tes liens entre notes (avec NetworkX), fait remonter ces voisines pertinentes, comme tu aurais ouvert les liens à la main. On le développe dans tes wikilinks comme contexte pour l'IA.

Le graphe enrichit la sélection : un passage situé dans son contexte vaut mieux qu'un passage isolé.

Étage 3 : le reranking

Les deux premiers étages donnent une liste de candidats. Le reranking les re-note un par un, contre ta question précise, avec un cross-encoder (bge-reranker-v2-m3). Plus fin qu'une distance vectorielle, il replace le passage le plus juste en tête. Détail dans le reranking cross-encoder.

C'est l'étage qui transforme « à peu près pertinent » en « exactement ça ».

Pourquoi cet empilement change la réponse

Chaque étage corrige un angle mort de l'autre. La recherche par sens rate les termes exacts ; BM25 les rattrape. Une note isolée manque de contexte ; le graphe l'apporte. Le classement initial est grossier ; le reranking l'affine.

Le résultat servi à ton assistant n'est donc pas un morceau au hasard, mais le passage le plus pertinent, sourcé. C'est ce qui ancre sa réponse dans ta connaissance et réduit l'invention, comme on le voit dans mémoire IA et hallucinations.

Ce que ça veut dire pour toi

Côté usage, tu n'as pas à piloter ces étages : tu poses ta question, le système te ramène le bon passage avec sa source. Mais comprendre qu'il y a trois filtres, et pas une simple similarité, explique pourquoi une mémoire bien faite répond juste là où une recherche basique tâtonne.

Cette mécanique est le cœur d'un RAG local. Si tu veux en voir les chiffres mesurés, la page technique les détaille. Et pour le rôle de mémoire que tout ça remplit, retour au pilier : pourquoi ton IA oublie tout.