C'est quoi le chunking dans un RAG ?

C'est le découpage de tes notes en morceaux plus petits, les chunks, indexés un par un. Le retrieval compare ta question à ces chunks et ramène le passage pertinent, au lieu de servir une note entière souvent trop large.

Quelle taille de chunk choisir ?

C'est un compromis : des chunks trop grands diluent le passage utile dans du bruit, des chunks trop petits perdent le contexte autour. Le bon réglage dépend de tes notes ; l'objectif est de servir un passage à la fois précis et situé.

Le chunking expliqué : découper tes notes pour le retrieval

Avant qu'une IA puisse retrouver le bon passage dans tes notes, il faut découper ces notes en morceaux. Cette étape, le chunking, paraît anodine mais détermine en grande partie la qualité du retrieval. Mal découpé, ton vault répond mal ; bien découpé, il sert le passage juste. Voici ce qu'il faut comprendre.

Pourquoi découper tes notes

Une note peut faire quelques lignes ou plusieurs pages. Si le système indexait des notes entières, deux problèmes surgiraient. D'abord, une note longue qui traite cinq sujets serait ramenée en bloc pour une question qui n'en concerne qu'un, noyant l'information utile. Ensuite, comparer une question courte à un document long brouille la mesure de pertinence.

La solution est de découper chaque note en morceaux plus petits et cohérents, les chunks, et d'indexer ces chunks individuellement. Le retrieval compare alors ta question à des unités de la bonne taille.

Qu'est-ce qu'un chunk

Un chunk est un fragment de note : un paragraphe, une section, un passage cohérent. C'est l'unité de base que le système indexe et retrouve. Quand tu poses une question, ce sont des chunks qui ressortent, pas des fichiers entiers.

C'est ce qui permet de servir le passage, pas le fichier : moins de texte inutile, plus de signal. C'est aussi ce que vise le reranking, qui replace le meilleur chunk en tête, voir le reranking cross-encoder.

Le compromis sur la taille des chunks

Tout l'art du chunking tient dans un équilibre :

Chunks trop gros : ils contiennent le passage utile, mais noyé dans du contexte non pertinent. Le signal se dilue, et tu paies plus de tokens pour rien.
Chunks trop petits : ils sont précis, mais coupés de leur contexte. Un passage privé de ce qui l'entoure perd parfois son sens.

Le bon réglage sert un passage à la fois précis et situé. Il dépend de la nature de tes notes, et c'est l'un des paramètres que tu contrôles quand tu héberges ton propre retrieval, à la différence d'une solution cloud fermée.

Du chunk à la note

Découper en chunks ne veut pas dire perdre la note. Un bon système sait remonter du chunk pertinent vers sa note d'origine, pour te donner la source et le contexte. C'est ce lien chunk vers note qui rend le résultat sourcé : tu vois d'où vient le passage, dans quelle note, et tu peux vérifier.

Combiné au graphe des wikilinks, ça situe encore mieux le passage dans ta connaissance, voir tes wikilinks comme contexte pour l'IA.

Concrètement, sur un vault

Pour donner un ordre de grandeur réel : sur le vault de référence d'Artefact Neural, le chunking produit environ 23 500 chunks. C'est sur cet ensemble que se mesure la qualité du retrieval, Hit@1 de 0,909 et Hit@5 de 0,98, comme détaillé sur la page technique.

Ces chunks sont indexés par leurs embeddings et par BM25, puis retrouvés par la recherche hybride. Le chunking est la première brique : sans un bon découpage, les étages suivants travaillent sur de mauvaises unités.

La base silencieuse du retrieval

Le chunking ne fait pas de bruit, mais il conditionne tout le reste. Servir le bon passage suppose d'abord d'avoir découpé tes notes en passages exploitables.

Pour la suite du pipeline, vois le retrieval hybride et qu'est-ce qu'un RAG local. Pour le rôle de mémoire que tout ça remplit, le silo Mémoire pour ton IA.