Home
Technologie Et IA
Stratégies de découpage qui améliorent la qualité de récupération dans les systèmes RAG pour grands modèles linguistiques

Stratégies de découpage qui améliorent la qualité de récupération dans les systèmes RAG pour grands modèles linguistiques

Renee Serda févr.. 28 9

Quand un modèle linguistique massive comme GPT-4 ou Llama 3 cherche une réponse dans une base de documents, il ne lit pas tout le texte d’un coup. Il récupère des morceaux. Ces morceaux s’appellent des chunks. Et la façon dont vous les découpez détermine si la réponse sera juste, utile, ou complètement fausse. La plupart des équipes utilisent une méthode par défaut : couper tous les documents en morceaux de 512 ou 1024 tokens. Mais ce n’est pas la meilleure façon. En réalité, le découpage correct peut améliorer la précision de récupération de jusqu’à 27,8 %, selon les recherches de Stanford. Voici comment faire mieux.

Le problème avec les morceaux fixes

La méthode la plus répandue consiste à couper les textes en morceaux de taille fixe - souvent 512, 1024 ou 2048 tokens. C’est simple, rapide, et facile à implémenter. Mais elle a un défaut majeur : elle ne respecte pas le sens.

Prenons un exemple réel : un contrat juridique. Si vous coupez juste après le mot « obligation », vous perdez la suite : « de verser 15 000 euros avant le 30 juin ». Le modèle voit un morceau incomplet. Il répond mal. Ou pire : il invente une réponse. C’est ce qu’on appelle une hallucination.

Des tests menés par NVIDIA en octobre 2024 sur sept jeux de données montrent que cette méthode atteint une précision moyenne de 0,645. Pas mal, mais pas optimale. Et surtout, elle varie beaucoup selon le type de document. Dans un rapport financier, elle marche bien. Dans un manuel médical avec des tableaux et des paragraphes, elle échoue souvent.

Le découpage par page : la méthode la plus efficace

La stratégie qui sort du lot ? Le découpage par page. Pas par token. Pas par phrase. Par page physique du document.

Pourquoi ? Parce qu’une page, dans un document structuré, est souvent une unité sémantique. Elle contient un titre, un paragraphe, une illustration, une légende - tout ce qui va ensemble. Un ingénieur chez JPMorgan Chase a testé cette méthode sur des documents de conformité financière. Résultat : une amélioration de 22,3 % de précision par rapport aux morceaux de 1024 tokens.

NVIDIA l’a confirmé : sur la plupart des jeux de données, le découpage par page a atteint une précision moyenne de 0,648, la plus élevée de toutes les méthodes testées. Et ce n’est pas un hasard. Dans les documents de droit, de santé ou de finance, les pages sont conçues pour être lues comme des unités cohérentes. Couper à l’intérieur, c’est détruire le contexte.

Le recouvrement : ce que personne ne fait, mais que tout le monde devrait

Même avec un découpage par page, il reste un problème : les transitions. Que se passe-t-il si une idée importante commence à la fin d’une page et se termine au début de la suivante ? Le modèle ne la voit pas.

La solution ? Le recouvrement. Ajouter 10 à 20 % de texte en double entre deux chunks. Pas pour économiser de la mémoire. Pour garder le contexte.

Weaviate a mesuré que cette simple technique améliore la qualité de récupération de 14,3 % sur des documents variés. Dans un manuel de chimie, une réaction chimique peut s’étendre sur deux paragraphes. Sans recouvrement, le modèle ne la comprend pas. Avec 15 % de recouvrement, il la reconnaît. Et ça marche aussi sur les PDF, les rapports, les contrats.

Microsoft recommande de l’appliquer systématiquement. Et pour cause : sans recouvrement, vous perdez des informations critiques - surtout dans les documents techniques.

Le découpage sémantique : quand l’IA découpe pour vous

Et si on laissait l’IA décider où couper ?

Le découpage sémantique utilise des embeddings pour trouver les points naturels de rupture. Il analyse le sens du texte, pas juste la longueur. Si un paragraphe change de sujet, il crée un nouveau chunk. C’est comme si un humain relisait le texte et le divisait en idées.

Les résultats sont impressionnants : une amélioration de 19,6 % de précision sur les documents techniques. Une étude de F22 Labs montre que cette méthode réduit les erreurs de 31 % sur des articles scientifiques.

Mais il y a un prix : 43 % plus de temps de traitement. Si vous traitez 10 000 documents par jour, ça peut devenir un goulot d’étranglement. Ce n’est donc pas adapté aux applications en temps réel. Mais pour les systèmes de recherche interne, les bases de connaissances médicales ou les assistants juridiques, c’est un excellent choix.

Tableau de bord comparant trois méthodes de découpage avec une précision croissante en pourcentage.

Le découpage basé sur la structure : pour les documents complexes

Certains documents ne sont pas des textes linéaires. Ils ont des titres, des sous-titres, des tableaux, des listes. Un rapport annuel, un manuel de procédure, un protocole clinique - ces formats nécessitent une approche différente.

Le découpage basé sur la structure utilise les balises du document :