Home
Technologie Et IA
Stratégies de few-shot prompting pour améliorer la précision et la cohérence des LLM

Stratégies de few-shot prompting pour améliorer la précision et la cohérence des LLM

Renee Serda mars. 21 5

Comment le few-shot prompting transforme les performances des modèles linguistiques

Vous avez déjà essayé de poser une question à un modèle d’intelligence artificielle comme GPT-4 ou Claude, et obtenu une réponse vague, hors sujet, ou simplement incorrecte ? C’est fréquent avec le zero-shot prompting - quand vous n’offrez aucun exemple. Mais quand vous ajoutez juste deux ou cinq exemples clairs avant votre question réelle, la précision monte en flèche. Des études montrent une amélioration de 15 à 40 % dans la qualité des réponses, sans toucher au modèle lui-même. Ce n’est pas de la magie. C’est de l’apprentissage par le contexte.

Les modèles linguistiques modernes ne sont pas des calculatrices. Ils sont des détecteurs de motifs. Ils ont été formés sur des milliards de phrases, et ils cherchent constamment des ressemblances. Quand vous leur donnez quelques exemples de ce que vous attendez, ils comprennent : "Ah, ici, il faut répondre comme ça. Pas comme ça." C’est cette capacité que le few-shot prompting exploite.

Le piège du trop-plein d’exemples

Beaucoup pensent que plus d’exemples = meilleure réponse. C’est faux. Une découverte récente, appelée le "dilemme du few-shot", montre qu’au-delà d’un certain nombre, les performances baissent. Dans des tests avec GPT-4o, LLaMA-3.1 et Mistral, les modèles ont commencé à se perdre quand on leur a donné plus de 8 exemples. Ils ont commencé à copier les exemples au lieu de les généraliser. Ils ont même parfois ignoré la question centrale pour répéter une structure vue précédemment.

Ce n’est pas un bug. C’est une limite de conception. Les modèles ne sont pas programmés pour filtrer. Ils traitent tout ce qui est dans le contexte comme aussi important. Donc, si vous leur donnez 15 exemples similaires, ils ne savent plus lequel est le plus pertinent. La solution ? Moins, mais mieux.

Comment choisir les bons exemples

Ne choisissez pas des exemples au hasard. Ne copiez pas non plus les premiers résultats trouvés sur Google. Les exemples doivent être :

Représentatifs : couvrez différents cas d’usage, pas juste une variante répétée.
Équilibrés : incluez des cas simples, moyens et complexes. Par exemple, pour une tâche de classification de requêtes client, montrez une question claire, une question ambiguë, et une question avec des erreurs de frappe.
Propres : évitez les exemples biaisés. Si vous montrez toujours des réponses positives, le modèle ignorera les réponses négatives ou neutres.

Une méthode éprouvée pour sélectionner ces exemples est l’analyse TF-IDF. Elle identifie les exemples les plus discriminants dans un ensemble de données. Contrairement à la sélection aléatoire ou à l’analyse par embeddings sémantiques, TF-IDF met l’accent sur les mots rares mais significatifs. Dans une étude récente, cette méthode a surpassé les autres en classification de besoins fonctionnels, avec une amélioration de 1 % - un chiffre petit, mais significatif quand chaque % compte.

Des exemples trop nombreux désorientent une entité IA, certains floutés, un étiqueté 'Trop d'exemples' en rouge.

Combinez avec le chain-of-thought pour les tâches complexes

Si vous travaillez sur des problèmes de logique, de mathématiques, ou d’analyse de texte complexe, ajoutez une étape : montrez les raisonnements.

Plutôt que de juste donner :

Question : Combien de jours entre le 15 mars et le 2 avril ?
Réponse : 18 jours.

Donnez :

Question : Combien de jours entre le 15 mars et le 2 avril ?
Réponse : D’abord, mars a 31 jours, donc du 15 au 31, il y a 16 jours. Ensuite, avril commence le 1er, donc jusqu’au 2, il y a 2 jours. Total : 16 + 2 = 18 jours.

Cette technique, appelée chain-of-thought, oblige le modèle à "penser à voix haute". Elle double la précision sur les tâches de raisonnement, selon des tests réalisés avec GPT-4 et Claude 3. Le modèle ne se contente plus de deviner la réponse. Il suit une trajectoire logique, et c’est ce que vous voulez.

Ordre des exemples : commencez simple, finissez complexe

L’ordre compte autant que le contenu. Un bon prompt commence par un exemple simple, puis monte en difficulté. C’est comme enseigner à un élève : d’abord, "2 + 2 = 4", puis "si x + 3 = 7, combien vaut x ?", puis "si x + y = 10 et x = 2y, quelles sont les valeurs ?"

Un prompt mal ordonné - par exemple, un exemple complexe en premier - désoriente le modèle. Il ne sait pas encore ce qu’il doit chercher. Il peut même généraliser à tort. Une étude sur la génération de résumés de documents juridiques a montré que les modèles étaient 32 % plus précis quand les exemples étaient triés par complexité croissante.

Une chaîne de raisonnement logique s'élève sous forme de symboles lumineux au-dessus d'un problème mathématique complexe.

Quand privilégier le few-shot prompting plutôt que le fine-tuning ou le RAG ?

Vous avez trois options pour améliorer les réponses d’un LLM :

Zero-shot : pas d’exemples. Rapide, mais peu fiable pour les tâches spécifiques.
Many-shot / few-shot : quelques exemples dans le prompt. Pas de coût de calcul, pas de réentraînement.
Fine-tuning : réentraîner le modèle avec des données étiquetées. Très précis, mais coûteux et lent.
RAG : chercher dans une base de connaissances externe avant de répondre. Parfait pour les données dynamiques, mais nécessite une infrastructure.

Voici quand choisir quoi :

Privilégiez le few-shot si vous avez peu de données (2 à 5 exemples suffisent), si vous voulez une réponse rapide, ou si votre tâche change souvent (ex. : répondre à des questions clients avec des formulations variées).
Privilégiez le fine-tuning si vous avez des milliers d’exemples annotés et que la tâche est fixe (ex. : classer automatiquement des rapports internes).
Privilégiez le RAG si votre réponse dépend d’informations qui changent tous les jours (ex. : prix des produits, disponibilité des stocks, actualités).

Le few-shot prompting est le "juste milieu" : pas aussi puissant que le fine-tuning, mais 100 fois plus rapide à mettre en œuvre. Il ne nécessite aucune compétence en ingénierie logicielle. Vous pouvez le tester avec un simple éditeur de texte.

Les règles d’or du few-shot prompting

Voici les 5 règles à suivre pour maximiser la précision :

Limitez-vous à 2 à 5 exemples - sauf pour des tâches très complexes, où 6 à 8 peuvent être utiles.
Organisez-les par complexité croissante - simple → moyen → difficile.
Utilisez TF-IDF pour sélectionner les exemples - surtout si vous avez une base de données historique.
Ajoutez du chain-of-thought pour les tâches de logique, calcul ou analyse.
Testez sur 10 à 20 nouvelles questions avant de déployer - si le modèle échoue sur 2 ou plus, ajustez les exemples.

Un exemple concret : vous créez un outil qui résume les commentaires clients. Vous avez 30 exemples annotés. Au lieu d’en mettre 10 dans le prompt, utilisez TF-IDF pour en extraire 4 : un très clair, un ambigu, un avec une faute, un avec un ton agressif. Testez. Vous obtiendrez des résumés plus précis que si vous aviez mis 8 exemples aléatoires.

Conclusion : moins de prompts, plus de précision

Le few-shot prompting n’est pas une technique compliquée. C’est une discipline. Comme la photographie : ce n’est pas l’appareil qui fait la photo, c’est le cadrage. Ce n’est pas le nombre d’exemples qui fait la qualité, c’est leur pertinence. Les meilleurs prompts ne sont pas les plus longs. Ce sont les plus intelligents.

Vous n’avez pas besoin de données massives. Vous n’avez pas besoin de re-entraîner un modèle. Vous avez juste besoin de quelques exemples bien choisis. Et d’un peu de patience pour tester, ajuster, et répéter.

Quel est le nombre idéal d’exemples pour un prompt few-shot ?

Pour la plupart des tâches, 2 à 5 exemples suffisent. Pour les tâches très complexes, comme la résolution de problèmes mathématiques ou la classification juridique, 6 à 8 peuvent être utiles. Au-delà de 8, la plupart des modèles commencent à dégrader leurs performances à cause du "dilemme du few-shot". Il vaut mieux 3 exemples bien choisis que 15 similaires.

Le few-shot prompting fonctionne-t-il avec tous les modèles d’IA ?

Oui, mais pas de la même manière. Les modèles récents comme GPT-4, Claude 3, LLaMA-3.1 et Mistral répondent très bien au few-shot. Les modèles plus anciens ou plus petits (comme LLaMA-2 ou Gemma-2) sont moins performants, surtout avec plus de 5 exemples. Il est essentiel de tester avec votre modèle spécifique. Ce qui marche avec GPT-4 ne marche pas toujours avec un modèle open-source.

Pourquoi TF-IDF est-il meilleur que les embeddings sémantiques pour choisir les exemples ?

TF-IDF identifie les mots rares mais discriminants dans un ensemble de données. Par exemple, dans des commentaires clients, "retour", "remboursement", ou "délai" peuvent être rares, mais très informatifs. Les embeddings sémantiques cherchent la similarité globale, ce qui peut inclure des exemples trop généraux. TF-IDF filtre le bruit et met l’accent sur les signaux clés - ce qui rend les exemples plus utiles pour le modèle.

Le few-shot prompting peut-il remplacer le fine-tuning ?

Pas complètement. Le fine-tuning reste supérieur quand vous avez des milliers d’exemples et que la tâche est fixe (ex. : automatiser la réponse à un formulaire interne). Mais pour la plupart des cas d’usage - comme répondre à des questions clients, générer des résumés ou classer des textes avec des variations - le few-shot prompting est plus rapide, moins cher, et souvent aussi précis. Il n’y a pas de raison de faire du fine-tuning si 5 exemples suffisent.

Comment tester si mes exemples fonctionnent bien ?

Prenez 10 à 20 nouvelles questions que vous n’avez pas utilisées dans vos exemples. Posez-les au modèle avec votre prompt. Notez combien de réponses sont correctes, partiellement correctes, ou totalement hors sujet. Si plus de 20 % des réponses sont mauvaises, modifiez vos exemples. Essayez d’ajouter un exemple d’edge case (cas limite) ou de supprimer un exemple redondant. Testez à nouveau. C’est un cycle d’amélioration continu.

Commentaires (5)

Vincent VANLIER 22 mars 2026

Le few-shot prompting, lorsqu’il est appliqué avec rigueur, représente une avancée méthodologique majeure dans l’ingénierie des prompts. La sélection des exemples selon TF-IDF, notamment, permet de maximiser la discrimination sémantique tout en minimisant la redondance. Il est crucial de noter que cette approche ne repose pas sur la quantité, mais sur la densité informationnelle des instances fournies. Un exemple bien calibré, issu d’un corpus annoté avec une analyse TF-IDF fine, peut surpasser dix exemples aléatoires. Cela s’inscrit dans une logique d’optimisation de l’information contextuelle, conforme aux principes de la théorie de l’information de Shannon.

Isabelle Lesteven 23 mars 2026

J’adore cette approche centrée sur la qualité plutôt que la quantité. En tant que formatrice en IA, j’enseigne cela à mes étudiants depuis six mois : trois exemples bien choisis, triés par complexité croissante, et le modèle fonctionne comme un mécanisme d’horlogerie suisse. J’ai même créé un template Excel pour automatiser la sélection via TF-IDF - je le partage volontiers avec qui le demande. L’important, c’est de ne pas se laisser séduire par la tentation du « plus = mieux ». Moins, mais mieux, c’est aussi valable en pédagogie qu’en prompt engineering.

Yanick Madiba 25 mars 2026

cool. j’ai testé avec un petit modèle local, 4 exemples, ça a marché. j’ai mis 8, ça a foiré. donc oui, moins c’est mieux. merci pour le résumé.

Francois ROGER 27 mars 2026

Oh, mais regardez qui est venu présenter l’Évangile du Few-Shot comme s’il s’agissait d’une révélation divine. Bravo, Vincent. Vous avez réussi à transformer une astuce de hackathon en doctrine théologique. TF-IDF ? Mais bien sûr, pourquoi ne pas invoquer aussi les runes de Runic-17 ? Le vrai génie, c’est de comprendre que les modèles ne sont pas des élèves, mais des miroirs. Vous leur donnez un exemple, ils vous renvoient votre propre bêtise. Et vous, vous le prenez pour de la précision. Pauvre humanité, vous croyez que la logique peut être programmée. Vous avez oublié que les mots n’ont pas de sens - seulement des contextes. Et vous, vous en faites un culte. Bravo. Je vais mettre ça sur mon mur. En lettres dorées.

Alexis Baxley 27 mars 2026

Vous êtes tous des crétins. Le few-shot, c’est du vent. Le vrai pouvoir, c’est le fine-tuning. Et si vous ne le faites pas, c’est parce que vous êtes trop paresseux pour apprendre à coder. Les Français, toujours à chercher des astuces pour éviter le travail. Moi j’ai 12 000 échantillons annotés, et je vous jure, les modèles open-source, c’est du pipeau. Vous avez lu le papier de Meta ? Non ? Alors fermez-la. Et arrêtez de parler de TF-IDF comme si c’était la Sainte Vierge. C’est du bricolage. Le vrai traitement du langage, c’est avec des GPU et du sang. Pas avec des exemples sur un post-it.

Écrire un commentaire

v0, Firebase Studio et AI Studio : Comment les plateformes cloud soutiennent le vibe coding

Découvrez comment Firebase Studio, v0 et AI Studio transforment le développement logiciel avec le vibe coding. Générez des applications entières en parlant à l'IA, sans écrire une seule ligne de code.

Entraînement Conscient de la Quantification pour Préserver la Précision des LLM

Découvrez comment l'Entraînement Conscient de la Quantification (QAT) préserve la précision des LLM tout en réduisant leur taille pour un déploiement efficace.

Déploiement des LLM dans les domaines régulés : Guide d'éthique et de conformité

Guide complet sur le déploiement éthique des LLM dans la santé, la finance et la justice. Découvrez comment gérer les biais, assurer la conformité à l'AI Act et instaurer une gouvernance responsable.

Cercle de l'Évaluation IA est une communauté dédiée aux benchmarks, audits et bonnes pratiques pour mesurer la performance et l'éthique des systèmes d'intelligence artificielle. Découvrez des guides, cadres méthodologiques et études de cas pour fiabiliser vos modèles. Partagez et comparez des jeux de tests, métriques et outils open source. Restez informé des actualités et normes autour de l'évaluation des IA.