Stratégies de few-shot prompting pour améliorer la précision et la cohérence des LLM

Stratégies de few-shot prompting pour améliorer la précision et la cohérence des LLM

Renee Serda mars. 21 0

Comment le few-shot prompting transforme les performances des modèles linguistiques

Vous avez déjà essayé de poser une question à un modèle d’intelligence artificielle comme GPT-4 ou Claude, et obtenu une réponse vague, hors sujet, ou simplement incorrecte ? C’est fréquent avec le zero-shot prompting - quand vous n’offrez aucun exemple. Mais quand vous ajoutez juste deux ou cinq exemples clairs avant votre question réelle, la précision monte en flèche. Des études montrent une amélioration de 15 à 40 % dans la qualité des réponses, sans toucher au modèle lui-même. Ce n’est pas de la magie. C’est de l’apprentissage par le contexte.

Les modèles linguistiques modernes ne sont pas des calculatrices. Ils sont des détecteurs de motifs. Ils ont été formés sur des milliards de phrases, et ils cherchent constamment des ressemblances. Quand vous leur donnez quelques exemples de ce que vous attendez, ils comprennent : "Ah, ici, il faut répondre comme ça. Pas comme ça." C’est cette capacité que le few-shot prompting exploite.

Le piège du trop-plein d’exemples

Beaucoup pensent que plus d’exemples = meilleure réponse. C’est faux. Une découverte récente, appelée le "dilemme du few-shot", montre qu’au-delà d’un certain nombre, les performances baissent. Dans des tests avec GPT-4o, LLaMA-3.1 et Mistral, les modèles ont commencé à se perdre quand on leur a donné plus de 8 exemples. Ils ont commencé à copier les exemples au lieu de les généraliser. Ils ont même parfois ignoré la question centrale pour répéter une structure vue précédemment.

Ce n’est pas un bug. C’est une limite de conception. Les modèles ne sont pas programmés pour filtrer. Ils traitent tout ce qui est dans le contexte comme aussi important. Donc, si vous leur donnez 15 exemples similaires, ils ne savent plus lequel est le plus pertinent. La solution ? Moins, mais mieux.

Comment choisir les bons exemples

Ne choisissez pas des exemples au hasard. Ne copiez pas non plus les premiers résultats trouvés sur Google. Les exemples doivent être :

  • Représentatifs : couvrez différents cas d’usage, pas juste une variante répétée.
  • Équilibrés : incluez des cas simples, moyens et complexes. Par exemple, pour une tâche de classification de requêtes client, montrez une question claire, une question ambiguë, et une question avec des erreurs de frappe.
  • Propres : évitez les exemples biaisés. Si vous montrez toujours des réponses positives, le modèle ignorera les réponses négatives ou neutres.

Une méthode éprouvée pour sélectionner ces exemples est l’analyse TF-IDF. Elle identifie les exemples les plus discriminants dans un ensemble de données. Contrairement à la sélection aléatoire ou à l’analyse par embeddings sémantiques, TF-IDF met l’accent sur les mots rares mais significatifs. Dans une étude récente, cette méthode a surpassé les autres en classification de besoins fonctionnels, avec une amélioration de 1 % - un chiffre petit, mais significatif quand chaque % compte.

Des exemples trop nombreux désorientent une entité IA, certains floutés, un étiqueté 'Trop d'exemples' en rouge.

Combinez avec le chain-of-thought pour les tâches complexes

Si vous travaillez sur des problèmes de logique, de mathématiques, ou d’analyse de texte complexe, ajoutez une étape : montrez les raisonnements.

Plutôt que de juste donner :

Question : Combien de jours entre le 15 mars et le 2 avril ?
Réponse : 18 jours.

Donnez :

Question : Combien de jours entre le 15 mars et le 2 avril ?
Réponse : D’abord, mars a 31 jours, donc du 15 au 31, il y a 16 jours. Ensuite, avril commence le 1er, donc jusqu’au 2, il y a 2 jours. Total : 16 + 2 = 18 jours.

Cette technique, appelée chain-of-thought, oblige le modèle à "penser à voix haute". Elle double la précision sur les tâches de raisonnement, selon des tests réalisés avec GPT-4 et Claude 3. Le modèle ne se contente plus de deviner la réponse. Il suit une trajectoire logique, et c’est ce que vous voulez.

Ordre des exemples : commencez simple, finissez complexe

L’ordre compte autant que le contenu. Un bon prompt commence par un exemple simple, puis monte en difficulté. C’est comme enseigner à un élève : d’abord, "2 + 2 = 4", puis "si x + 3 = 7, combien vaut x ?", puis "si x + y = 10 et x = 2y, quelles sont les valeurs ?"

Un prompt mal ordonné - par exemple, un exemple complexe en premier - désoriente le modèle. Il ne sait pas encore ce qu’il doit chercher. Il peut même généraliser à tort. Une étude sur la génération de résumés de documents juridiques a montré que les modèles étaient 32 % plus précis quand les exemples étaient triés par complexité croissante.

Une chaîne de raisonnement logique s'élève sous forme de symboles lumineux au-dessus d'un problème mathématique complexe.

Quand privilégier le few-shot prompting plutôt que le fine-tuning ou le RAG ?

Vous avez trois options pour améliorer les réponses d’un LLM :

  • Zero-shot : pas d’exemples. Rapide, mais peu fiable pour les tâches spécifiques.
  • Many-shot / few-shot : quelques exemples dans le prompt. Pas de coût de calcul, pas de réentraînement.
  • Fine-tuning : réentraîner le modèle avec des données étiquetées. Très précis, mais coûteux et lent.
  • RAG : chercher dans une base de connaissances externe avant de répondre. Parfait pour les données dynamiques, mais nécessite une infrastructure.

Voici quand choisir quoi :

  • Privilégiez le few-shot si vous avez peu de données (2 à 5 exemples suffisent), si vous voulez une réponse rapide, ou si votre tâche change souvent (ex. : répondre à des questions clients avec des formulations variées).
  • Privilégiez le fine-tuning si vous avez des milliers d’exemples annotés et que la tâche est fixe (ex. : classer automatiquement des rapports internes).
  • Privilégiez le RAG si votre réponse dépend d’informations qui changent tous les jours (ex. : prix des produits, disponibilité des stocks, actualités).

Le few-shot prompting est le "juste milieu" : pas aussi puissant que le fine-tuning, mais 100 fois plus rapide à mettre en œuvre. Il ne nécessite aucune compétence en ingénierie logicielle. Vous pouvez le tester avec un simple éditeur de texte.

Les règles d’or du few-shot prompting

Voici les 5 règles à suivre pour maximiser la précision :

  1. Limitez-vous à 2 à 5 exemples - sauf pour des tâches très complexes, où 6 à 8 peuvent être utiles.
  2. Organisez-les par complexité croissante - simple → moyen → difficile.
  3. Utilisez TF-IDF pour sélectionner les exemples - surtout si vous avez une base de données historique.
  4. Ajoutez du chain-of-thought pour les tâches de logique, calcul ou analyse.
  5. Testez sur 10 à 20 nouvelles questions avant de déployer - si le modèle échoue sur 2 ou plus, ajustez les exemples.

Un exemple concret : vous créez un outil qui résume les commentaires clients. Vous avez 30 exemples annotés. Au lieu d’en mettre 10 dans le prompt, utilisez TF-IDF pour en extraire 4 : un très clair, un ambigu, un avec une faute, un avec un ton agressif. Testez. Vous obtiendrez des résumés plus précis que si vous aviez mis 8 exemples aléatoires.

Conclusion : moins de prompts, plus de précision

Le few-shot prompting n’est pas une technique compliquée. C’est une discipline. Comme la photographie : ce n’est pas l’appareil qui fait la photo, c’est le cadrage. Ce n’est pas le nombre d’exemples qui fait la qualité, c’est leur pertinence. Les meilleurs prompts ne sont pas les plus longs. Ce sont les plus intelligents.

Vous n’avez pas besoin de données massives. Vous n’avez pas besoin de re-entraîner un modèle. Vous avez juste besoin de quelques exemples bien choisis. Et d’un peu de patience pour tester, ajuster, et répéter.

Quel est le nombre idéal d’exemples pour un prompt few-shot ?

Pour la plupart des tâches, 2 à 5 exemples suffisent. Pour les tâches très complexes, comme la résolution de problèmes mathématiques ou la classification juridique, 6 à 8 peuvent être utiles. Au-delà de 8, la plupart des modèles commencent à dégrader leurs performances à cause du "dilemme du few-shot". Il vaut mieux 3 exemples bien choisis que 15 similaires.

Le few-shot prompting fonctionne-t-il avec tous les modèles d’IA ?

Oui, mais pas de la même manière. Les modèles récents comme GPT-4, Claude 3, LLaMA-3.1 et Mistral répondent très bien au few-shot. Les modèles plus anciens ou plus petits (comme LLaMA-2 ou Gemma-2) sont moins performants, surtout avec plus de 5 exemples. Il est essentiel de tester avec votre modèle spécifique. Ce qui marche avec GPT-4 ne marche pas toujours avec un modèle open-source.

Pourquoi TF-IDF est-il meilleur que les embeddings sémantiques pour choisir les exemples ?

TF-IDF identifie les mots rares mais discriminants dans un ensemble de données. Par exemple, dans des commentaires clients, "retour", "remboursement", ou "délai" peuvent être rares, mais très informatifs. Les embeddings sémantiques cherchent la similarité globale, ce qui peut inclure des exemples trop généraux. TF-IDF filtre le bruit et met l’accent sur les signaux clés - ce qui rend les exemples plus utiles pour le modèle.

Le few-shot prompting peut-il remplacer le fine-tuning ?

Pas complètement. Le fine-tuning reste supérieur quand vous avez des milliers d’exemples et que la tâche est fixe (ex. : automatiser la réponse à un formulaire interne). Mais pour la plupart des cas d’usage - comme répondre à des questions clients, générer des résumés ou classer des textes avec des variations - le few-shot prompting est plus rapide, moins cher, et souvent aussi précis. Il n’y a pas de raison de faire du fine-tuning si 5 exemples suffisent.

Comment tester si mes exemples fonctionnent bien ?

Prenez 10 à 20 nouvelles questions que vous n’avez pas utilisées dans vos exemples. Posez-les au modèle avec votre prompt. Notez combien de réponses sont correctes, partiellement correctes, ou totalement hors sujet. Si plus de 20 % des réponses sont mauvaises, modifiez vos exemples. Essayez d’ajouter un exemple d’edge case (cas limite) ou de supprimer un exemple redondant. Testez à nouveau. C’est un cycle d’amélioration continu.

Articles récents
IA Générative en Vente : Battlecards, Résumés d'Appels et Gestion des Objections
IA Générative en Vente : Battlecards, Résumés d'Appels et Gestion des Objections

L'IA générative transforme les outils de vente : les battlecards deviennent dynamiques, les résumés d'appels sont automatisés, et les objections sont traitées en temps réel. Découvrez comment les équipes de vente gagnent plus de deals en 2025.

Boucles d'amélioration continue : Retraining, feedback et mise à jour des invites en MLOps
Boucles d'amélioration continue : Retraining, feedback et mise à jour des invites en MLOps

Les boucles d'amélioration continue permettent aux systèmes d'IA de s'adapter en temps réel grâce au feedback, au retraining automatique et à l'optimisation des invites. Sans elles, les modèles deviennent obsolètes. Voici comment les mettre en œuvre.

Tendances mondiales de la régulation de l'IA générative : convergence et divergences
Tendances mondiales de la régulation de l'IA générative : convergence et divergences

En 2025, la régulation de l'IA générative divise le monde : l'UE exige la transparence, la Chine contrôle le contenu, les États-Unis favorisent l'innovation. Pourtant, un point les unit : l'étiquetage obligatoire. Découvrez les tendances et les défis mondiaux.

À propos de nous

Cercle de l'Évaluation IA est une communauté dédiée aux benchmarks, audits et bonnes pratiques pour mesurer la performance et l'éthique des systèmes d'intelligence artificielle. Découvrez des guides, cadres méthodologiques et études de cas pour fiabiliser vos modèles. Partagez et comparez des jeux de tests, métriques et outils open source. Restez informé des actualités et normes autour de l'évaluation des IA.