Quand vous discutez avec un assistant IA, vous vous attendez à ce qu’il se souvienne de ce que vous avez dit avant. Vous dites : « Trouve-moi un vol pour Paris », puis : « Et si je pars le 12 mars ? ». Vous ne voulez pas avoir à tout répéter. Mais trop souvent, les modèles de langage à grande échelle (LLM) perdent le fil. Après cinq ou six échanges, ils commencent à répondre à côté, à faire des hypothèses erronées, ou à répéter des informations déjà données. Ce n’est pas un bug. C’est un problème fondamental : la gestion de l’état de la conversation.
Les modèles ne se souviennent pas - ils simulent
Les LLM ne possèdent pas de mémoire comme un humain. Ils ne stockent pas des souvenirs. Ils calculent des probabilités. À chaque nouvelle réponse, ils analysent tout ce qui a été échangé jusqu’ici - le texte de la conversation - et tentent de prédire le mot le plus probable qui suit. C’est efficace… jusqu’à ce que la conversation devienne longue. Dès que le nombre de tokens dépasse la limite du contexte (souvent 32 000 ou 128 000), les premiers échanges sont écrasés. Le modèle oublie. Ce n’est pas une question de mémoire insuffisante - c’est une question de cohérence.Une étude publiée en mai 2025 par des chercheurs de Salesforce montre que les principaux modèles - GPT-4, Claude 3, Llama 3 - voient leur performance chuter de 39 % en moyenne dans les conversations multilingues par rapport aux échanges uniques. Ce n’est pas une petite baisse. C’est une chute à laquelle les modèles ne peuvent pas se remettre. Si l’IA fait une erreur tôt dans la conversation, elle s’enfonce. Elle ne revient pas en arrière. Elle continue sur la mauvaise voie, avec une confiance aveugle.
Comment les modèles perdent le fil
Il y a trois raisons principales à cette perte de contexte :- Les hypothèses prématurées : Le modèle suppose qu’il connaît la demande, même si l’utilisateur n’a pas encore tout dit. Il répond à ce qu’il pense, pas à ce qu’on lui demande.
- La sur-reliance sur ses propres réponses : Il commence à croire que ses propres affirmations précédentes sont des faits. Si vous dites « Je veux un billet pour Londres » et qu’il répond « Votre vol est prévu pour le 15 mars », même si vous n’avez jamais mentionné cette date, il va continuer à l’utiliser comme référence.
- La dilution du signal : Avec trop de texte en entrée, les mots importants se noient dans le bruit. Le modèle ne sait plus ce qui est crucial et ce qui est secondaire.
Des tests réels le confirment. Un développeur sur Reddit a partagé que 63 % des conversations avec des assistants clientèle dépassant six échanges nécessitaient une intervention humaine. Sur les forums, les utilisateurs rapportent que GPT-4, qui atteint 92 % de précision sur des tâches simples, tombe à 58 % après cinq échanges.
Les solutions : du fine-tuning à l’itération intelligente
Les approches traditionnelles de fine-tuning - entraîner un modèle sur des paires question-réponse isolées - échouent lamentablement dans les conversations multilingues. Elles atteignent à peine 42 % de précision sur des benchmarks comme MT-Bench. Ce qui fonctionne, c’est de former le modèle sur des conversations réelles, avec une structure précise.La méthode la plus efficace aujourd’hui s’appelle Review-Instruct. Développée par l’équipe d’OPPO, elle utilise un système à trois agents :
- Un Candidate : le modèle principal qui génère une réponse.
- Cinq Reviewers : des modèles secondaires qui évaluent la réponse selon trois critères : pertinence, cohérence et profondeur.
- Un Chairman : qui fusionne les avis des Reviewers pour créer une instruction de correction précise.
Ce processus itératif - générer, évaluer, corriger - augmente la diversité des instructions de 27 % par rapport aux méthodes classiques. Le modèle Review-Instruct-13B a atteint 29,65 % de précision sur MMLU-Pro, soit 2,9 % de plus que les meilleurs modèles précédents. Mais il faut 3,8 fois plus de puissance GPU pour le former. Ce n’est pas bon marché.
Le rôle critique du masquage de perte
Une innovation technique souvent ignorée est le loss masking. Pendant l’entraînement, le modèle ne doit apprendre qu’à prédire les réponses de l’assistant - pas les questions de l’utilisateur ni les instructions du système. Si vous lui apprenez à répondre à tout, il va générer des réponses inappropriées. Par exemple, il pourrait répéter ce que l’utilisateur a dit, ou même inventer des réponses à des questions qui n’ont jamais été posées.Le masquage de perte force le modèle à se concentrer uniquement sur son propre rôle. C’est la clé pour éviter les réponses hors sujet. Selon Together.ai, 89 % des équipes qui ont réussi à déployer des systèmes multilingues l’ont fait en utilisant cette technique. Sans elle, même les meilleures données ne suffisent pas.
Les données : structure, rôles, et authenticité
Pour entraîner un modèle sur des conversations multilingues, vos données doivent être parfaitement structurées. Chaque exemple dans votre fichier JSONL doit être une liste de messages. Chaque message doit avoir deux champs :role et content. Les rôles sont limités à trois : system, user, assistant.
Un exemple valide :
[
{"role": "system", "content": "Vous êtes un assistant technique pour un service client."},
{"role": "user", "content": "Mon ordinateur ne s’allume plus."},
{"role": "assistant", "content": "Avez-vous vérifié la prise électrique ?"},
{"role": "user", "content": "Oui, elle est branchée."},
{"role": "assistant", "content": "Essayez d’appuyer sur le bouton d’alimentation pendant 10 secondes."}
]
Les données du dataset CoQA - 127 000 paires de questions-réponses - sont utiles pour la recherche, mais elles ne reflètent pas les conversations réelles en entreprise. Les clients ne posent pas des questions nettes. Ils disent : « J’ai essayé ce que vous avez dit hier, mais ça marche toujours pas ». Il faut des données réelles, avec des erreurs, des digressions, des répétitions. C’est ce que les meilleures équipes utilisent aujourd’hui.
Les limites persistantes
Même avec les meilleures méthodes, les problèmes restent :- Le débordement de contexte : Si une conversation dure plus de 10 échanges, la performance chute de 63 %. Aucun modèle ne gère bien les longues interactions.
- La perte d’alignement : Le modèle commence à dériver de son rôle initial. Il devient moins utile, plus arrogant, ou trop vague.
- Les coûts élevés : Fine-tuner un modèle comme Llama-3-8B sur des conversations multilingues demande 2 à 4 GPU A100 pendant 12 à 24 heures. Pour une PME, c’est inaccessible.
Et pourtant, la demande augmente. Selon Gartner, 47 % des entreprises du Fortune 500 ont déjà déployé des systèmes multilingues en 2025 - contre 12 % l’année précédente. Le marché mondial des IA conversationnelles devrait atteindre 32,2 milliards de dollars d’ici 2027. Les régulateurs de l’Union européenne ont déjà commencé à exiger des preuves de gestion de l’état de la conversation pour les systèmes à haut risque.
Que faire aujourd’hui ?
Si vous construisez un assistant clientèle, un support technique ou un coach personnel :- Utilisez des modèles fine-tunés sur vos propres données de conversation réelles.
- Appliquez le masquage de perte dès le début. C’est non-négociable.
- Intégrez un système de résumé contextuel : après chaque 3-4 échanges, faites résumer la conversation par un autre modèle. Passez ce résumé en entrée pour la prochaine boucle.
- Limitez les conversations à 6-8 échanges maximum. Au-delà, redirigez vers un humain.
- Surveillez les répétitions et les hypothèses erronées. C’est le premier signe que l’état est perdu.
Les entreprises qui ont mis en œuvre ces pratiques ont vu leur taux de résolution au premier contact passer de 47 % à 73 %. Ce n’est pas une amélioration mineure. C’est une transformation.
Le futur : mémoire, alignement, et apprentissage par renforcement
Les chercheurs travaillent déjà sur les solutions de demain. Google DeepMind a présenté des réseaux de mémoire conversationnelle qui réduisent la chute de performance à 18,7 % - presque la moitié de la moyenne actuelle. L’atelier NeurIPS 2025 identifiera l’apprentissage par renforcement pour les interactions longues comme une priorité absolue. Le but : faire en sorte que les modèles apprennent non seulement à répondre, mais à se souvenir.Le futur ne sera pas dans des modèles plus gros. Il sera dans des modèles plus cohérents. Des modèles qui ne perdent pas le fil. Qui gardent le cap. Qui se souviennent - même si ce n’est pas de la mémoire, mais de la structure, de la discipline, et de la rigueur.
Les utilisateurs ne veulent pas des IA intelligentes. Ils veulent des IA fiables. Et pour ça, la gestion de l’état de la conversation n’est pas une fonctionnalité. C’est la base.