Quand vous déployez un modèle d’IA capable de comprendre et de générer du texte dans plusieurs langues, vous ne travaillez pas juste avec des mots. Vous travaillez avec des inégalités. Certains langages ont des milliards de mots en ligne. D’autres, à peine quelques millions. Et pourtant, vous voulez que votre modèle soit aussi bon en swahili qu’en anglais. Comment faire ? La réponse n’est pas de simplement ajouter plus de données. C’est de les équilibrer intelligemment.
Le problème des langues sous-représentées
Les premiers modèles multilingues, comme mT5 ou mBART, ont suivi une approche simple : ils prenaient les données telles qu’elles étaient disponibles. Si l’anglais avait 100 milliards de mots et le bengali 500 millions, ils allaient donner à l’anglais 99,5 % des données d’entraînement. Résultat ? Le modèle devenait excellent en anglais, mais en bengali, il faisait des erreurs de base : mauvaise grammaire, traductions littérales, incompréhension du contexte. La différence de performance pouvait atteindre 50 % entre les langues riches et les langues pauvres en données. Ce n’est pas un problème technique mineur. C’est une question d’équité. Imaginez un chatbot de service client qui comprend parfaitement les clients en anglais, mais échoue à répondre à un client en kiswahili ou en guarani. Ce n’est pas une erreur de codage. C’est un biais systémique. Et il est causé par la manière dont on alimente le modèle.La révolution de l’échantillonnage optimal
En 2024, une équipe de chercheurs a publié une étude qui a changé la donne. Plutôt que de copier les proportions des données, ils ont trouvé une formule mathématique pour déterminer combien de mots de chaque langue il faut utiliser, indépendamment de leur volume total. Cette méthode, appelée échantillonnage optimal, repose sur une loi d’échelle : la perte de performance d’un modèle (mesurée en entropie croisée) dépend de la taille du modèle, de la taille du jeu de données, et surtout, du ratio d’échantillonnage de chaque langue. Ils ont entraîné plus de 100 modèles, allant de 85 millions à 1,2 milliard de paramètres, sur 23 langues réparties en cinq familles linguistiques (indo-européenne, sino-tibétaine, japonique, coréenne, dravidienne). Ce qu’ils ont découvert est surprenant : les ratios optimaux trouvés sur un petit modèle de 85 millions de paramètres fonctionnaient presque aussi bien sur un modèle de 1,2 milliard. Cela signifie que vous n’avez pas besoin d’entraîner un modèle géant pour trouver la bonne répartition. Vous pouvez tester sur un petit modèle, puis appliquer les mêmes ratios à un modèle plus grand. Cela réduit les coûts de calcul de 40 %. Voici un exemple concret : pour une langue avec 1 milliard de mots d’entraînement, le ratio optimal était de 0,7 %. Pour l’anglais, avec plus de 100 milliards de mots, il suffisait de 0,3 %. Cela semble contre-intuitif, mais ça marche. En appliquant ces ratios, les performances des langues à faibles ressources ont augmenté de 15 à 22 %, sans ralentir le modèle global.Comparaison des approches
Voici comment les différentes méthodes se comparent :
| Stratégie | Performance sur langues à faibles ressources | Effet sur l’efficacité globale | Coût de calcul |
|---|---|---|---|
| Échantillonnage proportionnel (mT5) | Performance faible (gaps de 35-50 %) | Élevée | Élevé |
| Échantillonnage par température (NLLB) | Amélioration de 18-25 % | Réduite de 12-15 % | Moyen |
| Échantillonnage optimal (Tian et al., 2024) | 92-95 % de la performance des langues riches | 98 % de l’efficacité globale | 40 % moins cher |
| Augmentation de la taille du modèle (PaLM 2) | Réduction du gap à 25-30 % | Diminuée | 3,5x plus cher |
L’échantillonnage optimal est la seule méthode qui améliore les langues à faibles ressources sans sacrifier l’efficacité du modèle. C’est pourquoi des entreprises comme Meta ont adopté cette approche dans leurs modèles Llama-Multilingual. Ces modèles atteignent 87-92 % de précision sur les benchmarks comme XTREME, avec 40 % moins de ressources.
Les limites et les pièges
Ce n’est pas une solution magique. Il y a des limites. Tout d’abord, il existe un seuil de ressources. Pour les langues avec moins de 50 millions de mots d’entraînement, les gains sont minimes, peu importe comment vous ajustez les ratios. Ce n’est pas un problème de méthode - c’est un problème de données. Si une langue n’a presque pas de texte numérique, aucun modèle ne pourra la maîtriser à 100 %. Ensuite, la méthode repose sur des familles linguistiques. Elle suppose que les langues au sein d’une même famille (par exemple, l’espagnol, le portugais et l’italien) partagent des structures similaires. Mais ce n’est pas toujours vrai. Des langues comme le turc ou le finnois, très différentes de l’anglais, nécessitent plus de mots pour couvrir le même vocabulaire. Les développeurs ont remarqué qu’il fallait 25-30 % de mots supplémentaires en turc pour atteindre la même couverture que l’anglais. Et puis, il y a le problème du code-switching. Dans beaucoup de régions, les gens mélangent naturellement les langues dans une même phrase. Un utilisateur peut écrire : "Je vais au mall demain" en français avec un mot anglais. Les modèles actuels ne sont pas formés pour ça. Et pourtant, ce phénomène représente 15 à 20 % des communications réelles. Les chercheurs de Google le reconnaissent : les lois d’échelle actuelles ignorent ce détail crucial.Comment l’appliquer en pratique
Si vous voulez mettre en œuvre cette approche, voici ce qu’il faut faire :- Identifiez précisément les langues que vous devez prendre en charge.
- Comptez le nombre de tokens pour chaque langue (pas seulement les fichiers, mais les mots réellement utilisables).
- Classez-les par famille linguistique (utilisez la base de données World Atlas of Language Structures).
- Entraînez un petit modèle (85M paramètres) avec des ratios d’échantillonnage variés pour trouver le meilleur équilibre.
- Appliquez les mêmes ratios à votre modèle principal.
- Surveillez les performances sur des benchmarks comme Flores-200 ou XTREME.
Il existe des outils gratuits sur GitHub, comme le dépôt multilingual-scaling-tools, qui automatisent le calcul des ratios. Avec eux, la configuration passe de 2-3 semaines à 2-3 jours.
Les entreprises qui l’ont fait ont vu des résultats concrets : les taux d’échec des chatbots dans les langues à faibles ressources sont passés de 22 % à 8 %. Le temps de mise sur le marché pour des applications multilingues a été réduit de 28 %. Et selon Gartner, cela économise entre 1,2 et 1,8 million de dollars par itération de modèle.
Le futur : plus de qualité, pas plus de données
La tendance du marché est claire : on ne cherche plus à avoir plus de langues. On cherche à avoir de meilleures langues. En 2022, 22 % des entreprises utilisaient des modèles multilingues. En 2024, ce chiffre est passé à 57 %. Mais ce qui est plus important, c’est que 73 % d’entre elles ont réduit leur volume de données d’entraînement tout en améliorant les performances. Elles ont compris : ce n’est pas la quantité qui compte. C’est la qualité de la répartition. L’Union européenne, avec son règlement sur l’IA qui entre en vigueur en février 2025, va exiger une « équité démontrable » entre les langues. Cela va forcer les entreprises à adopter des méthodes scientifiques, pas des approximations. Le prochain grand défi ? Couvrir les langues avec moins de 1 million de locuteurs. Mais même ici, les chercheurs commencent à dire : « Arrêtons de chercher à tout couvrir. Concentrons-nous sur ce qui compte vraiment. »Le futur des modèles multilingues n’est pas dans la taille. Il est dans l’équilibre.
Qu’est-ce que l’échantillonnage optimal dans les modèles multilingues ?
L’échantillonnage optimal est une méthode qui détermine combien de données de chaque langue doivent être utilisées lors de l’entraînement d’un modèle, non pas en fonction de leur volume disponible, mais selon une formule mathématique qui équilibre les performances entre langues riches et langues pauvres. Cela permet d’améliorer les résultats pour les langues à faibles ressources sans sacrifier l’efficacité globale du modèle.
Pourquoi les modèles avec plus de données ne sont-ils pas toujours meilleurs ?
Parce que les données ne sont pas équitablement réparties. Si 99 % des données sont en anglais, le modèle apprendra surtout l’anglais. Ajouter plus de données en anglais ne fait que renforcer ce déséquilibre. Ce qui compte, c’est la diversité équilibrée, pas la quantité brute.
Quelles langues sont les plus difficiles à intégrer ?
Les langues avec moins de 50 millions de tokens d’entraînement montrent des gains limités, même avec un bon échantillonnage. Cela inclut des langues comme le guarani, le tchétchène ou le kalaallisut. Elles manquent de texte numérique, de corpus annotés, et souvent de normes d’écriture stabilisées. Pour ces langues, l’accent doit être mis sur la collecte de données de qualité, pas sur l’ajustement des ratios.
L’échantillonnage optimal fonctionne-t-il pour les langues très différentes de l’anglais ?
Oui, mais avec des ajustements. Les langues à structure très différente (comme le turc, le finnois ou le japonais) nécessitent plus de tokens pour couvrir le même vocabulaire. Par exemple, le turc peut nécessiter 25-30 % de mots supplémentaires pour atteindre la même couverture linguistique que l’anglais. Il faut donc adapter les estimations de volume de données en fonction de la morphologie de la langue.
Quels outils peuvent m’aider à appliquer cette méthode ?
Le dépôt GitHub "multilingual-scaling-tools" (plus de 1 200 étoiles) fournit des scripts automatisés pour calculer les ratios optimaux à partir de vos données. Vous avez aussi besoin d’outils pour identifier les langues (LIUM) et les classer par famille linguistique (World Atlas of Language Structures). Hugging Face propose aussi un "Multilingual Training Cookbook" avec des exemples de code.
Est-ce que cette méthode est compatible avec les réglementations comme le RGAA ou le règlement européen sur l’IA ?
Oui, et c’est même l’une des rares méthodes qui répondent aux exigences du règlement européen sur l’IA (entré en vigueur en février 2025). Ce règlement exige une "équité démontrable" entre les langues. L’échantillonnage optimal fournit une base mathématique et mesurable pour prouver que vous n’avez pas négligé les langues à faibles ressources.
Prochaines étapes : ce que vous pouvez faire maintenant
Si vous travaillez sur un projet multilingue, voici ce que vous pouvez faire dès aujourd’hui :- Évaluez la répartition actuelle de vos données linguistiques. Quelle est la proportion entre votre langue la plus et la moins représentée ?
- Testez un petit modèle (85M paramètres) avec un échantillonnage optimal. Vous n’avez pas besoin d’un supercalculateur.
- Comparez les performances sur une tâche simple comme la traduction ou la classification de texte.
- Si vous voyez une amélioration de 10 % ou plus pour les langues à faibles ressources, appliquez les mêmes ratios à votre modèle principal.
- Ne cherchez pas à ajouter 10 nouvelles langues. Améliorez les 5 que vous avez déjà.
Le vrai progrès, ce n’est pas d’avoir un modèle qui parle 100 langues. C’est d’avoir un modèle qui comprend bien chaque personne, peu importe la langue qu’elle utilise.