Les paramètres, c’est quoi au juste ?
Quand on parle de la taille d’un modèle de langage comme GPT-5 ou Llama 4, on ne parle pas de son poids en gigaoctets, ni de sa vitesse de réponse. On parle de paramètres. Ce sont les poids internes du réseau neuronal - des nombres ajustés pendant l’entraînement - qui stockent ce que le modèle a appris. Chaque paramètre est comme une connexion synaptique dans le cerveau : plus il y en a, plus le modèle peut retenir des motifs complexes, des règles grammaticales, des faits, des styles d’écriture. Un modèle avec 100 millions de paramètres peut répondre à des questions simples. Un modèle avec 100 milliards peut rédiger un rapport juridique. Un modèle avec un trillion peut le faire en plusieurs langues, en gardant le ton, le contexte et les nuances.
De GPT-1 à GPT-5 : l’explosion des paramètres
En 2018, GPT-1 d’OpenAI avait 117 millions de paramètres. C’était déjà impressionnant pour l’époque. En 2020, GPT-3 a sauté à 175 milliards. C’était un saut de 1 500 %. En 2025, les modèles de pointe comme GPT-5 (estimé à 2,1 billions) et Google Gemini 2.5 Pro (1,8 billion) dépassent largement cette barrière. Ce n’est pas juste une question de chiffres. C’est une transformation fondamentale des capacités. Un modèle avec moins de 3 milliards de paramètres, comme Llama 3.2 1B, peut seulement traiter du texte. Mais dès 11 milliards, comme dans Llama 3.2 13B, il commence à comprendre les images, les schémas, les tableaux. Pourquoi ? Parce qu’il a suffisamment de « mémoire » pour associer des informations visuelles à des mots.
Plus de paramètres = mieux ? Pas toujours
On pourrait croire que plus de paramètres, c’est toujours mieux. Mais ce n’est pas vrai. Certains modèles plus petits battent les plus gros. Mistral 7B, avec seulement 7,3 milliards de paramètres, surpasse Llama 2 13B sur plusieurs tests, même s’il a presque deux fois moins de paramètres. Pourquoi ? Parce que l’architecture compte autant que la taille. Mistral utilise une attention optimisée, une meilleure répartition des tâches, et une méthode d’entraînement plus fine. C’est comme avoir un bon cuisinier dans une petite cuisine : il prépare mieux qu’un mauvais cuisinier dans une grande cuisine avec tout le matériel du monde.
Le piège du nombre : Google et les paramètres « cachés »
Les entreprises ne rapportent pas toujours les paramètres de la même façon. Google a publié Gemma 3 comme ayant 4 milliards de paramètres. Mais dans sa documentation technique, on trouve 5,44 milliards. La différence ? Google exclut parfois les paramètres d’embedding - les couches qui transforment les mots en nombres - pour que le modèle semble plus petit. Ou alors, il les inclut pour paraître plus puissant. Ce n’est pas de la tromperie, mais ça rend les comparaisons difficiles. Si vous lisez qu’un modèle a « 7 milliards de paramètres », demandez-vous : est-ce le total ? Ou seulement les paramètres actifs pendant l’inférence ?
Le grand changement : les modèles Mixture-of-Experts (MoE)
Les modèles classiques utilisent tous leurs paramètres pour chaque mot qu’ils traitent. C’est inefficace. Imaginez un restaurant où chaque serveur lit tout le menu pour chaque commande, même si vous ne commandez qu’une salade. Les modèles MoE, comme Mixtral 8x7B ou DeepSeek-V3, ont une solution : ils ont des « experts » spécialisés. Pour chaque mot, seul un sous-groupe d’experts est activé. Mixtral 8x7B a 46,7 milliards de paramètres au total, mais n’en utilise que 12,9 milliards par mot. DeepSeek-V3 en a 671 milliards, mais n’en active que 37 milliards à chaque étape. C’est comme avoir une équipe de 100 spécialistes, mais n’en appeler que 5 pour chaque tâche. Résultat : une puissance de pointe avec un coût de calcul bien plus faible.
La quantification : rendre les gros modèles accessibles
Un modèle de 7 milliards de paramètres en 16 bits nécessite 14 Go de RAM. En 4 bits, il en faut seulement 3,5 Go. C’est une réduction de 75 %. La quantification, c’est comme compresser une vidéo : on perd un peu de précision, mais on gagne énormément en vitesse et en espace. Des utilisateurs sur Reddit rapportent que leur RTX 3080 gère parfaitement Mistral 7B en 4 bits à 28 mots par seconde, mais se bloque avec Llama 3 13B en 16 bits. Sur GitHub, des tests montrent que qwen-14b-chat en 4 bits tourne à 12,3 mots/seconde sur une RTX 4090. En 16 bits, elle tombe à 4,7 mots/seconde. La quantification permet aux particuliers d’exécuter des modèles puissants sur du matériel grand public. Sans elle, les LLMs resteraient réservés aux géants du cloud.
Le coût réel : quand plus de paramètres coûte plus cher
Une entreprise sur Azure a comparé Gemini 1.5 Pro (estimé à 1,2 trillion de paramètres) avec GPT-4. Gemini était 3,2 fois plus cher par million de mots traités, mais n’apportait que 1,8 fois plus de précision sur des tâches juridiques. Est-ce que ça vaut le coup ? Pas toujours. Les modèles de 100 à 300 milliards de paramètres offrent souvent le meilleur rapport performance/prix. Les grands modèles sont utiles pour des tâches très complexes - comme analyser 100 pages de contrats en une seule lecture - mais pour la plupart des applications, un modèle plus petit, bien optimisé, fait l’affaire. Gartner estime que d’ici 2026, 75 % des déploiements d’entreprise utiliseront des architectures MoE avec moins de 50 milliards de paramètres actifs, même si leur taille totale dépasse 500 milliards.
Les limites : quand les gains deviennent minuscules
Les lois de Chinchilla, publiées par DeepMind en 2022, montrent qu’il existe un équilibre optimal entre la taille du modèle et la quantité de données d’entraînement. Augmenter les paramètres sans augmenter les données, c’est comme ajouter des pièces à une voiture sans lui donner plus d’essence. Le modèle apprend moins bien. Selon MIT, après 2 billions de paramètres, 80 % des progrès futurs viendront non pas de la taille, mais de l’amélioration des données, des algorithmes et des architectures. Meta a déjà commencé à le prouver avec Llama 4 : son nouveau système d’attention « Grouped-Query Attention » améliore l’efficacité des paramètres de 22 % sans ajouter un seul paramètre. C’est la preuve que la course aux milliards est en train de changer de cap.
Que choisir pour vous ?
- Vous êtes un particulier avec une carte graphique récente ? Un modèle de 7 à 13 milliards de paramètres en 4 bits (Mistral 7B, Llama 3.2 8B) est parfait. Il est rapide, précis, et ne demande pas un serveur.
- Vous gérez des documents longs (contrats, rapports, livres) ? Optez pour un modèle MoE comme Mixtral 8x22B ou DeepSeek-V3 via API. Vous gagnez en contexte (jusqu’à 1 million de mots) sans payer le prix d’un modèle dense.
- Vous êtes une entreprise avec des besoins en sécurité et en coût maîtrisé ? Les modèles de 100 à 300 milliards de paramètres, bien quantifiés, offrent un bon compromis. Ils sont plus précis que les petits modèles, mais moins chers que les trillions.
- Vous voulez juste une IA pour répondre à des questions simples ? Un modèle de 1 à 3 milliards de paramètres suffit. Les plus gros ne vous apporteront rien de plus.
Le futur : la fin de la course aux chiffres
La tendance ne va plus vers des modèles toujours plus gros. Elle va vers des modèles plus intelligents. MoE, attention groupée, entraînement ciblé, données de meilleure qualité - ce sont les vrais leviers de demain. Les entreprises ne vont plus vendre des modèles en fonction de leur nombre de paramètres. Elles vont vendre des résultats : « Combien de temps vous fait gagner ce modèle ? », « Combien d’erreurs évite-t-il ? », « Combien coûte son utilisation ? ». Le nombre de paramètres n’est plus un critère de choix. C’est un indicateur technique, pas une promesse de performance.