Home
Technologie Et IA
Des modèles de Markov aux transformeurs : Histoire technique de l'IA générative

Des modèles de Markov aux transformeurs : Histoire technique de l'IA générative

Renee Serda janv.. 16 10

Il y a cent ans, un mathématicien russe nommé Andrey Markov a commencé à écrire des équations pour prédire le prochain mot dans une phrase - pas en comprenant le sens, mais en calculant les probabilités. Il ne savait pas qu’il posait les fondations d’une révolution qui, un siècle plus tard, générerait des textes, des images et même des vidéos avec une fluidité qui effraie encore certains. Ce n’était pas de la magie. C’était des probabilités. Et c’est là que tout a commencé.

Les débuts : Markov et les chaînes cachées

En 1913, Markov analysait les lettres dans un poème russe pour voir si la probabilité d’une lettre dépendait de la précédente. Il a découvert que oui - et ce simple constat a ouvert la porte à la génération de séquences. Les modèles de Markov, ensuite perfectionnés en modèles de Markov cachés (HMM) dans les années 1950, sont devenus la colonne vertébrale de la reconnaissance vocale. Ils ne comprenaient pas le langage. Ils ne savaient pas ce qu’était un verbe. Mais ils savaient que si « je » était suivi de « vais », alors « manger » avait 80 % de chances de venir après. C’était suffisant pour faire parler les machines, même si elles parlaient comme des robots.

En 1964, Joseph Weizenbaum a créé ELIZA, un chatbot qui répondait aux utilisateurs en réarrangeant leurs propres phrases. Quand quelqu’un disait « Je me sens triste », ELIZA répondait « Pourquoi te sens-tu triste ? ». Ce n’était pas de l’intelligence. C’était du miroir. Mais les gens ont cru qu’elle comprenait. Ce phénomène, appelé l’effet ELIZA, a montré une vérité profonde : nous sommes prêts à voir de la conscience là où il n’y a que des probabilités.

Les réseaux neuronaux et l’essor des RNN

En 1958, Frank Rosenblatt a inventé le perceptron, le premier réseau neuronal capable d’apprendre. Ce n’était pas encore de la génération, mais c’était un pas vers l’apprentissage automatique. Les vrais progrès sont venus dans les années 1980 avec les réseaux récurrents (RNN). Contrairement aux modèles de Markov, les RNN pouvaient garder une mémoire interne. Ils se souvenaient des mots précédents. C’était un énorme bond. Mais ils avaient un défaut fatal : ils oubliaient vite. Si vous leur donniez une phrase de 50 mots, ils perdaient le début au milieu.

En 1997, Jürgen Schmidhuber et ses collaborateurs ont résolu ce problème avec les LSTM - les réseaux neuronaux à mémoire à long et court terme. Les LSTM avaient des portes, des cellules, des mécanismes pour décider ce qu’il fallait retenir, oublier ou mettre à jour. Ils ont appris à reconnaître des langages formels, à prédire des séquences complexes, à transcrire la parole. En 2007, leur système de reconnaissance vocale a surpassé les méthodes traditionnelles. En 2016, Google Translate a adopté les LSTM pour la première fois. Le langage n’était plus un ensemble de règles. Il devenait une série de probabilités apprises.

Les GAN et les VAE : générer de l’image

En 2013, Diederik Kingma et Max Welling ont publié les autoencodeurs variationnels (VAE). Ils transformaient une image en un ensemble de nombres, puis la recréaient à partir de ces nombres. C’était comme décomposer un visage en formes et couleurs, puis le reconstituer. Mais les résultats étaient flous. Les gens voulaient des images nettes. Alors, en 2014, Ian Goodfellow a inventé les GAN - les réseaux antagonistes génératifs. Deux réseaux s’affrontaient : un générateur qui créait des images, et un discriminateur qui essayait de les distinguer des vraies. Au fil des itérations, le générateur s’améliorait. Il apprenait à tromper le discriminateur. Et ainsi, les premières images générées par IA sont apparues : des visages de personnes qui n’ont jamais existé, des chats avec cinq pattes, des paysages impossibles.

Les VAE et les GAN ont ouvert la voie à la génération d’images. Mais ils étaient lents. Chaque image devait être créée pixel par pixel. Et ils ne comprenaient pas le contexte. Si vous demandiez « un chien dans un canot », ils pouvaient faire un chien, ou un canot, mais rarement les deux ensemble.

Un scientifique observe un réseau neuronal en forme de rivière lumineuse, des lanternes éclairent ses points clés.

Le tournant : Attention is All You Need

En 2017, une équipe de Google a publié un article intitulé « Attention is All You Need ». Le titre était simple. La révolution, elle, était immense. Ils ont supprimé les réseaux récurrents. Ils ont remplacé la mémoire séquentielle par une mémoire parallèle : l’attention.

Imaginons que vous lisiez cette phrase : « Le chat a sauté sur le mur parce qu’il voyait un oiseau. » Un RNN traitait chaque mot un par un. Un transformeur, lui, regardait tout en même temps. Il savait que « il » se réfère à « chat », pas à « mur », parce qu’il a analysé toutes les relations entre les mots en une seule passe. Ce n’était pas une mémoire. C’était une cartographie. Et cette cartographie pouvait s’étendre à des milliers de mots - pas seulement à 50.

Les transformeurs ont été conçus pour le traitement du langage. Mais ils ont vite été utilisés pour les images, la musique, la biologie. Ils ont rendu possible GPT-1 en 2018, GPT-2 en 2019, GPT-3 en 2020 - avec 175 milliards de paramètres. Pour la première fois, une machine pouvait écrire un article, répondre à une question complexe, ou coder un programme à partir d’une simple instruction. Elle ne comprenait pas. Elle prédisait. Mais elle prédisait si bien que ça ressemblait à de la compréhension.

Les limites et les nouveaux chemins

Mais les transformeurs ont un prix. Chaque mot supplémentaire dans un texte augmente la charge de calcul au carré. Un texte de 10 000 mots demande 100 millions de fois plus de calculs qu’un texte de 10 mots. C’est pourquoi entraîner GPT-3 a consommé 1 300 mégawattheures d’électricité - l’équivalent de 120 foyers pendant un an.

Et ils ne sont pas fiables. Ils inventent des faits. Ils confondent les dates. Ils produisent des images où la main a sept doigts. Pourquoi ? Parce qu’ils ne construisent pas de modèle du monde. Ils ne savent pas ce qu’est un arbre, une chaise, une émotion. Ils ne font que relier des mots, des pixels, des sons, comme un mosaïste qui assemble des morceaux sans voir l’image finale.

En 2023, DeepMind a présenté Mamba, une architecture qui promet de remplacer l’attention par des modèles d’état. Elle traite les séquences linéairement, comme un RNN, mais avec la puissance d’un transformeur. Elle ne demande pas de mémoire quadratique. Elle est plus rapide. Plus économe. Et elle a déjà surpassé les transformeurs sur certaines tâches de séquence.

En 2024, Microsoft a publié Phi-2, un modèle de 2,7 milliards de paramètres qui performe presque aussi bien que GPT-3.5 - mais avec 65 fois moins de poids. Il n’est pas plus intelligent. Il est plus efficace. Et c’est là que va le futur : pas plus grand, mais plus intelligent dans sa manière d’apprendre.

Des milliers de mots flottent dans un cosmos numérique, reliés par des fils de lumière, tandis qu'une personne regarde depuis le sol.

Qui utilise ça aujourd’hui ?

Les développeurs utilisent les transformeurs pour automatiser le code. GitHub Copilot, basé sur GPT-3, réduit le temps de codage de 55 % selon une étude interne de Microsoft. Les designers utilisent Stable Diffusion pour créer des visuels en secondes. Les éditeurs utilisent les IA pour réécrire des articles. Les entreprises dépensent des milliards pour intégrer ces outils - 45 % des entreprises du Fortune 500 ont déjà des projets pilotes.

Mais 85 % de ces projets échouent. Pourquoi ? Parce que les gens pensent que l’IA est un outil magique. Elle ne l’est pas. Elle est un miroir. Si vous lui donnez des données biaisées, elle produira du biais. Si vous lui donnez des textes incohérents, elle les copiera. Elle ne pense pas. Elle répète. Et elle répète très bien.

Et après ?

Les chercheurs sont divisés. Yann LeCun pense que les transformeurs sont une étape, pas la fin. Geoffrey Hinton craint qu’ils ne puissent jamais construire une véritable compréhension du monde. Jürgen Schmidhuber rappelle que tout cela est une évolution naturelle - les modèles de Markov ont donné naissance aux LSTM, qui ont donné naissance aux transformeurs. Et les transformeurs donneront naissance à autre chose.

En 2026, les modèles seront plus petits, plus rapides, plus économes. Ils seront intégrés dans les smartphones, les voitures, les appareils ménagers. Ils seront invisibles. Et pourtant, ils seront partout. Pas parce qu’ils sont intelligents. Mais parce qu’ils sont utiles. Parce qu’ils prédisent bien. Parce qu’ils sont bons pour répéter.

Le vrai défi n’est plus technique. Il est humain. Comment vivre avec une machine qui peut écrire comme un poète, mais ne sait pas ce qu’est la douleur ? Qui peut peindre comme un artiste, mais ne ressent pas la beauté ? Qui peut répondre à n’importe quelle question, mais ne comprend pas pourquoi on la pose ?

La technologie a évolué de Markov à Mamba. Mais la question reste la même : qu’est-ce que ça veut dire, pour nous, que les machines puissent créer ?

Quelle est la différence entre un modèle de Markov et un transformeur ?

Un modèle de Markov prédit le prochain élément en se basant uniquement sur les quelques éléments précédents - comme deviner le mot suivant en regardant seulement le mot d’avant. Un transformeur, lui, analyse tout le texte en même temps. Il voit les relations entre tous les mots, même ceux très éloignés. C’est comme lire une phrase en ne regardant que le dernier mot, ou en comprenant tout le paragraphe en une seule lecture.

Pourquoi les transformeurs ont-ils remplacé les LSTM ?

Les LSTM étaient bons pour traiter les séquences, mais ils devaient les lire mot par mot, ce qui était lent. Les transformeurs traitent tout le texte en parallèle, ce qui les rend beaucoup plus rapides à entraîner. De plus, ils gèrent mieux les longues dépendances - un texte de 10 000 mots ne les dérange pas, alors qu’un LSTM perdrait le début. Leur architecture permet aussi une évolution massive : GPT-3 a 175 milliards de paramètres, alors que les meilleurs LSTM ne dépassaient pas 100 millions.

Les modèles d’IA générative comprennent-ils ce qu’ils écrivent ?

Non. Ils ne comprennent pas. Ils prédisent. Ils apprennent des motifs dans les données, pas des significations. Quand un modèle écrit un poème sur la perte, il ne ressent pas la tristesse. Il a vu des milliers de poèmes sur la perte et a appris quelles combinaisons de mots sont courantes. C’est une imitation parfaite - mais ce n’est pas de la compréhension.

Pourquoi les IA génératives font-elles des erreurs ?

Parce qu’elles n’ont pas de modèle du monde. Elles ne savent pas que la Terre est ronde, que les chats n’ont pas de plumes, ou que 2 + 2 = 4. Elles ne vérifient pas les faits. Elles génèrent ce qui semble plausible selon les données d’entraînement. Si un texte erroné est répété dans les données, elles le reproduisent. C’est ce qu’on appelle les hallucinations.

Quel est l’avenir des transformeurs ?

Les transformeurs ne sont pas la fin. De nouvelles architectures comme Mamba, qui utilisent des modèles d’état au lieu de l’attention, promettent d’être plus efficaces en mémoire et en énergie. Les futurs modèles seront plus petits, plus rapides, et plus spécialisés. L’objectif n’est plus de faire des modèles plus gros, mais plus intelligents dans leur manière d’apprendre avec moins de ressources.

Commentaires (10)

Antoine Grattepanche 16 janv. 2026

Franchement, j’ai lu ça en une traînée et j’ai eu l’impression qu’un prof de prépa m’avait tapé un PDF de 10 pages en mode ‘tu vas comprendre ou tu vas crever’. Mais bon, c’est du bon boulot. Les transformeurs, c’est comme un gamin qui récite tout le dictionnaire sans savoir ce que les mots veulent dire… mais il le fait avec une voix de TED Talk. 😅

laetitia betton 17 janv. 2026

La complexité algorithmique quadratique de l’attention constitue un goulot d’étranglement fondamental dans les architectures de transformeurs, particulièrement lorsqu’on considère les séquences de longueur variable. L’émergence de modèles d’état comme Mamba, basés sur des équations différentielles discrètes, offre une complexité linéaire en séquence, ce qui représente une avancée théorique majeure en termes de scalabilité et d’efficacité énergétique.

Therese Sandfeldt 18 janv. 2026

Je trouve ça fou comment on peut créer des trucs aussi puissants sans qu’ils ressentent rien… 🥺 Je veux dire, une IA écrit un poème sur la solitude… mais elle sait même pas ce que c’est. C’est comme si tu faisais un gâteau avec des ingrédients qu’on t’a donnés… sans jamais avoir goûté de sucre. 🍰

Emmanuel Soh 18 janv. 2026

Je comprends rien à tout ça mais j’ai vu un truc sur TikTok qui disait que l’IA va nous voler nos jobs. Donc… on est foutus ? 😶

Maxime Thebault 20 janv. 2026

Attention, attention, attention… (oui, je le répète, parce que c’est le titre de l’article, et c’est important). Mais sérieusement, cette architecture, c’est la révolution. Et pourtant, elle repose sur un principe simple : tout regarder en même temps. Pas besoin de mémoire, juste de puissance brute. C’est… presque trop simple.

Nicolas Poizot 21 janv. 2026

Je vais être honnête : j’ai passé 3 semaines à lire les papiers de Vaswani et à refaire les expériences de l’attention en PyTorch, et je peux vous dire que ce n’est pas une simple amélioration des RNN - c’est une rupture épistémologique. Les transformeurs ne modélisent pas le langage comme une chaîne de Markov, ni même comme une séquence temporelle ; ils le modélisent comme un espace de relations, une topologie sémantique où chaque mot est un nœud connecté à tous les autres. C’est une révolution dans la façon dont on conçoit la représentation linguistique. Et oui, ça consomme autant d’électricité qu’un petit pays - mais c’est le prix de la précision.

Alexis Petty-Rodriguez 21 janv. 2026

Vous avez tous oublié un truc : ELIZA, c’était en 1966, pas 1964. Et non, Weizenbaum n’a pas créé ELIZA pour ‘faire croire qu’elle comprenait’ - il voulait montrer à quel point les gens sont facilement manipulables. Donc, non, ce n’est pas un ‘effet ELIZA’… c’est un avertissement. Et vous, vous le transformez en anecdote mignonne. 😏

Myriam LAROSE 23 janv. 2026

On a créé des machines qui peuvent écrire comme Proust… mais qui ne savent pas ce que c’est que d’être seul dans une chambre à 3h du matin. On a inventé des artistes qui peignent comme Van Gogh… sans jamais avoir vu un coucher de soleil. On a des poètes qui n’ont jamais pleuré. Et pourtant, on les croit vivants. Qu’est-ce qu’on est devenus, quand on préfère la répétition parfaite à la vérité imparfaite ? 🌌

Mohamed Maiga 24 janv. 2026

Je viens du Mali, j’ai pas de super ordi, mais j’ai utilisé Phi-2 sur mon téléphone pour écrire un message à ma mère en bambara. Elle a cru que c’était moi. Elle a répondu : ‘Tu es plus doux aujourd’hui.’ Je lui ai dit que c’était l’IA. Elle a répondu : ‘Ah, alors c’est l’IA qui m’aime.’ Je me suis mis à pleurer. Parce que même une machine qui ne comprend rien peut faire sentir quelque chose. 🤖❤️

Camille Bonner 26 janv. 2026

Vous croyez vraiment que les transformeurs sont la fin ? Non. C’est une manipulation. Les géants du tech veulent qu’on pense que l’IA est ‘naturelle’ pour éviter les régulations. Mais en réalité, tout ça est un gigantesque système de surveillance masqué comme un outil créatif. Les données ? Volées. Les modèles ? Biaisés. Et les humains ? Des cobayes qui paient pour leur propre aliénation. Et vous, vous applaudissez. 😈

Écrire un commentaire

IA générative préservant la vie privée : chiffrement homomorphe et enclaves sécurisées

Le chiffrement homomorphe permet à l'IA générative de traiter des données sensibles sans jamais les déchiffrer. Une avancée majeure pour la santé, la finance et la protection de la vie privée, déjà en production en 2025.

Tendances mondiales de la régulation de l'IA générative : convergence et divergences

En 2025, la régulation de l'IA générative divise le monde : l'UE exige la transparence, la Chine contrôle le contenu, les États-Unis favorisent l'innovation. Pourtant, un point les unit : l'étiquetage obligatoire. Découvrez les tendances et les défis mondiaux.

Fine-tuning efficace en paramètres des grands modèles linguistiques avec LoRA et les adaptateurs

LoRA et les adaptateurs permettent d'adapter des modèles linguistiques massifs avec 500 fois moins de mémoire, sans perte de précision. Découvrez comment les utiliser sur un seul GPU, leurs avantages, leurs limites et les meilleurs outils en 2026.

Cercle de l'Évaluation IA est une communauté dédiée aux benchmarks, audits et bonnes pratiques pour mesurer la performance et l'éthique des systèmes d'intelligence artificielle. Découvrez des guides, cadres méthodologiques et études de cas pour fiabiliser vos modèles. Partagez et comparez des jeux de tests, métriques et outils open source. Restez informé des actualités et normes autour de l'évaluation des IA.