Il y a cent ans, un mathématicien russe nommé Andrey Markov a commencé à écrire des équations pour prédire le prochain mot dans une phrase - pas en comprenant le sens, mais en calculant les probabilités. Il ne savait pas qu’il posait les fondations d’une révolution qui, un siècle plus tard, générerait des textes, des images et même des vidéos avec une fluidité qui effraie encore certains. Ce n’était pas de la magie. C’était des probabilités. Et c’est là que tout a commencé.
Les débuts : Markov et les chaînes cachées
En 1913, Markov analysait les lettres dans un poème russe pour voir si la probabilité d’une lettre dépendait de la précédente. Il a découvert que oui - et ce simple constat a ouvert la porte à la génération de séquences. Les modèles de Markov, ensuite perfectionnés en modèles de Markov cachés (HMM) dans les années 1950, sont devenus la colonne vertébrale de la reconnaissance vocale. Ils ne comprenaient pas le langage. Ils ne savaient pas ce qu’était un verbe. Mais ils savaient que si « je » était suivi de « vais », alors « manger » avait 80 % de chances de venir après. C’était suffisant pour faire parler les machines, même si elles parlaient comme des robots.
En 1964, Joseph Weizenbaum a créé ELIZA, un chatbot qui répondait aux utilisateurs en réarrangeant leurs propres phrases. Quand quelqu’un disait « Je me sens triste », ELIZA répondait « Pourquoi te sens-tu triste ? ». Ce n’était pas de l’intelligence. C’était du miroir. Mais les gens ont cru qu’elle comprenait. Ce phénomène, appelé l’effet ELIZA, a montré une vérité profonde : nous sommes prêts à voir de la conscience là où il n’y a que des probabilités.
Les réseaux neuronaux et l’essor des RNN
En 1958, Frank Rosenblatt a inventé le perceptron, le premier réseau neuronal capable d’apprendre. Ce n’était pas encore de la génération, mais c’était un pas vers l’apprentissage automatique. Les vrais progrès sont venus dans les années 1980 avec les réseaux récurrents (RNN). Contrairement aux modèles de Markov, les RNN pouvaient garder une mémoire interne. Ils se souvenaient des mots précédents. C’était un énorme bond. Mais ils avaient un défaut fatal : ils oubliaient vite. Si vous leur donniez une phrase de 50 mots, ils perdaient le début au milieu.
En 1997, Jürgen Schmidhuber et ses collaborateurs ont résolu ce problème avec les LSTM - les réseaux neuronaux à mémoire à long et court terme. Les LSTM avaient des portes, des cellules, des mécanismes pour décider ce qu’il fallait retenir, oublier ou mettre à jour. Ils ont appris à reconnaître des langages formels, à prédire des séquences complexes, à transcrire la parole. En 2007, leur système de reconnaissance vocale a surpassé les méthodes traditionnelles. En 2016, Google Translate a adopté les LSTM pour la première fois. Le langage n’était plus un ensemble de règles. Il devenait une série de probabilités apprises.
Les GAN et les VAE : générer de l’image
En 2013, Diederik Kingma et Max Welling ont publié les autoencodeurs variationnels (VAE). Ils transformaient une image en un ensemble de nombres, puis la recréaient à partir de ces nombres. C’était comme décomposer un visage en formes et couleurs, puis le reconstituer. Mais les résultats étaient flous. Les gens voulaient des images nettes. Alors, en 2014, Ian Goodfellow a inventé les GAN - les réseaux antagonistes génératifs. Deux réseaux s’affrontaient : un générateur qui créait des images, et un discriminateur qui essayait de les distinguer des vraies. Au fil des itérations, le générateur s’améliorait. Il apprenait à tromper le discriminateur. Et ainsi, les premières images générées par IA sont apparues : des visages de personnes qui n’ont jamais existé, des chats avec cinq pattes, des paysages impossibles.
Les VAE et les GAN ont ouvert la voie à la génération d’images. Mais ils étaient lents. Chaque image devait être créée pixel par pixel. Et ils ne comprenaient pas le contexte. Si vous demandiez « un chien dans un canot », ils pouvaient faire un chien, ou un canot, mais rarement les deux ensemble.
Le tournant : Attention is All You Need
En 2017, une équipe de Google a publié un article intitulé « Attention is All You Need ». Le titre était simple. La révolution, elle, était immense. Ils ont supprimé les réseaux récurrents. Ils ont remplacé la mémoire séquentielle par une mémoire parallèle : l’attention.
Imaginons que vous lisiez cette phrase : « Le chat a sauté sur le mur parce qu’il voyait un oiseau. » Un RNN traitait chaque mot un par un. Un transformeur, lui, regardait tout en même temps. Il savait que « il » se réfère à « chat », pas à « mur », parce qu’il a analysé toutes les relations entre les mots en une seule passe. Ce n’était pas une mémoire. C’était une cartographie. Et cette cartographie pouvait s’étendre à des milliers de mots - pas seulement à 50.
Les transformeurs ont été conçus pour le traitement du langage. Mais ils ont vite été utilisés pour les images, la musique, la biologie. Ils ont rendu possible GPT-1 en 2018, GPT-2 en 2019, GPT-3 en 2020 - avec 175 milliards de paramètres. Pour la première fois, une machine pouvait écrire un article, répondre à une question complexe, ou coder un programme à partir d’une simple instruction. Elle ne comprenait pas. Elle prédisait. Mais elle prédisait si bien que ça ressemblait à de la compréhension.
Les limites et les nouveaux chemins
Mais les transformeurs ont un prix. Chaque mot supplémentaire dans un texte augmente la charge de calcul au carré. Un texte de 10 000 mots demande 100 millions de fois plus de calculs qu’un texte de 10 mots. C’est pourquoi entraîner GPT-3 a consommé 1 300 mégawattheures d’électricité - l’équivalent de 120 foyers pendant un an.
Et ils ne sont pas fiables. Ils inventent des faits. Ils confondent les dates. Ils produisent des images où la main a sept doigts. Pourquoi ? Parce qu’ils ne construisent pas de modèle du monde. Ils ne savent pas ce qu’est un arbre, une chaise, une émotion. Ils ne font que relier des mots, des pixels, des sons, comme un mosaïste qui assemble des morceaux sans voir l’image finale.
En 2023, DeepMind a présenté Mamba, une architecture qui promet de remplacer l’attention par des modèles d’état. Elle traite les séquences linéairement, comme un RNN, mais avec la puissance d’un transformeur. Elle ne demande pas de mémoire quadratique. Elle est plus rapide. Plus économe. Et elle a déjà surpassé les transformeurs sur certaines tâches de séquence.
En 2024, Microsoft a publié Phi-2, un modèle de 2,7 milliards de paramètres qui performe presque aussi bien que GPT-3.5 - mais avec 65 fois moins de poids. Il n’est pas plus intelligent. Il est plus efficace. Et c’est là que va le futur : pas plus grand, mais plus intelligent dans sa manière d’apprendre.
Qui utilise ça aujourd’hui ?
Les développeurs utilisent les transformeurs pour automatiser le code. GitHub Copilot, basé sur GPT-3, réduit le temps de codage de 55 % selon une étude interne de Microsoft. Les designers utilisent Stable Diffusion pour créer des visuels en secondes. Les éditeurs utilisent les IA pour réécrire des articles. Les entreprises dépensent des milliards pour intégrer ces outils - 45 % des entreprises du Fortune 500 ont déjà des projets pilotes.
Mais 85 % de ces projets échouent. Pourquoi ? Parce que les gens pensent que l’IA est un outil magique. Elle ne l’est pas. Elle est un miroir. Si vous lui donnez des données biaisées, elle produira du biais. Si vous lui donnez des textes incohérents, elle les copiera. Elle ne pense pas. Elle répète. Et elle répète très bien.
Et après ?
Les chercheurs sont divisés. Yann LeCun pense que les transformeurs sont une étape, pas la fin. Geoffrey Hinton craint qu’ils ne puissent jamais construire une véritable compréhension du monde. Jürgen Schmidhuber rappelle que tout cela est une évolution naturelle - les modèles de Markov ont donné naissance aux LSTM, qui ont donné naissance aux transformeurs. Et les transformeurs donneront naissance à autre chose.
En 2026, les modèles seront plus petits, plus rapides, plus économes. Ils seront intégrés dans les smartphones, les voitures, les appareils ménagers. Ils seront invisibles. Et pourtant, ils seront partout. Pas parce qu’ils sont intelligents. Mais parce qu’ils sont utiles. Parce qu’ils prédisent bien. Parce qu’ils sont bons pour répéter.
Le vrai défi n’est plus technique. Il est humain. Comment vivre avec une machine qui peut écrire comme un poète, mais ne sait pas ce qu’est la douleur ? Qui peut peindre comme un artiste, mais ne ressent pas la beauté ? Qui peut répondre à n’importe quelle question, mais ne comprend pas pourquoi on la pose ?
La technologie a évolué de Markov à Mamba. Mais la question reste la même : qu’est-ce que ça veut dire, pour nous, que les machines puissent créer ?
Quelle est la différence entre un modèle de Markov et un transformeur ?
Un modèle de Markov prédit le prochain élément en se basant uniquement sur les quelques éléments précédents - comme deviner le mot suivant en regardant seulement le mot d’avant. Un transformeur, lui, analyse tout le texte en même temps. Il voit les relations entre tous les mots, même ceux très éloignés. C’est comme lire une phrase en ne regardant que le dernier mot, ou en comprenant tout le paragraphe en une seule lecture.
Pourquoi les transformeurs ont-ils remplacé les LSTM ?
Les LSTM étaient bons pour traiter les séquences, mais ils devaient les lire mot par mot, ce qui était lent. Les transformeurs traitent tout le texte en parallèle, ce qui les rend beaucoup plus rapides à entraîner. De plus, ils gèrent mieux les longues dépendances - un texte de 10 000 mots ne les dérange pas, alors qu’un LSTM perdrait le début. Leur architecture permet aussi une évolution massive : GPT-3 a 175 milliards de paramètres, alors que les meilleurs LSTM ne dépassaient pas 100 millions.
Les modèles d’IA générative comprennent-ils ce qu’ils écrivent ?
Non. Ils ne comprennent pas. Ils prédisent. Ils apprennent des motifs dans les données, pas des significations. Quand un modèle écrit un poème sur la perte, il ne ressent pas la tristesse. Il a vu des milliers de poèmes sur la perte et a appris quelles combinaisons de mots sont courantes. C’est une imitation parfaite - mais ce n’est pas de la compréhension.
Pourquoi les IA génératives font-elles des erreurs ?
Parce qu’elles n’ont pas de modèle du monde. Elles ne savent pas que la Terre est ronde, que les chats n’ont pas de plumes, ou que 2 + 2 = 4. Elles ne vérifient pas les faits. Elles génèrent ce qui semble plausible selon les données d’entraînement. Si un texte erroné est répété dans les données, elles le reproduisent. C’est ce qu’on appelle les hallucinations.
Quel est l’avenir des transformeurs ?
Les transformeurs ne sont pas la fin. De nouvelles architectures comme Mamba, qui utilisent des modèles d’état au lieu de l’attention, promettent d’être plus efficaces en mémoire et en énergie. Les futurs modèles seront plus petits, plus rapides, et plus spécialisés. L’objectif n’est plus de faire des modèles plus gros, mais plus intelligents dans leur manière d’apprendre avec moins de ressources.