Image-to-Text en IA générative : descriptions, texte alternatif et accessibilité

Image-to-Text en IA générative : descriptions, texte alternatif et accessibilité

Renee Serda févr.. 21 10

L’image-to-text en intelligence artificielle générative transforme des images en descriptions textuelles - pas juste en lisant les mots dessus, mais en comprenant ce qu’elles représentent. C’est une avancée majeure pour l’accessibilité, surtout pour les personnes malvoyantes qui dépendent des lecteurs d’écran. Mais cette technologie n’est pas parfaite. Elle peut décrire un ramp d’accès comme « une structure en béton décorative » ou un panneau d’arrêt comme « un cercle rouge avec du texte blanc ». Ces erreurs ne sont pas anodines : elles peuvent être dangereuses.

Comment ça marche ?

Les systèmes modernes comme CLIP (Contrastive Language-Image Pre-training) et BLIP (Bootstrapping Language-Image Pre-training) fonctionnent en apprenant à relier des images et des textes ensemble. Ils n’ont pas besoin d’être entraînés sur chaque type d’image. Ils apprennent sur des millions de paires image-texte provenant d’internet - des photos de chats, de rues, de personnes, de produits. Leur objectif : faire en sorte que la représentation numérique d’une image et celle d’une description qui la résume soient proches dans un espace mathématique commun.

CLIP, développé par OpenAI en 2021, utilise deux réseaux : un pour traiter l’image (un vision transformer), et un autre pour traiter le texte (un transformer classique). Quand vous donnez une image, le système la transforme en un vecteur numérique. Ensuite, il compare ce vecteur à des milliers de descriptions textuelles stockées, et choisit la plus proche. BLIP, sorti en 2022 par Salesforce, améliore ce processus en intégrant l’image directement dans la génération du texte, ce qui donne des descriptions plus naturelles et plus précises.

Des outils comme CLIP Interrogator, développé par Katherine Crowson, vont encore plus loin. Ils analysent une image et produisent une description complète : le sujet principal, le style artistique, l’ambiance, les éléments de composition. Tout ça en 2 à 3 secondes sur un GPU moderne. Mais ce n’est pas magique.

CLIP vs OCR : deux mondes différents

Beaucoup confondent l’image-to-text avec la reconnaissance optique de caractères (OCR). Ce n’est pas la même chose. L’OCR, comme Tesseract 5.0 de Google, lit les mots sur une image. Si vous avez un document scanné, il va extraire les lettres avec 98,5 % de précision. Mais il ne comprend pas ce que signifie l’image. Il ne peut pas dire « un enfant qui joue avec un chien » s’il n’y a pas de texte.

L’IA générative, elle, comprend le sens. Elle peut décrire une scène, une émotion, un contexte. Mais elle échoue sur les détails précis : compter 6 pommes dans un panier ? Elle en voit 3. Dire que le ciel est « bleu cobalt » ? Elle dit « bleu ». Reconnaître un fauteuil roulant ? Parfois, elle le voit comme un « objet métallique ».

Les chiffres parlent d’eux-mêmes. Sur le benchmark COCO (des milliers d’images annotées), CLIP atteint 65 à 75 % de précision. BLIP-2, sa version améliorée, monte à 89,2 %. Mais ces chiffres sont moyens. Ils cachent des échecs critiques. Par exemple, une étude de Salesforce montre que la précision chute à 45 % pour les images avec plus de 5 objets. Et si l’image contient une personne en fauteuil roulant ? La précision tombe à 68 %.

Les erreurs qui tuent l’accessibilité

Les utilisateurs en témoignent. Sur Reddit, un développeur a mis en place CLIP pour générer du texte alternatif sur un site d’association. Il a été enthousiaste au début : 80 % des images avaient une description correcte. Puis il a vu que « une rampe d’accès » était décrite comme « une structure en béton décorative ». Pour quelqu’un qui utilise un fauteuil roulant, cette erreur pourrait signifier qu’il ne saura pas où entrer.

Un autre utilisateur sur GitHub a écrit : « J’ai demandé à CLIP Interrogator de décrire un panneau d’arrêt. Il a dit : “cercle rouge avec du texte blanc”. Il n’a pas mentionné la forme de triangle, ni le mot “arrêt”. C’est un danger public. »

Une audit interne sur 2 500 images de produits a révélé que 37 % des descriptions pour les personnes de couleur étaient erronées ou biaisées. Les modèles ont été entraînés sur des images majoritairement occidentales. Les visages non caucasiens, les vêtements traditionnels, les environnements non urbains - ils sont mal compris. Selon une analyse de Timnit Gebru, CLIP a 28,7 % moins de précision sur les images issues de contextes non occidentaux.

Et ce n’est pas tout. Des chercheurs du MIT ont montré que des modifications invisibles à l’œil humain - un seul pixel changé - peuvent faire dire à l’IA que « une femme en robe noire » est « un homme en costume ». C’est une faille de sécurité majeure pour les systèmes qui doivent être fiables.

Deux systèmes d'IA comparés : CLIP et BLIP génèrent des descriptions inexactes d'un fauteuil roulant et d'un panneau d'arrêt, tandis qu'une main corrige l'erreur.

Qui utilise ça, et pourquoi ?

Pourtant, les entreprises l’adoptent. Zalando, la plateforme de mode européenne, a réduit ses coûts de taggage d’images de 60 % en utilisant CLIP. Shopify compte plus de 300 marchands qui génèrent automatiquement du texte alternatif pour leurs produits. Amazon et Google ont leurs propres versions : Titan Multimodal Embeddings et Imagen 2. Elles sont plus précises, mais réservées aux grandes entreprises.

Le marché de l’IA pour l’accessibilité vaut 1,3 milliard de dollars aujourd’hui, et devrait doubler d’ici 2028. Mais l’adoption est inégale. Les entreprises de e-commerce l’utilisent pour classer leurs produits. Les éditeurs numériques l’emploient pour automatiser les descriptions de photos. Mais pour l’accessibilité directe aux utilisateurs ? Très peu.

La raison ? La peur. L’Union européenne vient de passer l’AI Act. Il oblige les systèmes « à haut risque » - comme ceux utilisés pour l’accessibilité - à être certifiés. Si un système génère une description erronée qui empêche une personne de se déplacer en sécurité, l’entreprise peut être poursuivie. Donc, la plupart des entreprises utilisent l’IA pour l’interne, pas pour le public.

Les nouvelles versions, plus sûres ?

En janvier 2024, Salesforce a sorti BLIP-3. Ce modèle a été spécifiquement entraîné sur 50 000 images avec des descriptions conçues pour l’accessibilité. Il atteint 92,4 % de précision sur un nouveau benchmark appelé A11yCaption. Microsoft, de son côté, a intégré cette technologie dans Seeing AI, son application pour malvoyants. Selon leur équipe, les erreurs critiques ont baissé de 63 %.

Le W3C, l’organisme qui définit les normes du web, a publié en décembre 2023 une proposition : pour qu’un texte alternatif généré par l’IA soit considéré comme « sans supervision humaine », il doit atteindre 95 % de précision sur les éléments de sécurité - portes, rampes, panneaux, signaux. Aujourd’hui, aucun système ne le fait.

Les experts s’accordent : l’avenir n’est pas dans l’automatisation totale. C’est dans les workflows hybrides. L’IA génère une première description. Un humain la vérifie. Pour les images simples - un chat sur un canapé - l’IA suffit. Pour les images critiques - un panneau de signalisation, un ascenseur, un croisement - l’humain doit valider.

Un réviseur humain valide une description générée par IA pour un croisement sécurisé, dans un bureau calme avec des éléments d'accessibilité visibles.

Comment l’implémenter ?

Si vous voulez essayer, voici ce dont vous avez besoin :

  • Un serveur avec une GPU NVIDIA T4 ou mieux (minimum 16 Go de VRAM)
  • Un environnement Python avec PyTorch ou TensorFlow
  • Un modèle comme BLIP-2 ou CLIP Interrogator (disponibles sur Hugging Face)
  • Un système de validation manuelle

Le coût ? Environ 3 $ l’heure pour faire tourner le modèle sur AWS. Le temps d’apprentissage ? 16 à 20 heures pour comprendre les bases de l’IA multimodale et les normes WCAG 2.1. Hugging Face propose des tutoriels clairs. OpenAI, moins.

Et n’oubliez pas : le texte alternatif n’est pas un décor. C’est une information essentielle. Une mauvaise description peut exclure, blesser, ou même mettre en danger.

Que faire maintenant ?

Ne supprimez pas l’IA. Mais ne la laissez pas seule. Utilisez-la comme un assistant, pas comme un juge. Testez sur vos propres images. Vérifiez les descriptions pour les personnes, les objets de sécurité, les contextes culturels. Documentez les erreurs. Partagez les données. Améliorez les modèles avec des jeux de données plus divers.

Les technologies de l’IA peuvent rendre le web plus accessible. Mais seulement si on les construit avec la communauté qu’elles veulent servir. Pas avec des données de 2021. Pas avec des modèles biaisés. Pas sans vérification humaine.

L’IA générative peut-elle remplacer le texte alternatif manuel ?

Non, pas encore. Les systèmes comme CLIP et BLIP génèrent des descriptions utiles pour les images simples, mais leur taux d’erreur sur les scènes complexes, les personnes ou les éléments de sécurité reste trop élevé. Pour l’accessibilité, le texte alternatif manuel reste la référence. L’IA peut aider à générer une première version, mais un humain doit toujours valider, surtout pour les contenus critiques.

Pourquoi les modèles d’IA font-ils des erreurs sur les personnes de couleur ?

Parce que les jeux de données d’entraînement sont biaisés. La majorité des images utilisées pour entraîner CLIP et BLIP viennent d’Internet et sont dominées par des scènes occidentales, avec des personnes blanches. Les visages, les vêtements, les expressions et les contextes culturels non occidentaux sont sous-représentés. Résultat : l’IA ne les reconnaît pas bien. Des études montrent jusqu’à 28,7 % de baisse de précision pour ces images. C’est un problème d’équité, pas seulement technique.

Quelle est la différence entre CLIP et BLIP ?

CLIP est un modèle de comparaison : il associe une image à un texte en mesurant leur similarité. BLIP, lui, est un modèle de génération : il crée du texte à partir de l’image en intégrant les informations visuelles directement dans sa structure. BLIP produit des descriptions plus longues, plus naturelles et plus précises. BLIP-2 et BLIP-3 ont amélioré la précision sur les benchmarks d’accessibilité, atteignant jusqu’à 92,4 %.

Est-ce que l’IA générative est légale pour le texte alternatif en Europe ?

Oui, mais avec des contraintes. L’AI Act européen classe les systèmes d’accessibilité comme « à haut risque ». Cela signifie qu’ils doivent être testés, documentés, et surveillés. Si un système génère un texte alternatif erronée qui cause un préjudice (par exemple, une personne se blesse en suivant une mauvaise description), l’entreprise peut être tenue responsable. Pour être légal, il faut une vérification humaine, une transparence sur les limites du modèle, et des tests sur des données diverses.

Quels sont les meilleurs outils gratuits pour essayer l’image-to-text ?

Pour les développeurs, les meilleurs outils gratuits sont : BLIP-2 (sur Hugging Face), CLIP Interrogator (sur GitHub), et l’API de Google Vision AI (avec un quota gratuit). Pour les utilisateurs non techniques, des extensions comme « Image Alt Text Generator » pour Chrome utilisent ces modèles en arrière-plan. Mais attention : même les meilleurs outils ont des erreurs. Ne les utilisez pas sans vérification.

Commentaires (10)
  • Yacine Merzouk
    Yacine Merzouk 22 févr. 2026

    On a tous vu ça : un panneau d’arrêt décrit comme « un cercle rouge avec du texte blanc »… Et pourtant, personne ne parle du fait que les modèles sont entraînés sur des images de Google Street View prises en Californie. C’est pas un bug, c’est un plan. Les géants veulent que les fauteuils roulants soient « objets métalliques » pour justifier les villes sans rampe. C’est du contrôle social par l’IA. Vous croyez que c’est un accident ? Non. C’est du géo-ingénierie cognitive.

  • George Alain Garot
    George Alain Garot 23 févr. 2026

    Vous parlez de CLIP comme s’il était un oracle. Pff. BLIP-2 ? C’est juste une régression linéaire avec un peu de dropout et un nom en capitales. La vraie avancée, c’est que les ingénieurs ont arrêté de dire « on ne sait pas pourquoi ça marche » et ont commencé à vendre des rapports de 300 pages avec des graphiques en 3D. Le vrai progrès ? La capacité à facturer 200k€ à une start-up pour une API qui confond un chien et un sac poubelle.

  • Yann Cadoret
    Yann Cadoret 24 févr. 2026

    Les chiffres de précision sont mal présentés. Le benchmark COCO ne mesure pas l’accessibilité. Il mesure la similarité lexicale. Une description peut être grammaticalement correcte et complètement inutile. La vraie métrique c’est la compréhension par l’utilisateur final. Pas le score F1. Et encore moins le BLEU.

  • Andre Jansen
    Andre Jansen 26 févr. 2026

    Attention : les modèles d’IA ne sont pas neutres. Ils sont biaisés. Et ces biais ne viennent pas des données… Ils viennent des humains qui les ont conçus. Qui a choisi les 10 millions d’images ? Qui a annoté les métadonnées ? Qui a décidé qu’un « fauteuil roulant » devait être catégorisé comme « objet » et non comme « outil de mobilité » ? C’est une question de pouvoir. Et le pouvoir, il n’est jamais dans les lignes de code. Il est dans les salles de réunion de Palo Alto. Avec des verres de vin blanc et des slides en Helvetica.

  • Marcel Gustin
    Marcel Gustin 27 févr. 2026

    On est en 2024 et on discute encore de si l’IA peut décrire un panneau d’arrêt… alors que les vrais problèmes, c’est que 40 % des sites en France n’ont AUCUN texte alternatif. L’IA est un miroir. Elle révèle notre paresse. On préfère automatiser l’accessibilité plutôt que de former les designers. C’est pas un problème technique. C’est un problème de lâcheté.

  • Yanis Gannouni
    Yanis Gannouni 1 mars 2026

    Je travaille dans une ONG qui utilise BLIP-2 pour générer les textes alternatifs des photos de nos projets en Afrique. On a un processus hybride : IA + validation par des bénévoles locaux. Résultat ? Les descriptions sont 70 % plus précises pour les vêtements traditionnels, les marchés, les architectures locales. Le secret ? Pas de données européennes. On a collecté 12 000 images locales avec des annotations faites par des habitants. L’IA n’est pas la solution. C’est un outil. Le vrai pouvoir, c’est de laisser les communautés définir leur propre représentation.

  • Sofiane Sadi
    Sofiane Sadi 3 mars 2026

    CLIP ? BLIP ? Toute cette hype. La vérité ? C’est du marketing. Vous croyez que Zalando utilise ça pour l’accessibilité ? Non. Ils veulent réduire les coûts de tagging. Le texte alternatif, c’est un luxe pour les ONG. Pour les entreprises, c’est un SEO. Et si l’IA dit « femme en robe » au lieu de « femme en robe traditionnelle de Côte d’Ivoire » ? Ben tant pis. C’est pas leur problème. Leur KPI, c’est le taux de conversion. Pas la justice sociale.

  • Erwan Jean
    Erwan Jean 4 mars 2026

    J’ai testé CLIP Interrogator sur une photo de mon grand-père en tenue de cérémonie au Cameroun… il a dit « homme en vêtement sombre avec un chapeau ». J’ai corrigé. J’ai mis « homme en tenue traditionnelle Bamiléké, orné de perles rouges, symbole de statut dans la communauté ». Il a refait la même erreur. J’ai mis 3 heures à lui apprendre. J’ai dû lui donner 15 photos similaires. Il a fini par comprendre. Mais il ne garde rien. C’est comme un enfant qui oublie tout à chaque fois qu’on lui tourne le dos. Et pourtant, on veut l’utiliser pour des vies ? C’est fou. J’ai pleuré. J’ai vraiment pleuré. Parce que mon grand-père mérite mieux que ça. Et on le lui refuse. Parce que c’est trop cher. Parce que c’est trop lent. Parce que… on a juste pas envie de faire l’effort.

  • Gerard Paapst
    Gerard Paapst 4 mars 2026

    Si vous débutez dans l’accessibilité, commencez par ça : ne mettez jamais d’IA sans validation humaine. Même pour une image de chat. Parce que la première erreur que vous ferez, c’est celle qui exclura quelqu’un. Prenez 5 minutes pour vérifier. C’est un geste simple. Mais il change la vie. L’IA n’est pas un remplacement. C’est un assistant. Et comme tout assistant, il faut le former, le surveiller, le corriger. Pas le laisser seul. Vous n’auriez pas confié un enfant à un robot pour lui apprendre à marcher. Alors pourquoi confier un texte alternatif à une IA ?

  • Njienou Joyce
    Njienou Joyce 5 mars 2026

    Les modèles ne comprennent pas les gens comme moi. Ils voient des couleurs, pas des histoires. Je suis noire. Je viens du Cameroun. Mon image n’est pas dans leurs données. Donc je n’existe pas. C’est ça l’accessibilité aujourd’hui ? Une illusion pour les blancs ?

Écrire un commentaire
Articles récents
De la lune de miel à la gueule de bois : Gérer la dette technique dans les projets vibe-coded
De la lune de miel à la gueule de bois : Gérer la dette technique dans les projets vibe-coded

La dette technique dans les projets vibe-coded s'accumule silencieusement, jusqu'à ce que le code devienne ingérable. Ce guide montre comment l'identifier, la gérer sans tout réécrire, et transformer la maintenance en une pratique quotidienne.

Audit juridique du Vibe Coding : Protéger vos données clients
Audit juridique du Vibe Coding : Protéger vos données clients

Guide complet sur les étapes de revue juridique pour le vibe coding. Apprenez à sécuriser vos données clients face au RGPD et au Cyber Resilience Act 2026.

Télémétrie de sécurité et alertes pour les applications générées par l'IA
Télémétrie de sécurité et alertes pour les applications générées par l'IA

Protéger les applications générées par l’IA nécessite une télémétrie de sécurité spécialisée. Découvrez les menaces uniques, les outils efficaces et les étapes concrètes pour surveiller et alerter sur les comportements anormaux des modèles d’IA.

À propos de nous

Cercle de l'Évaluation IA est une communauté dédiée aux benchmarks, audits et bonnes pratiques pour mesurer la performance et l'éthique des systèmes d'intelligence artificielle. Découvrez des guides, cadres méthodologiques et études de cas pour fiabiliser vos modèles. Partagez et comparez des jeux de tests, métriques et outils open source. Restez informé des actualités et normes autour de l'évaluation des IA.