Les modèles de langage visuel transforment la vision par ordinateur

Les modèles de langage visuels transforment discrètement l'IA…

Avez-vous déjà essayé de poser une question à ChatGPT à partir d'une image ? Les résultats sont souvent frappants, révélant des capacités qui vont bien au-delà de la simple reconnaissance visuelle. Pourtant, ChatGPT n'est que la partie visible d'une transformation bien plus vaste.

Les Modèles de Langage Visuels (VLMs) redéfinissent la manière dont nous interagissons avec l'information en combinant la vision par ordinateur et la compréhension du langage naturel.

Les VLMs sont nés de l'évolution rapide de la vision par ordinateur : du traitement du signal aux réseaux neuronaux convolutifs (CNNs), puis aux transformeurs et à l'exploitation de vastes ensembles de données image-texte collectées sur le web. OpenAI a accéléré ce domaine en 2021 avec la publication des poids de CLIP, démontrant que l'apprentissage contrastif sur des centaines de millions de paires image-texte permet des capacités de reconnaissance et de récupération zero-shot très robustes.

En d'autres termes, il est devenu possible pour un data scientist de comparer une image et un texte sans entraîner un modèle dédié. Depuis, les VLMs ont rapidement évolué pour devenir des systèmes de plus en plus vastes et polyvalents.

Ces modèles fondamentaux permettent désormais une validation rapide des cas d'usage sans avoir à construire un pipeline complet.

Par exemple, eleven a développé en quelques jours une preuve de concept pour détecter les erreurs de tri des déchets pour une entreprise de construction, sans avoir besoin de collecter des milliers d'images.

Ces approches s'avèrent également précieuses pour la compréhension de documents dans les banques et les compagnies d'assurance, contribuant à détecter les schémas de fraude, ainsi que dans l'interprétation automatisée de tableaux de bord, fournissant des résumés quotidiens aux dirigeants d'un fonds de Private Equity.

De la preuve de concept à l'industrialisation : deux voies possibles

Une fois la valeur démontrée par une preuve de concept, deux scénarios se présentent : soit le cas d'usage est étroit et bien défini, soit il nécessite un niveau de compréhension plus large.

Dans le premier cas, les méthodes traditionnelles de vision par ordinateur peuvent être exploitées pour améliorer la précision et la robustesse. L'utilisation de modèles CNN légers est souvent suffisante, mais des modèles pré-entraînés basés sur des transformeurs, tels que DINOv3, peuvent également être utilisés pour améliorer rapidement les performances.

Ce type d'approche a permis à eleven d'atteindre un haut niveau de précision dans l'identification des zones d'intérêt sur l'imagerie satellite.

Dans le second cas, l'approche basée sur les VLMs peut être optimisée davantage.

Cela peut impliquer d'améliorer le modèle lui-même, en sélectionnant un modèle plus performant ou, s'il est hébergé en interne, en appliquant un léger fine-tuning, ainsi que d'itérer sur les prompts avec les utilisateurs métier pour affiner les paramètres les plus efficaces.

Par exemple, eleven a affiné des modèles de génération d'images pour un acteur majeur du luxe afin de mieux refléter le ton visuel de la marque, à un coût d'entraînement très faible.

Grâce à l'évolution rapide des techniques de vision par ordinateur, et plus spécifiquement des VLMs, l'exploitation des images et des vidéos n'a jamais été aussi simple. Chaque secteur devrait envisager ces approches pour libérer la valeur encore inexploitée de ses actifs visuels.

Chez eleven, nous accompagnons les organisations de la preuve de concept à l'industrialisation de leurs cas d'usage, que ce soit en reconnaissance visuelle, en analyse de documents ou en génération d'images personnalisées.

📩 Contactez nos équipes pour identifier les cas d'usage à fort impact et construire une feuille de route IA adaptée à vos défis métier.

De la stratégie à l'exécution, construisons l'avenir ensemble.
Contactez-nous