fermer
Intelligence Artificielle

Aya Vision : Cohere lance un modèle IA vision-texte disponible en 23 langues

Aya Vision : Cohere lance un modèle IA vision-texte disponible en 23 langues
Aya Vision : Cohere lance un modèle IA vision-texte disponible en 23 langues

Le marché de l’intelligence artificielle (IA) devient de plus en plus compétitif, et la startup canadienne Cohere ne compte pas se laisser distancer. Alors qu’elle peine encore à s’imposer face à OpenAI, Anthropic ou DeepSeek, Cohere vient d’annoncer Aya Vision, son premier modèle IA open-weight combinant traitement du langage et vision artificielle.

Ce modèle se distingue par sa capacité à comprendre et générer du contenu dans 23 langues, ce qui, selon Cohere, couvre « la moitié de la population mondiale ». Une avancée majeure qui pourrait changer la donne dans les applications d’IA multimodale.

Aya Vision : une IA visuelle et linguistique en open source

Aya Vision est conçu pour analyser des images, générer du texte et traduire du contenu visuel en langage naturel. Son objectif est de rendre l’IA multilingue plus accessible et plus efficace, notamment pour les entreprises et les organisations opérant à l’international.

cohere aya vision graphic

Disponible en deux versions :

  • Aya Vision 8B (8 milliards de paramètres)
  • Aya Vision 32B (32 milliards de paramètres)

Où l’obtenir ?

Aya Vision est déjà disponible sur :

Licence d’utilisation : Le modèle est publié sous Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0), ce qui signifie qu’il est gratuitement accessible pour des usages non commerciaux.

Une IA capable de comprendre 23 langues

Alors que des modèles comme GPT-4 ou Claude maîtrisent plusieurs langues, l’application de ces compétences aux tâches de vision reste un défi. Aya Vision le relève en permettant la génération de légendes d’images, la traduction visuelle et les réponses aux questions basées sur des images dans les langues suivantes : Anglais, Français, Allemand, Espagnol, Italien, Portugais, Japonais, Coréen, Chinois, Arabe, Grec, Persan, Polonais, Indonésien, Tchèque, Hébreu, Hindi, Néerlandais, Roumain, Russe, Turc, Ukrainien, Vietnamien.

Exemples d’applications :

  • Apprentissage des langues : traduction et description d’images
  • Préservation culturelle : analyse et documentation d’œuvres d’art et monuments
  • Accessibilité : assistance aux personnes malvoyantes via des descriptions détaillées
  • Communication mondiale : traduction multimodale en temps réel
  • Une efficacité impressionnante face à des modèles plus grands

Malgré une taille plus réduite que d’autres IA, Aya Vision affiche des performances exceptionnelles sur plusieurs benchmarks.

  • Aya Vision 8B dépasse LLaMA 90B, un modèle 11x plus grand
  • Aya Vision 32B surpasse Qwen 72B, LLaMA 90B et Molmo 72B, tous au moins 2x plus grands

Efficiency vs Performance

Résultats de benchmarking :

  • Aya Vision 8B atteint un taux de réussite de 79 % en compréhension d’images multilingues
  • Aya Vision 32B atteint 72 %

Step by Step Improvement

Quelles innovations derrière ces performances ?

Cohere For AI explique qu’Aya Vision bénéficie de plusieurs avancées technologiques :

  • Annotations synthétiques : génération de données artificielles pour améliorer l’apprentissage
  • Échelle de données multilingues : traduction et reformulation automatique des données
  • Fusion de modèles multimodaux : combinaison optimisée des informations issues des modèles visuels et linguistiques

Ces techniques permettent à Aya Vision de traiter des images et du texte avec une grande précision tout en conservant des capacités multilingues avancées.

Aya Vision pour les entreprises et chercheurs

Bien qu’Aya Vision soit conçu pour l’entreprise, sa licence non commerciale peut limiter son adoption dans des solutions payantes.

Utilisation en entreprise :

  • Recherche et développement interne
  • Benchmarking et tests d’IA multimodale
  • Études sur l’IA multilingue avant une adoption à grande échelle

Utilisation pour les chercheurs :

  • Analyse et amélioration des modèles IA
  • Fine-tuning dans un cadre non commercial
  • Études sur l’impact de l’IA en linguistique et vision

Aya Vision représente donc une ressource précieuse pour les chercheurs et les entreprises qui veulent expérimenter des solutions IA sans dépendre de modèles propriétaires fermés.

Aya Vision et l’avenir de l’IA multilingue

Aya Vision s’inscrit dans l’initiative Aya, lancée par Cohere en février 2024 pour rendre l’IA plus inclusive et multilingue.

Communauté de recherche Aya :

  • 3 000 chercheurs indépendants
  • 119 pays représentés
  • Développement collaboratif pour améliorer les modèles IA

Cohere prévoit également de lancer un programme de recherche collaboratif et d’attribuer des bourses de recherche pour stimuler les avancées en IA multilingue.

Aya Vision, une avancée majeure pour l’IA multimodale

En rendant Aya Vision accessible à la communauté open source, Cohere continue de pousser les limites de l’IA.

Pourquoi Aya Vision est important ?

  • Modèle puissant et efficace malgré une taille réduite
  • Compatible avec 23 langues, une première pour un modèle vision-texte
  • Open-weight et accessible, contrairement aux solutions propriétaires fermées
  • Conçu pour la recherche et l’innovation IA, avec un fort engagement envers l’open science

Avec Aya Vision, Cohere veut non seulement démocratiser l’IA multilingue, mais aussi offrir une alternative puissante aux modèles propriétaires. Un projet ambitieux qui pourrait changer le paysage de l’IA multimodale dans les années à venir.

Tags : Aya VisionCohere
Yohann Poiron

The author Yohann Poiron

J’ai fondé le BlogNT en 2010. Autodidacte en matière de développement de sites en PHP, j’ai toujours poussé ma curiosité sur les sujets et les actualités du Web. Je suis actuellement engagé en tant qu’architecte interopérabilité.