L’arrivée de Sora, le modèle de génération de vidéos à partir de prompts textuels développés par OpenAI, représente une véritable révolution dans le paysage de l’intelligence artificielle.
Cette technologie prometteuse permet de transformer de simples descriptions textuelles en vidéos d’une minute, offrant ainsi une nouvelle dimension à la création de contenu numérique.
OpenAI, déjà connu pour ses avancées significatives avec des produits comme ChatGPT et Dall-E, repousse les limites de l’IA avec Sora, en produisant des vidéos d’une qualité quasi photoréaliste. Si Sora peut « créer des scènes réalistes et imaginatives à partir d’instructions textuelles », selon OpenAI, elle fait déjà parler d’elle sur Internet.
Accès et sécurité de Sora
Contrairement aux précédents précédents qui étaient largement accessibles, Sora est actuellement en phase de test et n’est accessible qu’à un nombre restreint d’utilisateurs, notamment les testeurs internes d’OpenAI et un groupe sélectionné d’artistes visuels et de cinéastes.
Cette approche sélective vise à identifier et à corriger les potentielles failles du système qui pourraient présenter des risques d’abus ou de détournement. OpenAI met en garde contre les annonces frauduleuses promettant un accès non autorisé à Sora, soulignant l’importance de se référer uniquement aux canaux officiels pour les informations d’accès.
Technologie et innovation
Sora s’appuie sur une méthodologie innovante en matière de traitement vidéo. Analogue aux Large Language Model pour le texte, Sora utilise des « patches » de données vidéo, transformées en un espace latent de dimension inférieure, pour générer des vidéos cohérentes et de haute qualité.
Ce processus s’inscrit dans la continuité des modèles de diffusion, une avancée par rapport aux modèles GAN utilisés antérieurement dans la génération de vidéos basées sur le texte. Sora se distingue par sa capacité à comprendre les nuances du langage liées à la réalité physique, permettant une reproduction fidèle et détaillée des scènes décrites.
Défis et perspectives
Malgré ses capacités impressionnantes, Sora n’est pas exempt de défis, notamment en ce qui concerne la représentation précise de la physique et le changement d’état des objets dans les vidéos.
OpenAI a admis ouvertement que Sora n’est pas sans limites et qu’il y a beaucoup de place pour l’amélioration. Il existe actuellement deux limitations majeures :
- Sora peut passer à côté de détails basés sur la relation de cause à effet. L’exemple donné par OpenAI est que Sora pourrait être capable de générer une vidéo de quelqu’un en train de croquer dans un biscuit, mais ce biscuit pourrait ne pas être croqué par la suite.
- Sora pourrait ne pas tenir compte de certains détails spatiaux plus fins, comme la gauche et la droite, ou des directions spécifiques de la caméra.
OpenAI est consciente de ces limitations et travaille à l’amélioration continue du modèle. Pour prévenir les risques associés aux deepfakes, une signature spécifique est intégrée dans les métadonnées des vidéos générées, accompagnée du développement d’un détecteur dédié.
Questions ouvertes
Des interrogations demeurent quant aux données utilisées pour entraîner Sora, ainsi qu’aux implications sur le marché du travail et aux coûts liés à la génération de contenu vidéo. La collaboration d’OpenAI avec Shutterstock pour l’accès à sa bibliothèque média soulève des questions sur les supports de formation et les droits d’utilisation.
De plus, l’impact de l’IA sur les emplois créatifs et les potentiels coûts pour l’accès à cette technologie avancée font l’objet d’un examen attentif.
Réactions sur Internet
Les réactions en ligne ont été très variées, certains utilisateurs X étant très enthousiastes, tandis que d’autres sont beaucoup plus méfiants. Marques Brownlee, blogueur et critique technique, a déclaré dans un tweet accompagné de quelques vidéos de Sora : « Si cela ne vous inquiète pas au moins un peu, rien ne le fera ».
Every single one of these videos is AI-generated, and if this doesn’t concern you at least a little bit, nothing will
The newest model: https://t.co/zkDWU8Be9S
(Remember Will Smith eating spaghetti? I have so many questions) pic.twitter.com/TQ44wvNlQw
— Marques Brownlee (@MKBHD) February 15, 2024
Gabor Cselle, qui a été directeur chez Google pendant plus de 6 ans, a préparé une comparaison entre Sora et plusieurs autres outils populaires de génération de vidéos, Sora semblant extrêmement prometteur.
.@OpenAI SORA vs @pika_labs vs @runwayml vs @StabilityAI Video.
I gave the other models SORA’s starting frame. I tried my best prompting and camera motion techniques to get the other models to output something similar to SORA.
SORA’s just much better at longer scenes. pic.twitter.com/TK7QR6jaUK
— Gabor Cselle (@gabor) February 16, 2024
De nombreuses personnes ont souligné le potentiel de cet outil pour les cinéastes amateurs.
Conclusion
Sora d’OpenAI illustre les progrès remarquables et les défis persistants dans le domaine de la génération de contenu vidéo par IA. Alors que cette technologie ouvre de nouvelles avenues pour la création de contenu numérique, elle soulève également des questions importantes sur l’éthique, la sécurité et l’accessibilité.
Dans ce contexte, OpenAI poursuit ses efforts pour développer une plateforme à la fois innovante et responsable, prête à transformer le paysage de la création numérique tout en veillant à prévenir les abus potentiels.