Quiconque suit l’actualité de l’IA générative devrait se rendre compte que cette nouvelle technologie est en train de devenir rapidement omniprésente. L’année dernière, les générateurs d’images d’IA ont pris le monde d’assaut, et vers la fin de 2022, ChatGPT a capturé l’imagination du public. Aujourd’hui, quelques semaines après le début de l’année 2023, l’IA texte-vidéo est presque là.
Cette semaine, la startup Runway a annoncé Gen-2, un système d’IA multimodal capable de générer des vidéos à partir d’extraits d’autres vidéos, d’images ou même simplement de texte.
Generate videos with nothing but words. If you can say it, now you can see it.
Introducing, Text to Video. With Gen-2.
Learn more at https://t.co/PsJh664G0Q pic.twitter.com/6qEgcZ9QV4
— Runway (@runwayml) March 20, 2023
En effet, d’ici peu, les utilisateurs pourront taper ce qu’ils veulent dans une invite et obtenir une vidéo entièrement produite à partir de ce qu’ils ont rêvé dans leur imagination.
Cependant, comme toute nouvelle technologie, elle n’est pas tout à fait prête pour le prime time. Selon Kyle Bar, de Gizmodo, alors que la nouvelle IA vidéo de Runway n’est pas encore accessible au public, il existe déjà un autre service de conversion de texte en vidéo : ModelScope, qui a été lancé il y a quelques jours. Son site Web est principalement en chinois, avec quelques rubriques en anglais. Mais les exemples de vidéos générées par l’IA sur le site sont assez impressionnants, même s’ils sont rudimentaires.
D’autres acteurs s’engouffrent
Parmi les exemples présentés sur le site de ModelScope, citons « une girafe sous un micro-ondes », « un goldendoodle jouant dans un parc au bord d’un lac », « un panda conduisant une voiture », « un ours en peluche courant dans la ville de New York », et bien d’autres encore. Chaque clip vidéo ne dure que quelques secondes, mais démontre clairement la puissance de la nouvelle technologie. Il convient de noter que chaque exemple de vidéo contient un filigrane Shutterstock, probablement parce que l’entreprise a utilisé des images de stock pour entraîner son IA.
Cependant, ModelScope n’est pas vraiment facile à utiliser. Outre le fait que le site est principalement en chinois, il semble que les utilisateurs doivent faire quelques recherches (ou être versés dans les tenants et aboutissants de l’IA générative) pour le faire fonctionner.
Il ne s’agit pas encore de ChatGPT ou du nouveau Bing. Mais, l’existence même de cette technologie sur l’Internet signifie que la conversion de texte en vidéo arrivera bien plus tôt que beaucoup d’entre nous ne le pensaient.