Lors de la conférence IEEE, NVIDIA a présenté sa nouvelle technologie: un générateur de vidéos qui se base sur un modèle open source de Stability AI, une intelligence artificielle entraînée pour générer des images à partir de textes. Les chercheurs de
NVIDIA ont réussi à ajouter une étape supplémentaire dans laquelle ils tentent d'animer une image. L'IA se base sur ce qu'elle a appris en analysant des milliers de vidéos sur
Internet.
L'IA estime ce qui est susceptible de changer dans chaque zone d'une image. Dès lors, elle crée des images clés tout le long de la séquence et utilise un autre générateur d'images pour créer à son tour des "liens" entre les images clés. Ceci génère des images de qualité similaire à insérer dans la séquence, ce qui permet de donner un résultat dynamique: une
vidéo.
NVIDIA a testé le système en se basant sur des vidéos extraites de faible qualité de dashcam pour parvenir à générer des vidéos de conduite, cohérentes, de plusieurs minutes à une résolution de 512 x 1024 pixels. Une grande avancée dans le domaine de la génération de contenus. Encore à ses débuts, les images de la vidéo se révèlent bluffantes et cohérentes mais manquent encore de réalisme.
Le système est conçu pour prendre des images ainsi que des requêtes textuelles. Ceci signifie que l'on pourra être en mesure de télécharger nos propres images ou peut-être même des images générées par une autre IA, puis les développer en vidéos. L'équipe de NVIDIA a utilisé sa technologie pour générer une multitude de vidéos d'exemple en résolution 1280 x 2048 pixels, simplement à partir de requêtes textuelles.
Dans un avenir très proche, il pourrait être possible de fusionner ces IA ensemble pour créer du contenu en un temps record, avec pour exemple l'essor des IA génératrices d'art que l'on observe actuellement.
Actuellement, NVIDIA considère ce système comme un projet de recherche plutôt qu'un produit grand public.