OpenAI repousse les limites de la création d'images et de vidéos par IA. Désormais, la génération de médias se fait en un éclair, rendant le temps d'attente quasi invisible.
Grâce à un nouveau modèle, l'IA produit des images et vidéos 50 fois plus vite, sans compromis sur la qualité. La clé ? Un système à deux étapes.
Les modèles de diffusion traditionnels, très utilisés pour générer des images et vidéos, fonctionnent avec des centaines d'étapes de débruitage progressif. Ce processus, bien que performant, demande du temps et des ressources de calcul élevées.
Pour y remédier, Cheng Lu et Yang Song d'OpenAI ont développé un "modèle de cohérence en temps continu" (sCM) simplifiant le procédé de création. En deux étapes seulement, ce modèle peut générer des échantillons de haute qualité, surpassant les performances des méthodes de diffusion classiques.
Avec plus de 1,5 milliard de paramètres, le sCM d'OpenAI opère en un temps record: 0,11 seconde pour produire une image sur un
processeur A100 (à titre d'exemple). En comparaison, les modèles antérieurs nécessitent plusieurs secondes et bien plus de
puissance.
Cette rapidité pourrait transformer l'utilisation de l'IA dans des domaines demandant une génération en temps réel. Les secteurs de l'image, de la vidéo et de l'audio sont ainsi en passe de bénéficier de cette avancée.
Testé sur des ensembles de données denses, le sCM maintient une qualité d'image rivalisant avec les modèles de diffusion. Son score FID (Fréchet Inception Distance, mesure utilisée pour évaluer la qualité des images créées par un modèle génératif) est ainsi inférieur de seulement 10 % à celui des meilleurs modèles, ce qui témoigne de son efficacité.
En limitant les ressources de calcul nécessaires, le sCM devient également une solution plus écologique et économique que les modèles actuelles, bien qu'en contrepartie cela devrait contribuer à sa démocratisation, et donc la consommation énergétique globale... OpenAI espère optimiser encore sa rapidité pour des applications industrielles exigeantes.
À terme, le sCM pourrait offrir une base technologique pour des IA génératives ultra-rapides. Ce bond en avant laisse entrevoir un avenir où l'IA produira des médias avec une qualité et une fluidité inédites, et à n'en pas douter des vidéos en temps réel.