Diese neue KI von OpenAI generiert Bilder und Videos 50 Mal schneller 🎥

Veröffentlicht von Cédric,
Autor des Artikels: Cédric DEPOND
Quelle: arXiv
Andere Sprachen: FR, EN, ES, PT
OpenAI verschiebt die Grenzen der Bild- und Videogenerierung durch KI. Nun erfolgt die Erstellung von Medien blitzschnell, wodurch die Wartezeit nahezu unsichtbar wird.

Dank eines neuen Modells produziert die KI Bilder und Videos 50 Mal schneller, ohne Abstriche bei der Qualität. Der Schlüssel? Ein zweistufiges System.


Die herkömmlichen Diffusionsmodelle, die häufig zur Bilder- und Videogenerierung verwendet werden, arbeiten mit Hunderten von Phasen der schrittweisen Rauschunterdrückung. Dieser Prozess ist zwar leistungsfähig, erfordert jedoch viel Zeit und hohe Rechenressourcen.

Um dies zu beheben, haben Cheng Lu und Yang Song von OpenAI ein „zeitkontinuierliches Kohärenzmodell“ (sCM) entwickelt, das den Erstellungsprozess vereinfacht. In nur zwei Schritten kann dieses Modell hochwertige Muster erzeugen, die die Leistungen klassischer Diffusionsmethoden übertreffen.

Mit über 1,5 Milliarden Parametern arbeitet das sCM von OpenAI in Rekordzeit: 0,11 Sekunden, um ein Bild auf einem A100-Prozessor zu erzeugen (zum Beispiel). Im Vergleich dazu benötigen frühere Modelle mehrere Sekunden und viel mehr Energie.

Diese Geschwindigkeit könnte die Nutzung von KI in Bereichen verändern, die eine Echtzeitgenerierung erfordern. Die Bereiche Bild, Video und Audio stehen somit kurz davor, von diesem Fortschritt zu profitieren.

Getestet auf dichten Datensätzen, hält das sCM eine Bildqualität aufrecht, die mit Diffusionsmodellen konkurriert. Sein FID-Wert (Fréchet Inception Distance, eine Metrik zur Bewertung der Qualität von Bildern, die von einem generativen Modell erzeugt werden) liegt nur 10 % unter dem der besten Modelle, was seine Effizienz beweist.

Durch die Reduzierung der erforderlichen Rechenressourcen wird das sCM auch zu einer umweltfreundlicheren und kostengünstigeren Lösung als die aktuellen Modelle. Allerdings sollte dies zur weiteren Verbreitung und damit zu einem globalen Energieverbrauch führen... OpenAI hofft, seine Geschwindigkeit für anspruchsvolle industrielle Anwendungen weiter zu optimieren.

Langfristig könnte das sCM eine technologische Grundlage für ultra-schnelle generative KIs bieten. Dieser Durchbruch lässt eine Zukunft erahnen, in der KI Medien mit bisher unerreichter Qualität und Flüssigkeit produziert, und zweifellos auch Videos in Echtzeit.