
Sora 2: Mehr als nur ein KI-Modell, sondern auch eine App – und ein drohender Rechtsstreit!
Mit Sora hatte OpenAI einst demonstriert, dass Künstliche Intelligenz in der Lage ist, glaubhafte Videos zu erzeugen. Seitdem wurde das KI-Unternehmen jedoch von der Konkurrenz überholt. Mit dem neuen Modell Sora 2 will OpenAI wieder an die Spitze der KI-Videogeneratoren gelangen und hat dafür eine Smartphone-App veröffentlicht, in der Nutzer ihre Kreationen teilen können.
Von Michael Förtsch
Recht überraschend hat OpenAI am Abend des 30. Septembers den Nachfolger zu seinem Videomodell Sora vorgestellt. Letzteres wurde vor rund einem Jahr veröffentlicht, wurde in der Zwischenzeit aber von der Konkurrenz mehrfach überflügelt. Modellreihen wie Klip, WAN oder Veo bieten mittlerweile deutlich stärkere Kontrollierbarkeit, längere Clips, bessere Konsistenz und Kohärenz, komplexere Szenerien – und im Fall von Veo sogar Ton. Mit Sora 2 will OpenAI seinen Spitzenplatz zurückerobern. Parallel dazu startet OpenAI außerdem eine passende Social-Video-App für iOS-Geräte, die für das Generieren und Teilen der KI-Videoclips gedacht ist.
Laut OpenAI sei das erste Sora-Modell so etwas wie der „GPT-1-Moment für Video“ gewesen. Denn das Modell war seinerzeit durchaus beeindruckend und demonstrierte, was möglich ist – und noch machbar sein könnte. Seitdem habe das Team dahinter an Modellen gearbeitet, die vor allem glaubhaftere Szenerien erschaffen können, die sich nachvollziehbar und entsprechend der Regeln der Physik verhalten. „Wir glauben, dass solche Systeme entscheidend für das Training von KI-Modellen sein werden, die ein tiefes Verständnis der physischen Welt vermitteln.“ In die Entwicklung für Sora 2 seien mehr Videodaten und Metadaten als je zuvor geflossen. Bezogen auf die GPT-Modelle sei Sora 2 „wohl der GPT-3-Moment für Video“.
„Sora 2 kann Dinge tun, die für frühere Videomodelle außergewöhnlich schwierig – und in einigen Fällen schlichtweg unmöglich – sind“, so OpenAI in einem Blogpost zur Ankündigung. Vor allem könne das Modell komplexe Bewegungsabläufe akkurat darstellen. Darunter: „Olympische Gymnastikübungen, Rückwärtssaltos auf einem Paddelbrett, die die Dynamik von Auftrieb und Steifigkeit genau modellieren“. Und natürlich kann das Modell auch die für Katzen typischen Eskapaden glaubhaft erschaffen. Genaue technische Details zu Trainingsprozedere, maximaler Auflösung, maximaler Videolänge und Ähnlichem verrät OpenAI allerdings nicht.
Abertausende gestohlene Gaming-Videos?
Wer Sora selbst testen will, muss sich wohl noch gedulden. Sora 2 ist zunächst nur für Nutzer in Nordamerika verfügbar, und auch nur über Einladungscodes. Allerdings werden bereits massenhaft Videos geteilt. Die zeigen durchaus beeindruckend realistische und komplexe Szenen, die andere, fortschrittliche KI-Videomodelle nicht unbedingt übertrumpfen, aber sichtbar mit ihnen gleichziehen. Ähnlich wie bei Veo 3 kann Sora 2 zu den erstellten Clips auch den passenden Ton und die passende Sprache erzeugen. Hier scheint die Qualität jedoch zum Teil extrem schwankend. Oft klingen Hintergrundgeräusche fahl und die Sprache blechern und stotternd.
Für Erstaunen sorgt, wie akkurat Sora 2 basierend auf kurzen Prompts kurze Szenen aus Videospielen nachstellen kann. Darunter etwa Doom, Super Mario Bros. 3, Diablo 4 und Cyberpunk 2077. Das legt nahe, dass wohl Abertausende von Stunden an Let’s-Play-Inhalten von YouTube und anderen Videoplattformen zum Training genutzt wurden. Und das wohl ohne Genehmigung und Nachfrage bei den Plattformen oder gar Inhalteerstellern. Ähnliches gilt auch für bekannte Anime-Produktionen. Erste Sora-2-Nutzer haben bereits Clips geteilt, die beispielsweise Figuren aus Dragon Ball Z, One Punch Man und Naruto miteinander kämpfen lassen. In weiteren Videos werden wiederum Szenen im Stil von Studio-Ghibli-Filmen nachgestellt.
OpenAI begibt sich damit in eine rechtliche Grauzone. Erst vor wenigen Wochen haben Studios wie Disney und Warner Bros. angekündigt, Klage gegen Midjourney einzureichen, dessen KI-Generator das Erstellen von Bildern mit urheberrechtlich geschützten Charakteren wie Batman, Superman und Disney-Prinzessinnen erlaubt.
Übertrumpft OpenAI mit seiner App Vibes von Meta?
Begleitet wird die Veröffentlichung von von Sora 2 mit einer schlicht Sora genannten iOS-App, mit der Nutzer eigene Videoinhalte erstellen und teilen können. Ganz ähnlich wie dies bereits auf der Sora-dedizierten Website von OpenAI der Fall ist. Jedoch bietet die App auch die Option, sogenannte Cameos zu erstellen. Mit diesen können sich Benutzer selbst und ihre Freunde in KI-generierte Szenen einfügen. Um unerwünschte Fakes und Missbrauch zu verhindern, müssen Nutzer mit einer einmaligen Video- und Audioaufnahme in der App bestätigen, dass es sich um sie selbst handelt. Dennoch haben es Nutzer – wenig überraschend – bereits geschafft, etwa prominente Schauspieler in ihre Videos einzufügen.
Laut OpenAI sollen Nutzer die volle Kontrolle darüber haben, welche Inhalte sie in ihrem Feed sehen. Standardmäßig sollen ihnen vor allem Inhalte von Freunden und Bekannten angezeigt werden. Wenn sie mehr fremde Inhalte sehen möchten, sollen sie das einfach über den KI-Chat angeben und die Einstellungen ändern können. OpenAI verspricht zudem, Nutzer regelmäßig nach ihrem Wohlbefinden zu befragen und ihnen proaktiv die Möglichkeit zu geben, ihren Feed anzupassen. Die App ist so gestaltet, dass Nutzer motiviert werden, selbst Inhalte zu erstellen und nicht nur zu konsumieren.
Mit Sora 2 und der Sora-App trifft OpenAI vor allem den Facebook-Konzern Meta. Denn dieser hatte erst vor wenigen Tagen Vibes vorgestellt, einen Bereich in der Meta-AI-App, der ebenfalls zum Erstellen und Teilen von KI-generierten Videos gedacht ist, bei vielen Nutzern aufgrund der eher dürftigen Qualität aber bislang auf wenig Gegenliebe stößt.