Video-KI, aber ohne „geklaute“ Trainingsdaten? Das Start-up Moonvalley will es möglich machen

6 Min. Lesezeit

Künstliche Intelligenz, die Videos generiert, wird Mainstream. Selbst Netflix setzt für Hochglanzproduktionen auf KI. Dabei ist ein zentrales Problem ungelöst: Aktuelle Modelle wurden mit Daten trainiert, deren Schöpfer – Studios, Künstler, Kreative – nicht gefragt wurden. Das US-Start-up Moonvalley will einen Ausweg aus diesem Dilemma schaffen – mit einem cleanen KI-Modell ohne geklaute Daten, das im Vergleich mit der Konkurrenz erstaunlich gut abschneidet. Wir haben mit einem der Gründer gesprochen.

Von Michael Förtsch

Keiner hat es bemerkt. Wahrscheinlich, weil es nur wenige Sekunden dauerte. Ein Gebäude stürzt zusammen, Rauch und Geröll sind zu sehen. Es war nicht einmal besonders spektakulär. Aber für diesen Moment in der argentinischen Serienumsetzung der Graphic Novel Eternauta haben die Produzenten von Netflix erstmals Künstliche Intelligenz für eine ihrer Vorzeigeproduktionen eingesetzt. Dabei wird es nicht bleiben, wie ein zwischenzeitlich veröffentlichtes Regelwerk des Streaming-Giganten für die Nutzung von KI nahelegt. Denn KI-Videomodelle haben in den letzten Jahren enorme Fortschritte gemacht. Vor zwei Jahren waren sie kaum in der Lage, konsistent Gesichter zu zeichnen oder gehende Menschen beziehungsweise Will Smith beim Spaghetti-Essen zu animieren. Heute können sie kurze Sequenzen generieren, die glatt aus Hollywood-Produktionen stammen könnten und sich nur noch schwer von echten Videoaufnahmen unterscheiden lassen.

Allerdings sind diese Modelle nicht ohne Probleme – und ihr Einsatz wird durchaus skeptisch gesehen. Denn sie werden mit Datensätzen aus Hunderten Terabyte Videomaterial und korrespondierenden Metadaten trainiert. Die dafür nötigen Videos werden, wie Recherchen und Leaks mehrfach zeigten, von den Entwicklern einfach aus dem Internet geladen, ohne die Urheber zu fragen oder zu entlohnen. Anders ließen sich fähige und qualitativ hochwertige Modelle nicht realisieren, wird als Entschuldigung argumentiert. Vor allem Künstler und Kreative sehen sich dadurch aber beraubt. Viele Filmemacher und Studios schrecken wiederum ob der unklaren Rechtslage, der Angst vor Kritik und Klagen vor dem Einsatz der Technologie zurück. Das kanadische KI-Start-up Moonvalley versucht, diese schwierige Lage aufzulösen, und will gleichzeitig zeigen, dass es auch anders geht. 

Introducing Marey by Moonvalley

„Denn natürlich geht das auch anders“, sagt Mateusz Malinowski im Gespräch mit 1E9. Er ist Chefwissenschaftler und Co-Gründer von Moonvalley, hat zuvor bei Google DeepMind geforscht und an der Universität des Saarlandes studiert. Laut dem Informatiker standen viele Künstler und Filmemacher, die sich für KI-Technologie als Werkzeug interessieren, in den letzten Jahren durchaus vor einem Dilemma. „Entweder sie nutzen Künstliche Intelligenz, die mit aus dem Internet gezogenen Daten trainiert wurde“, so Malinowski. „Oder sie nutzen sie gar nicht.“ Genau das sei ihm und den anderen Mitgliedern des Gründerteams, darunter KI-Forscher Naeem Talukdar und Businessanalyst John Thomas, in Gesprächen mit Personen aus der Film- und Fernsehbranche immer wieder als der unangenehme Status quo beschrieben worden.

Die Lösung? Ein Modell, das clean und kommerziell sicher ist – in dem es auf Daten setzt, die nicht einfach stibitzt wurden.

Kaufen statt stibitzen

Wie Malinowski beschreibt, waren er und seine Mitstreiter sich sicher, dass ein KI-Videomodell machbar ist, das ohne Daten auskommt, die einfach aus dem Internet gezogen wurden. Selbst wenn das einige andere KI-Unternehmen immer wieder bestritten. „Wir wollten einfach etwas schaffen, bei dem du sicher sein kannst, dass du nicht verklagt wirst, weil du es genutzt hast“, sagt er. „Klar, da gibt es das Fair-Use-Argument, nach dem das [mit dem Datensammeln und Training] schon irgendwie rechtlich in Ordnung ist. Aber können wir da sicher sein?“ Zwar haben bereits mehrfach Serien- und Filmemacher auf Künstliche Intelligenz gesetzt – auch durchaus größere Erfolge wie Everything Everywhere All at Once. Aber nicht ohne Kritik von Zuschauern, Debatten über die Rechtslage und die ethische Natur dieser Modelle.

„Wir wollten daher alle Videoinhalte für unser Modell auf nachvollziehbare und klar legale Weise beschaffen. Also haben wir sie lizenziert“, sagt Malinowski. Ganz einfach war das nicht. Doch das derzeit 100 Köpfe starke Team konnte mit Hilfe aus der Film- und Creator-Industrie, beispielsweise vom Dokumentarfilmstudio XTR und dessen Gründer Bryn Mooser, ein enges Netzwerk aufbauen. Über dieses Netzwerk gelang es, Abertausende von Videoinhalten zu beschaffen. Darunter waren Ausschnitte aus professionellen Produktionen, klassisches Stock- und B-Roll-Material, sowie Inhalte von freien Content Creators, die in fünfsekündige Schnipsel aufgespalten wurden. Laut Malinowski kamen außerdem unzählige Einzelbilder hinzu, die das Dataset um qualitativ hochwertige und detailreiche Aufnahmen von Oberflächen, wie etwa Haut oder Beton, oder von einzelnen Objekten, wie Gabeln, Messern oder Getränkedosen, anreicherten.

Wie viel Moonvalley für diese Daten gezahlt hat, soll nicht genau verraten werden, aber es sollen durchaus mehrere Millionen US-Dollar gewesen sein. Dadurch ist nicht nur ein urheberrechtlich unbedenkliches, sondern laut Malinowski auch ein sehr hochwertiges Dataset entstanden. Minderwertige oder qualitativ fragwürdige Inhalte, die beim „Abfischen“ aus dem WWW zwangsläufig in die Trainingsdaten anderer KI-Unternehmen gelangen, wären durch das Vorgehen von Moonvalley praktisch ausgeschlossen. „Und wenn du genug wirklich gute Daten hast, brauchst du insgesamt weniger Daten, um ein gutes Modell zu schaffen“, sagt Malinowski. „Das ist jedenfalls die Hypothese, nach der wir arbeiten.“ Offenbar nicht ohne Erfolg.

Das ist Marey

Das von Moonvalley trainierte Modell trägt den Namen Marey, benannt nach dem französischen Foto- und Chronofotografie-Pionier Étienne-Jules Marey, und ist seit August verfügbar – sowohl über die offizielle Website als auch über verschiedene KI-Dienste-Anbieter. Verglichen mit aktuellen Spitzenmodellen wie Kling 2.1, WAN 2.2, Veo 3 oder Gen 4 liefert es erstaunlich gute Ergebnisse. Es kann aus Bildern und Prompts konsistente Bewegtbilder in Full HD erzeugen. Außerdem können Kamera- und Figurenbewegungen aus einem Video auf ein anderes übertragen werden. Ebenso lassen sich die Bewegungen von Figuren und Objekten mit eingezeichneten Linien einfach bestimmen. Um reale Personen in ein Video zu integrieren, genügt ein einfaches Referenzbild. Vor allem können Nutzer nachträglich Kamerawinkel und Kamerafahrten anpassen und feinabstimmen.

„Wir wollten viel Kontrolle erlauben und möglichst viele Werkzeuge bereitstellen, die Filmemacher benötigen“, sagt Malinowski. Es seien bereits mehr Optionen in Arbeit, die die generierten Videos noch granularer anpassen lassen sollen. Die Reaktionen aus Hollywood, von Werbe- und Special-Effects-Firmen, aber auch von einzelnen Künstlern, seien aber bereits jetzt sehr positiv. Momentan wird Marey bei rund einem Dutzend großen Produktionsstudios als Teil von Pilotprojekten zur Nutzung von Künstlicher Intelligenz erprobt. „Ich habe da ein paar Mal gehört, dass es das erste wirklich nützliche Modell sei“, sagt der Gründer. „Und das gibt uns natürlich auch die Zuversicht, dass wir etwas richtig machen und uns gegen Wettbewerber, die auf andere Weise arbeiten, behaupten können.“

Marey soll jedoch nicht nur ein sehr fähiges und qualitativ hochwertiges, sondern auch ein sehr flexibles Modell sein. Denn Moonvalley möchte Hollywood-Studios und anderen die Möglichkeit bieten, Marey zu personalisieren. Ähnlich wie es KI-begeisterte Nutzer mit Stable-Diffusion- und Flux-Text-zu-Bild-Modellen tun. „Wenn ein Studio oder ein Regisseur zu uns kommt, können wir Marey für ihn anpassen und ein individuelles Modell erstellen“, sagt Malinowski. „Das Dataset muss nicht groß sein, 20 oder 50 Stunden reichen aus.“ Dadurch könnte das Basismodell den spezifischen visuellen Stil eines Regisseurs oder Kameramanns, die Figuren einer Filmreihe oder auch bestimmte Effekte und Kameratricks erlernen.

Ebenso könnten dadurch „neue Konzepte” angelernt werden, die das Basismodell nicht kennt. Obwohl Marey ein leistungsstarkes Modell ist, gesteht Malinowski offen ein, dass es nicht die Bandbreite anderer Modelle abdeckt, die beispielsweise mit YouTube-Clips aus Superhelden- oder Science-Fiction-Filmen trainiert wurden. Bestimmte Konzepte oder Vorgänge versteht das Modell daher nicht. Beispielsweise weiß es nicht, wie sich Spider-Man an Seilen durch New York City schwingt oder wie sich durch einen Zauber Dimensionstore öffnen. Auch sehr spezifische visuelle Artefakte wie Linsenverzerrungen, die nur mit bestimmten Kamera-Objektiven erreicht werden, sind dem Modell nicht bekannt. „So etwas können wir aber in das Modell hineinbringen“, sagt Malinowski. Genau das wäre ein weiteres Plus für Studios, die auf Moonvalley und seine Technologie setzen.

Mehr als nur KI-Videos?

Dass es von Marey generierten Szenen in Kino-, Fernseh- beziehungsweise Streaming-Produktionen schaffen, da ist Malinowski sich ziemlich sicher. Die ersten könnten bereits „in einigen Monaten“ zu sehen sein, sagt er. Denn Moonvalley hat bereits seine ersten speziell für Studios und verschiedene Produktionen gedachten custom models trainiert.  Welche Studios mit welchen Filmen oder Serien das sein könnten, dazu kann das Start-up derzeit noch keine Angaben machen. Malinowski deutet jedoch an, dass es sich um durchaus bekannte Namen handelt, die mit der Technologie von Moonvalley arbeiten. Auch einzelne Filmemacher wie der Blue-Beetle-Regisseur Ángel Manuel Soto haben sich für das Start-up und seine Technologie ausgesprochen – und könnte in Zukunft durchaus damit produzieren.

Das kanadische Start-up möchte aber auch selbst zeigen, was mit Marey möglich ist, und zukünftige Optionen, Erweiterungen und Möglichkeiten in einem realen Produktionsumfeld erproben. Wie beispielsweise zu Bewegtbildern passende Ton- und Sprachspuren zu generieren oder Storyboards automatisiert in Videos zu übersetzen. Dafür arbeitet Moonvalley mit Asteria Film zusammen, einem Studio, das sich auf die Nutzung von Künstlicher Intelligenz spezialisiert hat. Es wurde von mehreren Filmemachern und Animationskünstlern gegründet und ist seit Mitte dieses Jahres ein fester Teil von Moonvalley. Eine der ersten Produktionen von Asteria Film soll eine Dokumentation über den Astronomen Carl Sagan werden. Dafür sollen Archivaufnahmen mit KI restauriert und einzelne Sequenzen mit KI erstellt werden.

Der KI-Forscher Malinowski sieht die Zukunft von Moonvalley jedoch nicht auf die Film- und Fernsehbranche begrenzt. Die Technologie, auf der Marey basiert, würde nämlich noch deutlich mehr ermöglichen. „Mich interessiert es, Parameter zu entwickeln, die Bewegung, Physik und die Eigenschaften von Materialien verstehen“, sagt Malinowski. Seiner Meinung nach sei es möglich, eine Künstliche Intelligenz zu entwickeln, die auf der Grundlage unterschiedlicher Trainingsdaten ein umfassendes Verständnis unserer Welt entwickelt. Genau das könnte wiederum ein mächtiges Werkzeug zur Steuerung oder zum Anlernen von Robotern darstellen. „Ich denke darüber nach, mit zukünftigen Modellen in diese Richtung zu gehen“, meint Malinowski. „Ich glaube, das ist absolut möglich.“