KI-gestützte Text-zu-Video-Synthese Revolutioniert Content-Erstellung

Kategorien:

No items found.

Freigegeben:

In der Welt der künstlichen Intelligenz (KI) zeichnen sich kontinuierlich beeindruckende Fortschritte ab, die in verschiedenen Technologiebranchen für Aufsehen sorgen. Ein solches Feld, das in den letzten Jahren erhebliche Aufmerksamkeit erregt hat, ist die Text-zu-Video-Synthese. Diese Technologie ermöglicht es, aus geschriebenem Text automatisiert Videos zu generieren, was eine Vielzahl von Anwendungen in den Bereichen Bildung, Entertainment und Marketing eröffnet.

Eines der jüngsten Beispiele für Fortschritte in diesem Bereich ist das Projekt "ModelScope-Studio", das von der KI-Community stark beachtet wird. ModelScope-Studio ist eine Plattform, die es Entwicklern ermöglicht, ihre eigenen Anwendungen im Bereich der künstlichen Intelligenz zu erstellen und zu verwalten. Die Plattform bietet eine benutzerfreundliche Schnittstelle und Zugang zu hochmodernen KI-Modellen, die von der Community geteilt und weiterentwickelt werden können.

Ein herausragendes Modell auf dieser Plattform ist das "Text-to-Video-Synthesis"-Modell von ali-vilab, das auf dem ModelScope-Studio und auf Hugging Face verfügbar ist. Dieses Modell basiert auf einem Diffusionsmodell für die Text-zu-Video-Generierung, das eine Beschreibung in Textform nimmt und ein passendes Video dazu erzeugt. Es besteht aus drei Teilnetzwerken: der Textmerkmalsextraktion, dem Textmerkmale-zu-Video-Latenzraum-Diffusionsmodell und dem Video-Latenzraum-zu-Video-Visualisierungsraum. Mit insgesamt etwa 1,7 Milliarden Parametern kann das Modell Videos auf Basis beliebiger englischer Textbeschreibungen generieren und umsetzen.

Das Modell nutzt eine Unet3D-Struktur und funktioniert durch einen iterativen Entstörungsprozess aus reinem Gaußschen Rauschen heraus, um Videos zu erzeugen. Die daraus resultierenden Videos können mit gängigen Mediaplayern wie VLC abgespielt werden.

Für die Nutzung des Modells auf ModelScope-Studio sind etwa 16GB CPU-RAM und 16GB GPU-RAM erforderlich. Benutzer können das Modell durch Aufrufen einer einfachen Pipeline verwenden, wobei die Eingabe im Wörterbuchformat erfolgen muss, mit 'text' als legalem Schlüsselwert und einem kurzen Text als Inhalt. Aktuell unterstützt das Modell nur die Inferenz auf der GPU.

Es ist jedoch wichtig zu berücksichtigen, dass das Modell Einschränkungen und Verzerrungen aufweist. Da es auf öffentlichen Datensätzen wie Webvid trainiert wurde, können die generierten Ergebnisse Abweichungen aufweisen, die mit der Verteilung der Trainingsdaten zusammenhängen. Das Modell kann keine perfekte Film- und Fernsehqualität erzeugen, klaren Text generieren oder andere Sprachen als Englisch unterstützen. Es muss noch weiter verbessert werden, insbesondere bei komplexen kompositorischen Generierungsaufgaben.

Darüber hinaus gibt es klare Richtlinien für die Verwendung des Modells, um Missbrauch zu verhindern. Es ist nicht dafür ausgelegt, Personen oder Ereignisse realistisch darzustellen, daher sollte es nicht verwendet werden, um solche Inhalte zu erzeugen. Inhalte, die Menschen oder ihre Umwelt, Kultur oder Religion herabsetzen oder schädigen, sind verboten, ebenso wie die Erzeugung von pornografischen, gewalttätigen oder blutrünstigen Inhalten und von Fehlern und falschen Informationen.

Das Training des Modells umfasste Daten aus LAION5B, ImageNet, Webvid und anderen öffentlichen Datensätzen, wobei nach dem Pre-Training eine Bild- und Videofilterung durchgeführt wurde, einschließlich ästhetischer Bewertung, Wasserzeichenbewertung und Deduplizierung.

ModelScope-Studio und das Text-to-Video-Synthesis-Modell sind Beispiele dafür, wie sich die KI-Technologie weiterentwickelt und neue Möglichkeiten für Entwickler und Kreative schafft. Die Fähigkeit, aus Texten Videos zu generieren, könnte die Art und Weise, wie wir Inhalte konsumieren und erstellen, grundlegend verändern und zugleich die Grenzen der maschinellen Kreativität erweitern.

Quellen:
1. Hugging Face Spaces: modelscope/modelscope-studio
2. GitHub: modelscope/modelscope-studio
3. Luo, Zhengxiong et al. "VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2023.

Was bedeutet das?

No items found.