Text-zu-Video Synthese Fortschritte in KI und dynamischer Videogenerierung

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In der Welt der künstlichen Intelligenz und Computergrafik ist die Synthese dynamischer Videos aus Textbeschreibungen, bekannt als text-to-video (T2V) Synthese, ein Bereich, der in den letzten Jahren erhebliche Fortschritte gemacht hat. Trotz dieser Fortschritte stehen Entwickler und Forscher immer noch vor der Herausforderung, längere Videos mit dynamisch variierenden Inhalten effizient zu generieren. Aktuelle Open-Source-T2V-Diffusionsmodelle tendieren dazu, quasi-statische Videos zu erzeugen, die die notwendige visuelle Veränderung über die Zeit, die im Text angegeben ist, vernachlässigen. Zudem ist es oft rechnerisch nicht machbar, diese Modelle so zu skalieren, dass längere und dynamischere Videos erstellt werden können.

Um diese Herausforderung anzugehen, wurde das Konzept des Generative Temporal Nursing (GTN) eingeführt. Das Ziel von GTN ist es, den generativen Prozess während der Inferenz anzupassen, um die Kontrolle über die zeitliche Dynamik zu verbessern und die Erzeugung längerer Videos zu ermöglichen. Ein neuartiger Ansatz für GTN, genannt VSTAR, wurde vorgeschlagen und besteht aus zwei Schlüsselkomponenten: Video Synopsis Prompting (VSP) und Temporal Attention Regularization (TAR).

VSP automatisiert die Generierung einer Videozusammenfassung basierend auf dem ursprünglichen einzelnen Textprompt mithilfe von großen Sprachmodellen (LLMs), die genaue textuelle Anweisungen für die verschiedenen visuellen Zustände längerer Videos geben. TAR ist eine Regulierungstechnik, die dazu dient, die zeitlichen Aufmerksamkeitseinheiten der vorab trainierten T2V-Diffusionsmodelle zu verfeinern und damit die Kontrolle über die Videodynamik zu ermöglichen.

Experimente haben die Überlegenheit von VSTAR bei der Erzeugung längerer, visuell ansprechender Videos im Vergleich zu bestehenden Open-Source-T2V-Modellen gezeigt. Darüber hinaus zeigt die Analyse der zeitlichen Aufmerksamkeitskarten, die mit und ohne VSTAR realisiert wurden, die Bedeutung der Anwendung dieser Methode, um die Vernachlässigung der gewünschten visuellen Veränderung über die Zeit zu mitigieren.

In einem ähnlichen Kontext stellte ein anderer Forschungsansatz einen neuartigen Ansatz für die 3D-Video-Synthese vor, bei dem mehrperspektivische Videoaufnahmen einer dynamischen realen Szene in einer kompakten, aber ausdrucksstarken Darstellung repräsentiert werden, die hochwertige Sichtsynthese und Bewegungsinterpolation ermöglicht. Kern dieses Ansatzes ist ein neuartiges zeitkonditioniertes Neural Radiance Field, das die Dynamik der Szene mit Hilfe eines Satzes kompakter latenter Codes darstellt. Durch eine effiziente hierarchische Trainingsschematik und eine Strategie zur Wichtigkeitsprobenahme, die die nächsten Strahlen für das Training basierend auf der zeitlichen Variation der Eingangsvideos auswählt, konnten Trainingsspeed und die Qualität der generierten Bilder signifikant gesteigert werden. Diese Methodik ermöglichte es, ein 10-Sekunden-Video mit 30 FPS, aufgezeichnet von 18 Kameras, in einer Modellgröße von nur 28MB darzustellen.

Die genannten Arbeiten sind nicht nur technologische Meilensteine, sondern auch wegweisend für praktische Anwendungen in der Unterhaltungsindustrie, bei der Erstellung von Lehrmaterialien und in virtuellen Umgebungen. Sie illustrieren, wie fortgeschrittene KI-Verfahren es ermöglichen, komplexe und dynamische Szenen zu modellieren und visuelle Inhalte zu kreieren, die bisher unerreichbar waren.

Diese Entwicklungen unterstreichen die Bedeutung von Forschung und Innovation im Bereich der Künstlichen Intelligenz und stellen einen entscheidenden Schritt in Richtung realistischer und interaktiver digitaler Welten dar. Mindverse, als deutsches AI-Unternehmen, das sich auf All-in-One-Inhaltstools für KI-Text, Inhalte, Bilder und Forschung spezialisiert hat, ist stolz darauf, Teil dieser aufregenden Entwicklungslandschaft zu sein und zukunftsweisende maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr zu entwickeln.

Quellen:
- Li, Y., Beluch, W., Keuper, M., Zhang, D., & Khoreva, A. (2024). VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis. arXiv:2403.13501. Verfügbar unter https://arxiv.org/abs/2403.13501
- Li, T., Slavcheva, M., Zollhöfer, M., Green, S., Lassner, C., Kim, C., Schmidt, T., Lovegrove, S., Gösele, M., Newcombe, R., & Lv, Z. (2022). Neural 3D Video Synthesis from Multi-view Video. arXiv:2103.02597. Verfügbar unter https://arxiv.org/abs/2103.02597
- Lassner, C. (2022). Neural 3D Video Synthesis. Verfügbar unter https://christophlassner.de/publication/nvs/

Was bedeutet das?