Neuer Ansatz zur Generierung realistischer menschlicher Bewegungen aus 2D-Bildern und Textbeschreibungen

Kategorien:
No items found.
Freigegeben:
December 20, 2024

Artikel jetzt als Podcast anhören

Bewegungserzeugung mit 2D-Bildern und Textvorgaben: Ein neuer Ansatz für realistische menschliche Bewegungen in Videos

Die Generierung realistischer menschlicher Videos ist nach wie vor eine Herausforderung. Die effektivsten Methoden verwenden derzeit menschliche Bewegungssequenzen als Steuersignal. Bestehende Ansätze nutzen oft vorhandene Bewegungen aus anderen Videos, was die Anwendung auf bestimmte Bewegungstypen und die Übereinstimmung mit der Gesamtszene einschränkt. Ein neuer Forschungsansatz, Move-in-2D, beschäftigt sich mit der Generierung von Bewegungssequenzen, die auf einem 2D-Hintergrundbild basieren, anstatt auf vorgegebenen Bewegungssequenzen.

Move-in-2D verwendet ein Diffusionsmodell, das sowohl ein Szenenbild als auch eine Textbeschreibung als Eingabe akzeptiert und eine auf die Szene zugeschnittene Bewegungssequenz erzeugt. Dieser Ansatz ermöglicht eine zweiphasige Pipeline zur Generierung menschlicher Videos. In der ersten Phase werden menschliche Posen mithilfe einer Vorlagenpriorität positioniert, wodurch die Körperartikulation erhalten bleibt und eine plausible Bewegungssequenz generiert wird. Diese generierte Bewegung dient dann als Steuersignal für die nachfolgende Videogenerierung.

Im Vergleich zu Methoden, die auf externen Bewegungssequenzen beruhen, kann die 2D-bedingte Bewegungserzeugung Sequenzen erstellen, die konsistent mit dem Zielhintergrund und der Textbeschreibung übereinstimmen, ohne durch bestimmte Bewegungstypen oder minimale globale Bewegungen eingeschränkt zu sein. Dies erweitert den Anwendungsbereich gegenüber bisherigen Ansätzen, die entweder nur auf Textprompts basieren oder 3D-Szenen benötigen, erheblich.

Herausforderungen und Lösungsansätze

Die Umsetzung dieses neuartigen Ansatzes bringt einige Herausforderungen mit sich. Erstens erfordert das Training des Modells einen Datensatz mit menschlichen Bewegungssequenzen, Textbeschreibungen der Bewegung und Bildern, die den Hintergrund darstellen. Zweitens ist es unklar, wie das Netzwerk effektiv auf Text- und Szenenbildeeingaben konditioniert werden kann.

Um diesen Herausforderungen zu begegnen, wurde ein großer Videodatensatz aus internen Datenquellen von Open-Domain-Internetvideos zusammengestellt. Die Videos wurden gefiltert, um einen statischen Hintergrund zu gewährleisten, sodass jeder ausgewählte Frame die Szene während der gesamten Bewegungssequenz zuverlässig darstellen kann. Die menschliche Bewegung wurde mithilfe eines modernen 3D-Posenschätzungsverfahrens kommentiert. Inspiriert vom In-Context-Learning in großen Sprachmodellen (LLMs) wird eine ähnliche Strategie verwendet, um Szenen- und Texteingaben in einen gemeinsamen Token-Raum zu konvertieren und sie in ein Transformer-basiertes Diffusionsmodell für die Ausgabe zu integrieren.

Vorteile der 2D-Konditionierung

Die Konditionierung auf 2D-Bilder bietet mehrere Vorteile. Ein einzelnes 2D-Szenenbild liefert semantische Informationen und Informationen zum räumlichen Layout der Zielumgebung aus einer 2D-Perspektive. Dies ermöglicht die Generierung von menschlicher Bewegung, die der Umgebung entspricht, ohne dass eine 3D-Szenenrekonstruktion erforderlich ist, insbesondere in Fällen, in denen die Bewegung letztendlich wieder auf eine 2D-Ebene projiziert werden soll, z. B. bei der Videogenerierung.

Darüber hinaus ermöglicht die Konditionierung auf 2D-Bilder eine größere Vielfalt an verfügbaren Szenen, da zahlreiche Online-Videos menschliche Aktivitäten in verschiedenen Umgebungen enthalten. Beispielsweise können Außenszenen, die mit 3D-Bewegungserzeugungsnetzwerken nur schwer zu verwenden sind, einfach als 2D-Bilder dargestellt und vom vorgeschlagenen Ansatz verarbeitet werden.

Anwendung und Ausblick

Die generierten Bewegungssequenzen können die Qualität der menschlichen Bewegung bei der Videogenerierung verbessern. Experimente haben gezeigt, dass diese Methode menschliche Bewegungen effektiv vorhersagt, die nach der Projektion mit dem Szenenbild übereinstimmen. Die 2D-basierte Bewegungserzeugung eröffnet neue Möglichkeiten für realistischere und vielfältigere menschliche Bewegungen in virtuellen Umgebungen. Zukünftige Forschung könnte sich auf die Verbesserung der Datensätze und die Verfeinerung der Algorithmen konzentrieren, um noch überzeugendere Ergebnisse zu erzielen.

Bibliographie Huang, H.-P., Zhou, Y., Wang, J.-H., Liu, D., Liu, F., Yang, M.-H., & Xu, Z. (2024). Move-in-2D: 2D-Conditioned Human Motion Generation. arXiv preprint arXiv:2412.13185. https://arxiv.org/abs/2412.13185 https://arxiv.org/html/2412.13185v1 https://www.catalyzex.com/paper/move-in-2d-2d-conditioned-human-motion https://arxiv-sanity-lite.com/?rank=pid&pid=2412.13185 https://www.zhuanzhi.ai/paper/bb8d40794428ccf5d83767b378c20704 https://www.researchgate.net/publication/387141095_Motion-2-to-3_Leveraging_2D_Motion_Data_to_Boost_3D_Motion_Generation https://holistic-motion2d.github.io/?ref=aiartweekly https://openaccess.thecvf.com/content/WACV2024/papers/Ribeiro-Gomes_MotionGPT_Human_Motion_Synthesis_With_Improved_Diversity_and_Realism_via_WACV_2024_paper.pdf https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00100.pdf https://paperreading.club/page?id=273502
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.