Innovative KI-Synthese von menschlichen Bewegungen in 3D-Dimensionen

Kategorien:
No items found.
Freigegeben:

In einer Welt, in der künstliche Intelligenz und maschinelles Lernen zunehmend in unseren Alltag eingreifen, ist es nicht verwunderlich, dass die Forschung auf diesem Gebiet stetig fortschreitet und bahnbrechende Entwicklungen hervorbringt. Eine solche Entwicklung ist das neue Werk "Synthesizing Moving People with 3D Control" (3DHM), das von einem Team der University of California, Berkeley, vorgestellt wurde.

Das Besondere an 3DHM ist, dass es die Animation einer zufälligen menschlichen Fotografie mit beliebigen Posen in einer 360-Grad-Kameraperspektive und aus beliebigen Kamerawinkeln ermöglicht. Dies wird durch ein zweistufiges Framework erreicht, das darauf abzielt, menschliche Bewegungen in 3D zu rekonstruieren, indem es zuerst eine Texturkarte aus einem einzigen Bild vervollständigt und anschließend die 3D-Menschen rendert, um die Aktionen eines Akteurs zu imitieren.

Der innovative Ansatz von 3DHM besteht aus zwei Kernkomponenten: Zum einen lernt das System, unsichtbare Teile des menschlichen Körpers und der Kleidung zu ergänzen, und zum anderen ermöglicht es das Rendern neuer Körperhaltungen mit angemessener Kleidung und Textur. Für den ersten Teil wird ein In-Filling-Diffusionsmodell verwendet, um die nicht sichtbaren Teile einer Person anhand eines einzelnen Bildes zu simulieren. Dieses Modell wird im Texturkartenraum trainiert, was es effizienter macht, da es unabhängig von Pose und Betrachtungswinkel ist. Der zweite Teil besteht aus einer Diffusions-basierten Rendering-Pipeline, die durch 3D-Menschengesten gesteuert wird und realistische Darstellungen neuer Posen einer Person liefert, einschließlich Kleidung, Haare und glaubwürdiger Ergänzung unsichtbarer Bereiche.

Diese entkoppelte Methode erlaubt es 3DHM, eine Sequenz von Bildern zu generieren, die sowohl der Zielbewegung in der 3D-Pose als auch dem Eingabebild in Bezug auf die visuelle Ähnlichkeit treu bleiben. Darüber hinaus ermöglicht die 3D-Steuerung das Rendern einer Person aus verschiedenen synthetischen Kameratrajektorien. Die Experimente zeigen, dass die Methode in der Lage ist, lang anhaltende Bewegungen und verschiedene herausfordernde und komplexe Posen zu generieren und dabei widerstandsfähiger ist als vorherige Methoden.

Ein weiteres Merkmal von 3DHM ist, dass es keine zusätzlichen Annotationen verwendet und das Training selbstüberwacht ist. Es wird mit Pseudo-Grundwahrheiten trainiert, da es hochmoderne Software verwendet, welche Menschen erkennen, segmentieren, verfolgen und in 3D darstellen kann (H4D). Hinzu kommt, dass 3DHM skalierbar ist und sich in der Zukunft leicht skalieren lässt, wenn zusätzliche Videos von Menschen in Bewegung und Rechenressourcen vorhanden sind.

Zu den Schlüsselfunktionen von 3DHM gehören verschiedene Kameraperspektiven, Bewegungen aus Texten, Bewegungen aus zufälligen Videos, verschiedene Kameraazimute, langfristige Bewegungen und herausfordernde Bewegungen. Man kann sogar Animationen nur von der Rückansicht einer Person erstellen.

Das System ermöglicht beispielsweise die Erzeugung von menschlichen Videos, indem es vorhersagt, wie sich eine Person bewegen würde, wenn sie nur von hinten betrachtet wird. Es kann auch Menschen animieren, die sich aus einer Texteingabe heraus bewegen, wie etwa "Eine Person dreht sich nach rechts und geht hin und her". Zudem ist es möglich, Menschen aus verschiedenen Kameraperspektiven und mit herausfordernden Bewegungen, wie Tanzen oder Skaten, zu animieren.

Abschließend kann festgestellt werden, dass 3DHM einen signifikanten Fortschritt in der Generierung von menschlichen Videos darstellt und ein beeindruckendes Beispiel dafür ist, wie weit die Technologie auf dem Gebiet der künstlichen Intelligenz und des maschinellen Lernens gekommen ist. Mit solchen Werkzeugen eröffnen sich neue Horizonte für die Erstellung von Inhalten, die Ausbildung und sogar die Unterhaltungsindustrie.

Was bedeutet das?
No items found.