Audio2Photoreal: Metas Sprung in die Zukunft photorealistischer KI-Avatare

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

In einer beeindruckenden Demonstration der Fortschritte im Bereich der künstlichen Intelligenz hat Meta, in Zusammenarbeit mit Forschern der Universität von Kalifornien in Berkeley, eine Technologie vorgestellt, die in der Lage ist, aus dem Audio einer dyadischen Konversation photorealistische Gesichter, Körper und Handgesten zu generieren. Dieses Projekt, welches unter dem Namen "Audio2Photoreal" bekannt wurde, ist ein bedeutender Schritt in die Zukunft der digitalen Kommunikation und Interaktion.

Die Grundlage dieser Technologie bildet ein neuartiges Framework, das es ermöglicht, vollständige photorealistische Avatare zu erstellen, die sich gemäß den dynamischen Aspekten einer Zweisprachinteraktion verhalten. Ausgehend von Sprachaudio werden mehrere Möglichkeiten von Gestik für eine Person kreiert, einschließlich Gesicht, Körper und Hände. Der Clou an dieser Methode liegt in der Kombination aus der Vielfalt der Stichproben durch Vektorquantisierung und den hochfrequenten Details, die durch Diffusion erzeugt werden, um dynamischere und ausdrucksvollere Bewegungen zu generieren.

Um dies zu erreichen, haben die Forscher einen neuartigen und reichhaltigen Datensatz dyadischer Konversationen aufgezeichnet, der photorealistische Rekonstruktionen ermöglicht. Dieser Datensatz ist der erste seiner Art und stellt eine wichtige Ressource für die Weiterentwicklung dieser Forschungslinie dar. Die Experimente haben gezeigt, dass das Modell angemessene und vielfältige Gesten generiert und dabei sowohl Diffusions- als auch VQ-basierte Methoden übertrifft.

Das Herzstück des Prozesses bildet ein Motion-Modell, das sich aus drei Teilen zusammensetzt: einem Gesichtsbewegungsmodell, einem Leitposen-Vorhersagegerät und einem Körperbewegungsmodell. Mithilfe eines vorab trainierten Lippenregressors und dem gegebenen Audio wird ein bedingtes Diffusionsmodell trainiert, um Gesichtsbewegungen zu erzeugen. Für die Körperbewegungen werden Audioeingaben verwendet, um VQ-kodierte Leitposen autoregressiv bei einer Bildrate von 1 fps zu erzeugen. Anschließend werden sowohl Audio als auch Leitposen in ein Diffusionsmodell eingespeist, das hochfrequente Körperbewegungen bei 30 fps auffüllt. Die generierten Gesichts- und Körperbewegungen werden dann in einen trainierten Avatar-Renderer überführt, um einen photorealistischen Avatar zu erzeugen.

Die visuelle Darstellung der generierten Bewegungen verwendet hochgradig photorealistische Avatare, die in der Lage sind, entscheidende Nuancen in Gesten auszudrücken, wie zum Beispiel spöttisches Grinsen oder schiefes Lächeln. Die Wahrnehmungsbewertung durch die Forscher hat die Bedeutung von Photorealismus hervorgehoben – im Gegensatz zu einfachen Mesh-Modellen – um subtile Bewegungsdetails in konversationalen Gesten genau zu bewerten.

Das System ist nicht nur auf die Stimmen der Autoren beschränkt, sondern kann auch auf beliebige Audiodaten angewendet werden, beispielsweise aus TV-Clips. Die groben Leitposen können für nachgelagerte Anwendungen wie Bewegungseditierung verwendet werden. In einer A/B-Wahrnehmungsbewertung hat das System im Vergleich zum stärksten Baseline-Modell sowie zur Ground Truth besser abgeschnitten. Interessanterweise hat sich die Präferenz der Bewerter von leicht bis stark zu Gunsten des neuen Systems verschoben, wenn es in einer photorealistischen Art visualisiert wurde.

Die Ergebnisse legen nahe, dass Photorealismus wesentlich ist, um konversationelle Bewegungen genau zu evaluieren. Während Mesh-basierte Darstellungen oft subtile Bewegungsdetails verdecken und zu einer milderen Bewertung von "falschen" Bewegungen führen, ermöglicht die photorealistische Darstellung eine präzisere Beurteilung.

Die Anwendungen dieser Technologie sind vielfältig und könnten die Art und Weise, wie wir mit digitalen Inhalten interagieren, grundlegend verändern. Von verbesserten digitalen Assistenten über realistischere virtuelle Charaktere in Filmen und Spielen bis hin zu fortschrittlichen Kommunikationsplattformen, die den emotionalen Ausdruck in der digitalen Welt bereichern – die Möglichkeiten scheinen grenzenlos.

Das Forscherteam hat angekündigt, den Code und den Datensatz öffentlich zur Verfügung zu stellen, um die Forschung in diesem Bereich voranzutreiben und die Entwicklung von Anwendungen zu erleichtern. Dies ist ein klares Zeichen dafür, dass Meta und die beteiligten Forschungseinrichtungen nicht nur bahnbrechende Arbeit leisten, sondern auch auf eine offene und kollaborative Forschungslandschaft setzen, die das gesamte Feld voranbringt.

Audio2Photoreal steht somit exemplarisch für den aufregenden Fortschritt der KI-Forschung und die sich daraus ergebenden neuen Möglichkeiten, die unser Leben in den kommenden Jahren bereichern und verändern könnten.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.

No items found.