Meta präsentiert fotorealistische Avatare durch Audioanalyse

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

Die neueste Entwicklung von Meta: Erzeugung fotorealistischer Avatare aus Audiodaten

In einer Welt, in der digitale Technologien immer weiter fortgeschritten sind, steht uns eine bahnbrechende Neuerung bevor. Die Forschungsabteilung von Meta, bekannt für ihre innovativen Beiträge zur künstlichen Intelligenz und virtuellen Realität, hat in Zusammenarbeit mit der University of California, Berkeley, eine bemerkenswerte Technologie entwickelt: ein System, das in der Lage ist, auf Grundlage von Audiodateien einer dyadischen Konversation, fotorealistische Darstellungen von Gesichtern, Körpern und Handbewegungen zu generieren.

Diese Technologie, die unter dem Namen "Audio2Photoreal" bekannt ist, verspricht, die Art und Weise, wie wir mit digitalen Inhalten interagieren, zu revolutionieren. Die Forscher haben ein spezielles Rahmenwerk vorgestellt, das vollständige fotorealistische Avatare erzeugt, die sich entsprechend der Dynamik eines Gesprächs zwischen zwei Personen bewegen können. Mithilfe von Audioaufnahmen werden mehrere Möglichkeiten von Gesten und Bewegungen des Gesichts, Körpers und der Hände generiert.

Der Schlüssel zu dieser Methode liegt in der Kombination aus der Vielfalt der Bewegungsmuster, die durch Vektorquantisierung (VQ) erreicht wird, und den hochfrequenten Details, die durch Diffusionsprozesse erzeugt werden. Dies ermöglicht es, dynamischere und ausdrucksstärkere Bewegungen zu erzeugen. Die visualisierten Bewegungen werden mit Hilfe von hochgradig fotorealistischen Avataren dargestellt, die in der Lage sind, entscheidende Feinheiten in Gesten - wie etwa Spötteleien und Grinsen - auszudrücken.

Um diese Forschungsrichtung voranzutreiben, haben die Wissenschaftler ein neuartiges, vielversprechendes Multi-View-Konversationsdatenset eingeführt, welches fotorealistische Rekonstruktionen ermöglicht. Tests und Experimente zeigten, dass das Modell angemessene und vielfältige Gesten erzeugen kann, und dabei sowohl reine Diffusions- als auch VQ-basierte Methoden übertrifft. Eine wahrgenommene Evaluation hob hervor, wie wichtig der Fotorealismus im Vergleich zu Mesh-Modellen ist, um subtile Bewegungsdetails in Gesprächsgesten genau beurteilen zu können.

Die Methode besteht aus mehreren Schritten, beginnend mit der Aufnahme eines reichen Datensatzes von dyadischen Konversationen, über die Vorhersage von Leitposen bis hin zur Generierung von Gesichts- und Körperbewegungen, die mithilfe eines vorab trainierten Diffusionsmodells und Audiodaten erzeugt werden. Schließlich werden die generierten Bewegungen in ein fotorealistisches Avatar-Rendering-System eingespeist.

Das Endergebnis ist beeindruckend: Die Avatare zeigen Spitzenbewegungen, wie Zeigen, Handgelenk-Schnippen und Schulterzucken, die in der Realität einer Konversation auftreten können. Im Vergleich zu bisherigen Stand-der-Technik-Methoden generiert der Ansatz von Meta dynamischere und ausdrucksstärkere Bewegungen, die als plausibler und lebensechter wahrgenommen werden.

Die Anwendungen dieser Technologie sind vielfältig und reichen von der Verbesserung virtueller Treffen und Konferenzen über die Erstellung von Inhalten für soziale Medien bis hin zur Entwicklung von Lehr- und Trainingsprogrammen. Die von Meta entwickelte Methode ist darüber hinaus in der Lage, beliebige Audiodaten zu verarbeiten, beispielsweise die aus einem Fernsehclip, und könnte somit in der Unterhaltungsindustrie für die Animation von Charakteren genutzt werden.

Ein weiterer bedeutender Aspekt dieser Technologie ist die Bedeutung des Fotorealismus. Die Forscher stellten fest, dass die fotorealistische Darstellung die Genauigkeit der Bewertung von Gesprächsbewegungen wesentlich verbessert. Während die Leistung des Systems im Mesh-basierten Rendering mit der des Ground Truth vergleichbar ist, zeigte sich, dass im fotorealistischen Bereich Evaluatoren deutlich den Ground Truth bevorzugten. Dies deutet darauf hin, dass der Fotorealismus entscheidend ist, um die Nuancen von Gesprächsgesten genau zu bewerten.

Die Ergebnisse dieser Forschung bieten einen faszinierenden Einblick in die Zukunft der digitalen Kommunikation und Interaktion. Mit der Veröffentlichung des Codes und des Datensatzes gibt Meta der wissenschaftlichen Gemeinschaft und Entwicklern die Möglichkeit, auf dieser bahnbrechenden Arbeit aufzubauen und weitere Anwendungen zu erforschen, die das Potenzial haben, die Art und Weise, wie wir digitale Inhalte erleben und mit ihnen interagieren, grundlegend zu verändern.

Was bedeutet das?