Fortschritte in der 3D-Gesichtsanimation durch synthetisierte Sprachinteraktion

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Die Erzeugung von 3D-Gesichtsanimationen aus gesprochener Sprache ist ein Forschungsgebiet, das in den letzten Jahren zunehmend an Bedeutung gewonnen hat. Ein zentraler Aspekt dieser Technologie ist die Fähigkeit, emotionale Ausdrücke und Kopfbewegungen zu simulieren, die mit der gesprochenen Sprache synchronisiert sind. Dies hat weitreichende Anwendungen in der Unterhaltungsindustrie, im Bereich der virtuellen Assistenten und in der Kommunikation mit gehörlosen oder schwerhörigen Menschen.

Ein Hauptproblem bei der Erstellung solcher Animationen ist der Mangel an hochwertigen 4D-Gesichtsdaten und umfangreich annotierten Multimodalitätslabels. Frühere Methoden stießen aufgrund dieser Beschränkungen häufig an Grenzen der Realitätsnähe und Flexibilität.

Forscher haben nun einen neuen Ansatz vorgestellt, der als Media2Face bezeichnet wird und der dieses Problem durch einen dreiteiligen Prozess angeht. Der erste Schritt beinhaltet die Einführung des Generalized Neural Parametric Facial Asset (GNPFA), eines effizienten variational auto-encoders. Dieser kartiert Gesichtsgeometrie und -bilder in einen hochgradig generalisierten latenten Ausdrucksraum, wodurch Ausdrücke und Identitäten voneinander entkoppelt werden.

Im nächsten Schritt nutzt das Team den GNPFA, um hochwertige Ausdrücke und genaue Kopfpositionen aus einer Vielzahl von Videos zu extrahieren. Dabei entstand der M2F-D-Datensatz, eine große und vielfältige Sammlung von co-speech 3D-Gesichtsanimationen auf Scan-Niveau, die mit emotionalen und stilistischen Labels gut annotiert sind.

Schließlich wurde das Media2Face-Modell entwickelt, ein Diffusionsmodell im latenten Raum des GNPFA, das für die Generierung von Gesichtsanimationen auf der Grundlage von Sprache entwickelt wurde. Es akzeptiert umfangreiche multimodale Anleitungen aus Audio, Text und Bild. Umfangreiche Experimente haben gezeigt, dass dieses Modell nicht nur eine hohe Treue in der Synthese von Gesichtsanimationen erreicht, sondern auch den Bereich der Ausdrucksmöglichkeiten und der stilistischen Anpassungsfähigkeit in der 3D-Gesichtsanimation erweitert.

Ein weiterer Ansatz, der PMMTalk genannt wird, nutzt Pseudo-Multimodal-Funktionen, um die Genauigkeit der Gesichtsanimation zu verbessern. Dieses Framework beinhaltet drei Module: einen PMMTalk-Encoder, ein Modul zur Ausrichtung über verschiedene Modalitäten und einen PMMTalk-Decoder. Der PMMTalk-Encoder verwendet eine vorhandene Architektur zur Erzeugung von sprechenden Köpfen und Spracherkennungstechnologie, um visuelle und textuelle Informationen aus Sprache zu extrahieren. Anschließend synchronisiert das Modul die Audio-Bild-Text-Funktionen zeitlich und semantisch. Der PMMTalk-Decoder wird dann eingesetzt, um die Lippenbewegungen vorherzusagen. Im Gegensatz zu früheren Methoden benötigt PMMTalk lediglich ein zusätzliches zufälliges Referenzgesichtsbild, liefert jedoch genauere Ergebnisse. Darüber hinaus ist es benutzerfreundlich, da es sich nahtlos in standardisierte Animationsproduktionsabläufe integrieren lässt, indem es Gesichtsblendshape-Koeffizienten einführt.

Angesichts des Mangels an 3D-Datensätzen für sprechende Gesichter wurde zudem ein umfangreicher 3D-Chinesischer Audio-Visueller Gesichtsanimationsdatensatz (3D-CAVFA) eingeführt. Umfassende Experimente und Benutzerstudien zeigen, dass dieser Ansatz den aktuellen Stand der Technik übertrifft.

Die Anwendungsmöglichkeiten dieser Technologien sind vielfältig und reichen von verbesserten Interaktionen mit digitalen Assistenten über realistischere Charaktere in Videospielen und Filmen bis hin zu neuen Wegen für die Kommunikation mit Menschen mit Hörbehinderungen. Mit fortschreitender Entwicklung dieser Technologien könnten wir in naher Zukunft eine noch stärkere Verschmelzung von digitalen und realen Interaktionen erleben.

Mindverse, als führendes Unternehmen im Bereich Künstliche Intelligenz, erkennt das Potenzial dieser Entwicklungen und die Bedeutung, die sie für die Erstellung von Inhalten und interaktiven Erfahrungen haben könnten. Durch die Bereitstellung von AI-Text-, Inhaltserstellungs-, Bild- und Forschungstools sowie maßgeschneiderten Lösungen wie Chatbots, Voicebots, AI-Suchmaschinen und Wissenssystemen strebt Mindverse danach, an der Spitze dieser innovativen Welle zu stehen und Unternehmen sowie Endverbraucher zu befähigen, das volle Potenzial der KI zu nutzen.

Was bedeutet das?
No items found.