Fortschritte in der Entwicklung steuerbarer fotorealistischer Codec Avatare

Kategorien:

No items found.

Freigegeben:

August 30, 2024

Neues Modell für realistische und steuerbare Codec-Avatare

Einführung

Die Generierung von hochqualitativen menschlichen Gesichtsmodellen hat zahlreiche Anwendungen in der Spiele- und Filmindustrie. In jüngster Zeit haben soziale Telepräsenzanwendungen in der virtuellen Realität (VR) und in der gemischten Realität (MR) neue Anforderungen an hochgenaue und authentische Avatare gestellt, die durch die Eingabe von Benutzerausdrücken gesteuert werden können. Diese Avatare spielen eine entscheidende Rolle bei der Verbesserung der Benutzererfahrung und des Eintauchens in VR und MR, was ihre Entwicklung zu einem bedeutenden Interessensgebiet macht.

Aktuelle Methoden und deren Einschränkungen

Die derzeitigen Methoden zur Erstellung von 3D-Avataren lassen sich in rekonstruktionsbasierte und generative Ansätze unterteilen. Rekonstruktionsbasierte Methoden, wie die Codec-Avatar-Familie von Arbeiten, stellen hochgradig fotorealistische 3D-Avatare wieder her, stützen sich jedoch meist auf umfangreiche Mehrblickaufnahmen realer Menschen. Diese Methoden erfordern zudem einen langwierigen Rekonstruktionsprozess.

Generative Modelle, insbesondere bedingte Diffusionsmodelle, haben bemerkenswerte Fähigkeiten bei der Generierung hochqualitativer fotorealistischer Bilder aus verschiedenen bedingten Signalen gezeigt. Diese 2D-Bildgenerierungsmodelle können verwendet werden, um 3D-Avatare zu generieren, und haben vielversprechende Ergebnisse bei der Generierung und Bearbeitung hochqualitativer Avatare aus Textbeschreibungen gezeigt. Dennoch sind die generierten Avatare nicht fotorealistisch und haben nur begrenzte Vollständigkeit in Bereichen wie Augen, Mundinneres, Haare und tragbare Accessoires.

Die Notwendigkeit eines neuen Ansatzes

Um diese Einschränkungen zu überwinden, haben Forscher ein textbedingtes generatives Modell vorgeschlagen, das fotorealistische Gesichtsavatare mit vielfältigen Identitäten und vollständigeren Details wie Haaren, Augen und Mundinnerem erzeugen kann. Diese Avatare können durch einen leistungsstarken nicht-parametrischen latenten Ausdrucksraum gesteuert werden. Das Modell integriert die generativen und bearbeitenden Fähigkeiten von latenten Diffusionsmodellen mit einem starken vorhergehenden Modell für das Ansteuern der Avatarausdrücke.

Das GenCA-Modell

Überblick

Das GenCA-Modell (Generative Codec Avatars) ist ein zweistufiges Framework zur Generierung steuerbarer 3D-Avatare nur anhand von Textbeschreibungen. In der ersten Phase wird ein Codec-Avatar-Autoencoder (CAAE) eingeführt, der Geometrie- und Textur-Latenträume aus einem Datensatz von 3D-Menschenaufnahmen lernt. Diese Latenträume modellieren die Identitätsverteilung von Avataren und werden mit einem Ausdrucks-Latentraum aus einem universellen vorhergehenden Modell (UPM) kombiniert.

Identitätsgenerationsmodell

In der zweiten Phase wird das Identitätsgenerationsmodell vorgestellt. Hier lernt das Geometriegenerationsmodul, den neutralen Geometriecode basierend auf dem Eingabetext-Prompt zu generieren, während das Geometriebedingte Texturgenerationsmodul lernt, die neutrale Textur basierend sowohl auf der Geometrie als auch auf dem Text zu generieren. Die generierten steuerbaren Avatare erfassen eine weitaus vollständigere Darstellung menschlicher Köpfe im Vergleich zu früheren generativen steuerbaren Avataren.

Anwendungen und Potenzial

Das GenCA-Modell zeigt eine Vielzahl von Anwendungen, einschließlich der 3D-Avatar-Rekonstruktion aus einem einzigen Bild, der Avatar-Bearbeitung und der Inpainting. Es ermöglicht eine fotorealistische, editierbare und freie Form der steuerbaren 3D-Avatar-Generierung. Die vorgestellten Avatare können auch aus einem einzigen Bild in freier Wildbahn rekonstruiert werden, was ihre praktische Anwendbarkeit in realen Szenarien unterstreicht.

Vergleich mit anderen Methoden

Im Vergleich zu anderen Methoden hebt sich das GenCA-Modell durch seine Fähigkeit zur Generierung fotorealistischer und vollständig steuerbarer Avatare ab. Während andere Methoden entweder in der Generativität, der Fotorealität, der Vollständigkeit oder der Steuerbarkeit Kompromisse eingehen, vereint GenCA all diese Aspekte in einem Modell.

Tabelle 1: Vergleich zwischen GenCA und anderen Methoden

- PanoHead: Generativ, Fotoreal, Vollständig, Nicht steuerbar, Editierbar - RODIN: Generativ, Nicht fotoreal, Vollständig, Nicht steuerbar, Editierbar - ICA: Nicht generativ, Fotoreal, Vollständig, Steuerbar, Nicht editierbar - INSTA: Nicht generativ, Fotoreal, Vollständig, Steuerbar, Nicht editierbar - Describ3D: Generativ, Nicht fotoreal, Nicht vollständig, Steuerbar, Editierbar - TADA: Nicht generativ, Nicht fotoreal, Nicht vollständig, Steuerbar, Editierbar - DreamFace: Nicht generativ, Fotoreal, Nicht vollständig, Steuerbar, Editierbar - GenCA (unseres): Generativ, Fotoreal, Vollständig, Steuerbar, Editierbar

Fazit

Die Entwicklung von fotorealistischen und steuerbaren 3D-Avataren hat das Potenzial, die Art und Weise, wie wir mit virtuellen Welten und Anwendungen interagieren, erheblich zu verändern. Das GenCA-Modell stellt einen bedeutenden Fortschritt in diesem Bereich dar, indem es die Generierung und Steuerung hochqualitativer Avatare ermöglicht und gleichzeitig vielseitige Anwendungen wie Avatar-Bearbeitung und Einzelbildrekonstruktion unterstützt.

Bibliographie

- https://www.arxiv.org/abs/2408.13674 - https://arxiv.org/html/2408.13674v1 - https://research.facebook.com/publications/pixel-codec-avatars/ - https://pages.iai.uni-bonn.de/gall_juergen/download/richard_audio_and_gaze_driven_codec_avatars.pdf

Was bedeutet das?