In den letzten Jahren hat die Entwicklung fotorealistischer und steuerbarer 3D-Avatare, die ausschließlich aus Videos realer Menschen erstellt werden, erhebliche Fortschritte gemacht. Dennoch bleibt die feingranulare und benutzerfreundliche Bearbeitung von Kleidungsstilen mittels textueller Beschreibungen eine zentrale Herausforderung. Hier kommt TEDRA ins Spiel, die erste Methode, die textbasierte Bearbeitungen eines Avatars ermöglicht und dabei die hohe Detailtreue, Raum-Zeit-Kohärenz sowie Dynamik des Avatars bewahrt. TEDRA ermöglicht zudem die Steuerung der Skelettpose und der Ansicht.
Die Grundlage von TEDRA bildet ein zweistufiger Prozess. Zuerst wird ein Modell trainiert, das eine steuerbare und hochauflösende digitale Replik des realen Schauspielers erstellt. Danach wird ein vortrainiertes generatives Diffusionsmodell personalisiert und an verschiedenen Frames des realen Charakters aus unterschiedlichen Kamerawinkeln feinabgestimmt. Dies stellt sicher, dass die digitale Darstellung die Dynamik und Bewegungen der realen Person originalgetreu wiedergibt.
Durch die Nutzung dieses personalisierten Diffusionsmodells kann der dynamische Avatar basierend auf einem bereitgestellten Text-Prompt modifiziert werden. Dies geschieht mittels eines Verfahrens namens Personalized Normal Aligned Score Distillation Sampling (PNA-SDS) innerhalb eines modellbasierten Leitrahmens. Zudem wird eine Zeitschritt-Abklingstrategie vorgeschlagen, um qualitativ hochwertige Bearbeitungen sicherzustellen.
Die feingranulare Bearbeitung von dynamischen Avataren stellt eine besondere Herausforderung dar, da sowohl die räumliche als auch die zeitliche Konsistenz gewahrt bleiben muss. TEDRA adressiert diese Problematik durch eine sorgfältige Modellierung und Feinabstimmung der Bewegungsabläufe und dynamischen Eigenschaften des Avatars.
Ein weiterer wichtiger Aspekt ist die Benutzerfreundlichkeit. Die Methode ermöglicht es den Nutzern, mittels einfacher textueller Eingaben komplexe Änderungen an den Avataren vorzunehmen, was die Anwendungsmöglichkeiten erheblich erweitert.
Im Vergleich zu früheren Ansätzen zeigt TEDRA deutliche Verbesserungen sowohl in der Funktionalität als auch in der visuellen Qualität. Frühere Methoden zur Bearbeitung von Sprechvideos basierten häufig auf aufwendigen Trainingsprozessen und großen Datensätzen. TEDRA hingegen vereinfacht diesen Prozess erheblich und ermöglicht eine präzisere und konsistentere Bearbeitung.
Die Möglichkeiten der Anwendung von TEDRA sind vielfältig. Von der Filmproduktion über die Werbeindustrie bis hin zur Erstellung digitaler Avatare für virtuelle Welten – die Technologie bietet zahlreiche Einsatzmöglichkeiten.
TEDRA stellt einen bedeutenden Fortschritt in der Bearbeitung von dynamischen und fotorealistischen Avataren dar. Durch die Kombination von hochauflösenden digitalen Repliken, personalisierten Diffusionsmodellen und benutzerfreundlichen textuellen Eingaben bietet die Methode eine leistungsstarke Lösung für die Herausforderungen der digitalen Avatar-Bearbeitung.