Digitale Transformation: Die Erstellung realistischer 3D-Menschenmodelle aus einem Foto

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

Die Digitalisierung von Menschen in 3D aus nur einer einzigen Aufnahme ist eine Herausforderung, die Forscher und Entwickler seit Jahren zu meistern versuchen. Nun scheint es, dass es einen bedeutenden Fortschritt in diesem Bereich gegeben hat. Ein Team von Wissenschaftlern hat ein neues Verfahren entwickelt, das es ermöglicht, hochrealistische digitale 3D-Modelle von Menschen zu erstellen, indem es nur auf ein einziges Bild angewiesen ist. Dieser Durchbruch könnte weitreichende Implikationen in verschiedenen Bereichen wie der virtuellen Realität, der Computerspieleindustrie und der Filmproduktion haben.

Das neue Modell, bekannt als Human-LRM (Human Large Reconstruction Model), nutzt eine Single-Stage Feed-Forward-Architektur, die in der Lage ist, menschliche Neural Radiance Fields (NeRF) aus nur einem einzigen Bild vorherzusagen. NeRFs sind eine relativ neue Technik im Bereich des maschinellen Lernens, die es ermöglicht, komplexe Szenen und Objekte in einem dreidimensionalen Raum zu modellieren, indem sie die Lichtverteilung und die Geometrie der Szene lernen.

Die Forscher trainierten ihr Modell mit umfangreichen Datensätzen, die 3D-Scans und Mehrfachansichten von Menschen umfassten. Die große Herausforderung bei der Erstellung von 3D-Modellen aus einer einzigen Ansicht ist, dass viele Bereiche des menschlichen Körpers verdeckt sein können und somit Informationen fehlen, die für eine vollständige Rekonstruktion erforderlich sind. Um dieses Problem zu überwinden, schlugen die Entwickler eine neuartige Strategie vor, die Multi-View-Rekonstruktionen in Einzelbildrekonstruktionen destilliert, indem sie ein bedingtes Triplane-Diffusionsmodell verwenden. Dieser generative Ansatz berücksichtigt die natürlichen Variationen der menschlichen Körperformen und ermöglicht es, das vollständige menschliche Modell selbst aus Bildern mit Verdeckungen zu rekonstruieren.

In umfangreichen Experimenten zeigte das Human-LRM-Modell, dass es frühere Methoden deutlich übertreffen kann. Dies gilt für mehrere Benchmarks, die die Genauigkeit und Realitätsnähe der erzeugten 3D-Modelle bewerten. Dabei ist besonders bemerkenswert, dass das Modell auch in der Lage ist, mit den unterschiedlichsten Kleidungsstilen und Texturen umzugehen, was die Anwendung in realen Szenarien erheblich verbessert.

Ein weiterer Ansatz, der in der Forschungsgemeinschaft Aufmerksamkeit erregt hat, ist die Verwendung von hochkapazitiven 2D-Diffusionsmodellen. Diese wurden ursprünglich für allgemeine Bildsyntheseaufgaben vorbereitet und dienen nun als Erscheinungsbild-Vorlage für bekleidete Menschen. Um eine bessere 3D-Konsistenz bei gleichzeitiger Beibehaltung der Identität der Eingabedaten zu erreichen, werden mit diesem Ansatz mehrere Ansichten der Person im Eingabebild progressiv synthetisiert. Die fehlenden Regionen werden mit einem formgeleiteten Diffusionsverfahren gefüllt, das auf Silhouette und Oberflächennormalen basiert. Diese synthetisierten Mehrfachansichten werden dann über inverses Rendering verschmolzen, um ein vollständig texturiertes, hochauflösendes 3D-Modell der dargestellten Person zu erhalten.

Zusätzlich zu diesen fortschrittlichen Modellen wurde auch ein weiterer bedeutender Fortschritt erzielt – die NeuMan-Methode, die es ermöglicht, detaillierte 3D-Modelle von Menschen aus nur einem kurzen Videoclip zu erstellen. Durch das Training zweier NeRF-Modelle, eines für den Menschen und eines für die Szene, gelingt es, präzise Renderings des Menschen in neuen Posen und aus neuen Blickwinkeln zu erzeugen, und zwar in einer Qualität, die zuvor nicht möglich war.

Während die oben genannten Methoden beeindruckende Ergebnisse liefern, gibt es auch Ansätze, die sich auf die Erstellung hochauflösender 3D-Modelle aus 2K-Bildern konzentrieren. Das 2K2K-Verfahren konstruiert einen umfangreichen 2K-Menschendatensatz und leitet daraus 3D-Modelle von Menschen ab. Hier werden zunächst die globale Form und dann die Details des Menschen separat rekonstruiert. Mit einem Netzwerk für hochauflösende Tiefenkarten werden dann die globalen 3D-Formen und die Detailstrukturen zu hochauflösenden Tiefenkarten der Vorder- und Rückseite des Menschen kombiniert.

Die Entwicklungen auf diesem Gebiet sind rasant und die Anwendungen vielfältig. Von der Erstellung realistischer Avatare für soziale Medien bis hin zur Produktion von Filmen und Spielen, bei denen digitale Doubles zum Einsatz kommen, eröffnen sich neue Möglichkeiten für Kreativität und Interaktion. Es ist spannend zu beobachten, wie sich die Technologie weiterentwickelt und welche neuen Anwendungsfälle in den kommenden Jahren entstehen werden.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.