Fortschritte in der dynamischen Ansichtssynthese durch KI-gestützte Computer Vision

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

00:00 / 00:00

In der Welt der Computer Vision hat die Synthese neuer Ansichten aus monokularen Videos unter Einsatz von Künstlicher Intelligenz beachtliche Fortschritte erzielt. Diese Technologie, bekannt als die dynamische Synthese neuer Ansichten (Dynamic Novel View Synthesis, DVS), hat das Potenzial, die Art und Weise, wie wir digitale Inhalte interaktiv erleben und manipulieren, grundlegend zu verändern. Das Unternehmen Snap hat kürzlich eine bahnbrechende Methode vorgestellt, die auf Diffusionspriorisierungen basiert und die Fähigkeit zur dynamischen Ansichtssynthese aus monokularen Videos erheblich verbessert.

Bisherige Methoden zur dynamischen Ansichtssynthese stießen auf wesentliche Herausforderungen, insbesondere bei der Unterscheidung zwischen Bewegung und Struktur in Szenen, bei denen die Kamerapositionen unbekannt sind oder sich im Vergleich zur Objektbewegung nur eingeschränkt verändern. Dieses Problem wird noch komplexer, wenn es darum geht, Bereiche, die in den gegebenen Videos verdeckt oder nur teilweise zu sehen sind, neu zu imaginieren und zu rekonstruieren.

Um diesen Herausforderungen zu begegnen, hat Snap eine Technik entwickelt, die zunächst ein vortrainiertes RGB-D-Diffusionsmodell auf Videoaufnahmen mit einer speziellen Anpassungstechnik feinabstimmt. Anschließend wird das Wissen aus dem feinabgestimmten Modell in eine 4D-Darstellung überführt, die sowohl dynamische als auch statische Komponenten der Neural Radiance Fields (NeRF) umfasst. Durch diese Vorgehensweise wird eine geometrische Konsistenz erreicht, während gleichzeitig die Identität der Szene erhalten bleibt.

Die Wirksamkeit der vorgeschlagenen Methode wurde sowohl qualitativ als auch quantitativ durch umfassende Experimente bewertet. Die Ergebnisse zeigen, dass der Ansatz von Snap in schwierigen Fällen sowohl robust als auch praktisch ist und die Technologie der dynamischen Ansichtssynthese weiter vorantreibt.

Parallel zu Snaps Forschung haben Wissenschaftler an der Entwicklung von Protokollen und Metriken gearbeitet, um die Fortschritte bei der dynamischen Ansichtssynthese aus monokularen Videos zu bewerten. Kürzlich wurde eine Studie veröffentlicht, die aufzeigt, dass es eine Diskrepanz zwischen dem praktischen Aufnahmeprozess und den bestehenden experimentellen Protokollen gibt, die unbeabsichtigt Signale aus Mehrfachansichten während des Trainings durchsickern lassen.

Um diese Diskrepanz zu quantifizieren, haben Forscher sogenannte "Effective Multi-View Factors" (EMFs) eingeführt. Diese Faktoren messen, wie viel Signal von Mehrfachansichten in der Eingabesequenz vorhanden ist, basierend auf der relativen Bewegung zwischen Kamera und Szene. Darüber hinaus wurden zwei neue Metriken eingeführt: maskierte Bildmetriken und Korrespondenzgenauigkeit, um die Probleme bestehender Protokolle zu überwinden.

Die Forscher stellten auch einen neuen iPhone-Datensatz vor, der vielfältigere realitätsnahe Verformungssequenzen enthält. Unter Verwendung des neuen experimentellen Protokolls wurde festgestellt, dass die modernsten Ansätze einen Rückgang von 1-2 dB in der maskierten PSNR (Peak Signal-to-Noise Ratio) verzeichnen, wenn keine Hinweise auf Mehrfachansichten vorhanden sind und einen Rückgang von 4-5 dB bei der Modellierung komplexer Bewegungen.

Die Forschung im Bereich der dynamischen Ansichtssynthese steht noch am Anfang. Die neuesten Durchbrüche, wie sie von Snap und anderen Forschungsteams vorgestellt wurden, signalisieren jedoch eine spannende Zukunft für interaktive Medien, Augmented Reality und verwandte Anwendungen. Mit einer genaueren und zuverlässigeren Methode zur Erstellung dynamischer 3D-Szenen aus monokularen Videos wird die digitale Welt noch immersiver und zugänglicher.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.