Von flachen Bildern zu räumlicher Tiefe: Diffusionsmodelle erobern die 3D-Welt

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In der Welt der künstlichen Intelligenz (KI) und des maschinellen Lernens haben sich Diffusionsmodelle als ein bedeutender Fortschritt in der Generierung von 2D-Bildern erwiesen. Diese Modelle nutzen stochastische Prozesse, um hochauflösende Bilder zu erzeugen, die auf Textbeschreibungen oder anderen Bildern basieren. Eine Herausforderung besteht jedoch darin, diese Technologie in die dritte Dimension zu erweitern und eine konsistente Multi-View-Bildgenerierung zu ermöglichen.

Ein vielversprechender Ansatz, der kürzlich in der Forschungsgemeinschaft diskutiert wurde, ist die Integration von 3D-Prioritäten in 2D-Diffusionsmodelle. Forscher haben Methoden entwickelt, um Diffusionsmodelle mit räumlichem Bewusstsein zu versehen, indem sie epipolare Einschränkungen und plucker'sche Positionscodierungen innerhalb der Selbst-Aufmerksamkeitsschichten dieser Generatoren einsetzen. Diese Techniken ermöglichen es, aus Textbeschreibungen oder einzelnen Bildern konsistente Multi-View-Bilder zu erzeugen.

SPAD, kurz für Spatially Aware Multiview Diffusers, ist ein solches innovatives Modell, das darauf abzielt, eine konsistente Multi-View-Bildgenerierung zu ermöglichen. Indem ein vortrainiertes 2D-Diffusionsmodell erweitert wird, kann SPAD aus Textaufforderungen oder einzelnen Bildern konsistente Multi-View-Bilder erzeugen.

Ein weiteres Modell, MVDD (Multi-View Depth Diffusion), zielt darauf ab, die Herausforderungen der 3D-Formgenerierung zu überwinden, indem es Multi-View-Tiefeninformationen verwendet. Diese Informationen repräsentieren komplexe 3D-Formen in einem 2D-Datenformat, das sich einfacher entrauschen lässt. MVDD ist in der Lage, dichte Punktwolken mit mehr als 20.000 Punkten zu erzeugen, die feine Details aufweisen. Durch die Einführung einer epipolaren Liniensegmentaufmerksamkeit, die den Entstörungsschritt einer Ansicht auf ihre benachbarten Ansichten konditioniert, sowie eines Tiefenfusionsmoduls, das in die Diffusionsschritte integriert wird, wird eine 3D-Konsistenz in Multi-View-Tiefeninformationen sichergestellt.

Ein weiteres Beispiel für einen Fortschritt in diesem Bereich ist SyncDreamer, ein Modell, das konsistente Bilder aus einem Einzelbildansicht generiert. SyncDreamer modelliert die gemeinsame Wahrscheinlichkeitsverteilung von Multi-View-Bildern und ermöglicht so die Generierung von konsistenten Bildern in einem einzigen Rückwärtsprozess. Eine 3D-aware Feature-Aufmerksamkeitsmechanik synchronisiert die Zwischenzustände aller generierten Bilder in jedem Schritt des Rückwärtsprozesses und gewährleistet die Konsistenz der Geometrie und Farben über die verschiedenen Ansichten hinweg.

Diese innovativen Ansätze zeigen das Potenzial von Diffusionsmodellen, nicht nur in der 2D-Bildgenerierung, sondern auch in der 3D-Welt. Die Fähigkeit, konsistente Multi-View-Bilder zu erzeugen, ist für eine Vielzahl von Anwendungen von großem Interesse, darunter die Erstellung von 3D-Modellen, Augmented-Reality-Anwendungen und die Verbesserung von Computer-Vision-Systemen.

Die zugrunde liegende Forschung zeigt, dass es möglich ist, vorhandene 2D-Diffusionsmodelle zu nutzen und sie für die 3D-Bildgenerierung zu adaptieren. Dies stellt einen entscheidenden Schritt dar, um die Lücke zwischen der 2D- und 3D-Bildsynthese zu schließen und die Generierung von Bildern zu ermöglichen, die konsistent über verschiedene Ansichten hinweg sind. Solche Fortschritte könnten die Art und Weise, wie wir mit KI-generierten Bildern interagieren, revolutionieren und neue Möglichkeiten für Kreativität und Design eröffnen.

Quellen:
1. https://twitter.com/_akhaliq/status/1734051086175027595
2. https://arxiv.org/abs/2303.17905
3. https://twitter.com/_akhaliq/status/1700007835508068491
4. https://www.linkedin.com/posts/hila-chefer_tldr-new-paper-on-diffusion-model-interpretability-activity-7072891016122372097-VGIe?trk=public_profile_like_view

Was bedeutet das?