Interaktive 3D-Szenengenerierung aus einem Bild in Echtzeit durch neues KI-System

Kategorien:
No items found.
Freigegeben:
October 9, 2024
Forscher der Stanford University und des MIT haben ein KI-System entwickelt, das interaktiv 3D-Szenen aus einem einzigen Bild in Echtzeit generieren kann. Diese neue Technologie, genannt WonderWorld, ermöglicht es Nutzern, virtuelle Umgebungen Schritt für Schritt aufzubauen und zu erkunden, indem sie den Inhalt und das Layout der generierten Szenen steuern. Die größte Herausforderung bei der Entwicklung von WonderWorld war die schnelle Generierung von 3D-Szenen. Während frühere Ansätze oft Dutzende von Minuten bis Stunden benötigten, um eine einzelne Szene zu generieren, kann WonderWorld eine neue 3D-Umgebung innerhalb von 10 Sekunden auf einer Nvidia A6000 GPU erzeugen. Diese Geschwindigkeit ermöglicht eine Echtzeit-Interaktion, ein bedeutender Fortschritt auf diesem Gebiet. WonderWorld arbeitet, indem es mit einem Eingabebild beginnt und eine erste 3D-Szene generiert. Es tritt dann in eine Schleife ein, in der abwechselnd Szenenbilder und entsprechende FLAGS-Repräsentationen erstellt werden. Benutzer können durch Bewegen der Kamera steuern, wo neue Szenen generiert werden, und über Texteingaben die Art der gewünschten Szene festlegen. Die FLAGS-Repräsentation besteht aus drei Ebenen: Vordergrund, Hintergrund und Himmel. Jede Ebene enthält eine Reihe von "Surfels" - Elemente, die durch ihre 3D-Position, Ausrichtung, Skalierung, Deckkraft und Farbe definiert sind. Diese Surfels werden unter Verwendung geschätzter Tiefen- und Normalen-Maps initialisiert und dann optimiert, um die endgültige Szene zu erstellen. Um geometrische Verzerrungen an Szenenübergängen zu reduzieren, verwendet WonderWorld einen geführten Tiefendiffusionsprozess. Dieser verwendet ein vortrainiertes Diffusionsmodell für Tiefenkarten und passt die Tiefenschätzung an die Geometrie vorhandener Teile der Szene an. Experimente haben gezeigt, dass WonderWorld frühere Methoden zur Generierung von 3D-Szenen in Bezug auf Geschwindigkeit und visuelle Qualität deutlich übertrifft. In Benutzerstudien wurden die generierten Szenen als visuell überzeugender bewertet als die von anderen Ansätzen erzeugten. Das System weist jedoch einige Einschränkungen auf. Es können nur nach vorne gerichtete Oberflächen erstellt werden, wodurch die Benutzerbewegung in der virtuellen Welt auf etwa 45 Grad beschränkt ist. Die generierten Welten sehen derzeit wie Scherenschnitte aus. Das System hat auch Probleme mit detaillierten Objekten wie Bäumen, was zu "Löchern" oder "schwebenden" Elementen führen kann, wenn sich der Betrachtungswinkel ändert. Trotz dieser Einschränkungen sehen die Forscher ein erhebliches Potenzial für WonderWorld in verschiedenen Anwendungen. Spieleentwickler könnten damit 3D-Welten iterativ aufbauen. Es könnte größere und vielfältigere Inhalte für Virtual-Reality-Erlebnisse generieren. Langfristig könnte es Nutzern ermöglichen, frei erkundbare, sich dynamisch entwickelnde virtuelle Welten zu erschaffen. Weitere Beispiele zum Ausprobieren finden Sie auf der Projektseite von WonderWorld. ## Bibliographie - Yu, H.-X., Duan, H., Herrmann, C., Freeman, W. T., & Wu, J. (2024). WonderWorld: Interactive 3D Scene Generation from a Single Image. arXiv preprint arXiv:2406.09394. https://arxiv.org/abs/2406.09394 - Yu, H.-X., Duan, H., Hur, J., Sargent, K., Rubinstein, M., Freeman, W. T., ... & Herrmann, C. (2024). WonderJourney: Going from Anywhere to Everywhere. arXiv preprint arXiv:2406.09394. https://www.aimodels.fyi/papers/arxiv/wonderworld-interactive-3d-scene-generation-from-single - Zhou, S., Fan, Z., Xu, D., Chang, H., Chari, P., Bharadwaj, T., ... & Kadambi, A. (2024). DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting. arXiv preprint arXiv:2406.09394. https://kovenyu.com/wonderworld/
Was bedeutet das?