Die Generierung von 3D-Szenen aus Textbeschreibungen ist ein komplexes Problemfeld der Künstlichen Intelligenz. Große Sprachmodelle (Large Vision-Language Models, VLMs) wie GPT-4 haben in verschiedenen Bereichen beeindruckende Fortschritte erzielt. Die Anwendung dieser Modelle auf die Erstellung dreidimensionaler Innenräume ist jedoch bisher wenig erforscht. Ein neuer Forschungsansatz betrachtet diese Aufgabe als Planungsproblem, das räumlichen und gestalterischen Regeln unterliegt.
Im Kern dieses Ansatzes steht ein global-lokaler Baumsuchalgorithmus. Global betrachtet platziert die Methode jedes Objekt sequenziell und erkundet während jedes Platzierungsprozesses mehrere Möglichkeiten. Der Problemraum wird dabei als Baum dargestellt. Um die Tiefe dieses Baumes zu reduzieren, wird die Szenenstruktur hierarchisch zerlegt: Raumebene, Bereichsebene, Bodenobjektebene und Ebene der auf den Bodenobjekten platzierten Objekte. Der Algorithmus generiert die Bodenobjekte in verschiedenen Bereichen und die darauf platzierten Objekte unabhängig voneinander.
Lokal wird die Teilaufgabe, die Platzierung jedes einzelnen Objekts, ebenfalls in mehrere Schritte zerlegt. Der Algorithmus durchsucht den Baum des Problemraums. Um das VLM zur Positionsbestimmung der Objekte zu nutzen, wird die Draufsicht des Raumes als dichtes Raster diskretisiert. Jede Zelle dieses Rasters wird mit unterschiedlichen Emojis gefüllt, um die Zellen voneinander zu unterscheiden. Das VLM erhält das Emoji-Raster als Eingabe und gibt eine plausible Position für das Objekt zurück, indem es die Position anhand der Namen der Emojis beschreibt.
Diese Methode ermöglicht es, die Stärken von VLMs für die 3D-Szenengenerierung zu nutzen. Die hierarchische Zerlegung des Problems in globale und lokale Teilprobleme vereinfacht den Planungsprozess und reduziert die Komplexität der Baumsuche. Die Verwendung von Emojis zur Darstellung des Raumes bietet eine intuitive Möglichkeit, dem VLM räumliche Informationen zu vermitteln.
Erste Ergebnisse zeigen, dass dieser Ansatz vielversprechende Resultate liefert. Quantitative und qualitative Experimente deuten darauf hin, dass die generierten 3D-Szenen plausibler sind als die von bisherigen State-of-the-Art-Verfahren. Die Kombination aus Baumsuche und der Nutzung von VLMs eröffnet neue Möglichkeiten für die automatisierte Erstellung von 3D-Inhalten aus Textbeschreibungen.
Die Weiterentwicklung dieses Ansatzes könnte zu innovativen Anwendungen in verschiedenen Bereichen führen, beispielsweise in der Architektur, im Interior Design oder in der virtuellen Realität. Die Möglichkeit, komplexe 3D-Szenen einfach durch Texteingabe zu generieren, könnte den Gestaltungsprozess in diesen Bereichen revolutionieren und neue kreative Möglichkeiten eröffnen.
Bibliographie: - https://arxiv.org/abs/2503.18476 - https://chatpaper.com/chatpaper/zh-CN/paper/123588 - https://github.com/dw-dengwei/TreeSearchGen - https://arxiv.org/html/2503.18476v1 - https://eccv.ecva.net/virtual/2024/papers.html - https://www.researchgate.net/publication/382692397_SceneTeller_Language-to-3D_Scene_Generation - https://huggingface.co/papers?q=global%20planning - https://github.com/M-3LAB/awesome-industrial-anomaly-detection - https://vivid-dream-4d.github.io/assets/paper.pdf