Durchbrüche in der KI Forschung ermöglichen fortschrittliche 3D Objektsynthese

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In den letzten Jahren hat die künstliche Intelligenz (KI) bemerkenswerte Fortschritte in verschiedenen Bereichen wie Bild- und Spracherkennung, autonome Fahrzeuge und personalisierte Medizin gemacht. Eine der aufregendsten Entwicklungen in der KI-Forschung ist die Fähigkeit, dreidimensionale (3D) Objekte zu synthetisieren. Die Synthese von 3D-Objekten öffnet die Tür zu zahlreichen innovativen Anwendungen, von der virtuellen Realität über medizinische Bildgebung bis hin zur Fertigungsindustrie. Trotz der großen Fortschritte in der 2D-Bildsynthese steht die Open-Domain-3D-Objektsynthese jedoch vor einzigartigen Herausforderungen, darunter begrenzte Datenverfügbarkeit und höhere Rechenkomplexität.

Um diese Lücke zu schließen, haben neuere Arbeiten die Multi-View-Diffusion untersucht, sind jedoch oft auf Probleme gestoßen. Die Multi-View-Diffusion basiert auf der Idee, dass mehrere Ansichten eines Objekts verwendet werden können, um ein vollständiges 3D-Modell zu rekonstruieren. Diese Methode hat den Vorteil, dass sie potenziell eine bessere Qualität und Generalisierbarkeit bietet, da sie aus verschiedenen Blickwinkeln Informationen über das Objekt sammelt.

Ein kürzlich vorgestellter Ansatz, der "Generic 3D Diffusion Adapter Using Controlled Multi-View Editing", zielt darauf ab, die Herausforderungen der 3D-Objektsynthese zu überwinden, indem er leistungsstarke 2D-Diffusionsmodelle nutzt, die für allgemeine Bildsyntheseaufgaben vortrainiert wurden. Diese Modelle dienen als Erscheinungsbildprior für bekleidete Menschen. Indem sie mehrere Ansichten eines Menschen im Eingabebild progressiv synthetisieren und die fehlenden Bereiche mit einer Form-geführten Diffusion ausfüllen, die auf Silhouette und Oberflächennormalen konditioniert ist, erreichen sie eine bessere 3D-Konsistenz und bewahren gleichzeitig die Identität des Eingangs.

Eine weitere bemerkenswerte Entwicklung ist der "Depth Anything"-Ansatz, der auf 1,5 Millionen beschrifteten Bildern und über 62 Millionen unbeschrifteten Bildern trainiert ist und damit eines der leistungsfähigsten Grundmodelle für die monokulare Tiefenschätzung bietet. Diese Modelle ermöglichen eine Nullschuss-Tiefenschätzung, die besser ist als bestehende Lösungen und bieten optimale Feinabstimmung und Bewertung in spezifischen Anwendungsdomänen.

Neben der 3D-Generierung hat die KI-Forschung auch Fortschritte in anderen Bereichen gemacht. Das "Vision Mamba"-Projekt beispielsweise zeigt, dass es möglich ist, effiziente und generische Vision-Backbones ausschließlich auf Basis von State-Space-Modellen zu erstellen. Dies könnte die Art und Weise, wie wir visuelle Daten repräsentieren, grundlegend verändern und zu effizienteren und leistungsfähigeren Vision-Modellen führen.

Die Forschung zu großmaßstäblich vortrainierten Bildmodellen, wie sie im Projekt "Scalable Pre-training of Large Autoregressive Image Models" präsentiert wird, hebt hervor, dass die Leistung visueller Merkmale sowohl mit der Modellkapazität als auch mit der Datenmenge skaliert und dass der Wert der Zielfunktion mit der Leistung des Modells bei nachgelagerten Aufgaben korreliert.

Alles in allem stehen wir an der Schwelle zu einer neuen Ära der 3D-Synthese und -Generierung, in der KI-Modelle zunehmend in der Lage sind, realistische und komplexe 3D-Objekte aus einer Vielzahl von Eingaben zu generieren. Mit kontinuierlichen Verbesserungen in der Rechenleistung und Optimierung von Algorithmen ist es wahrscheinlich, dass diese Technologien in naher Zukunft breitere Anwendungen in Industrie, Unterhaltung und darüber hinaus finden werden.

Quellen:
1. Akhaliq, A. (2024). Generic 3D Diffusion Adapter Using Controlled Multi-View Editing. Twitter. Verfügbar unter: https://twitter.com/_akhaliq/status/1725031952284110876
2. Hugging Face. (2023). Single-Image 3D Human Digitization with Shape-Guided Diffusion. Verfügbar unter: https://huggingface.co/akhaliq/activity/posts
3. Zheng, X.-Y. et al. (2024). MVD²: Efficient Multiview 3D Reconstruction for Multiview Diffusion. arXiv. Verfügbar unter: https://arxiv.org/html/2402.14253v1
4. Akhaliq, A. (2023). Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. Twitter. Verfügbar unter: https://twitter.com/_akhaliq/status/1724639905261781017
5. Akhaliq, A. (2023). One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion. Twitter. Verfügbar unter: https://twitter.com/_akhaliq/status/1724639905261781017

November 2, 2024

