Mit CAT4D hat Google DeepMind ein neues KI-System vorgestellt, das gewöhnliche Videos in dynamische 3D-Szenen verwandeln kann. Das System, entwickelt in Zusammenarbeit mit Forschern der Columbia University und der UC San Diego, eröffnet neue Möglichkeiten für die Erstellung immersiver Inhalte.
CAT4D basiert auf einem sogenannten "Multi-View-Video-Diffusionsmodell". Dieses Modell ist darauf trainiert, aus einem Video, das aus einem einzigen Blickwinkel aufgenommen wurde, Ansichten aus mehreren Perspektiven zu generieren. Diese verschiedenen Blickwinkel werden dann zu einer dynamischen 3D-Szene zusammengefügt. Das Ergebnis ist ein Video, das aus verschiedenen Blickwinkeln betrachtet werden kann, wodurch ein räumlicher Eindruck entsteht.
Bisher erforderte die Erstellung solcher 3D-Szenen aufwendige Aufbauten mit mehreren Kameras, die gleichzeitig dieselbe Szene aufzeichnen. CAT4D vereinfacht diesen Prozess erheblich, indem es mit herkömmlichem Videomaterial arbeitet.
Eine Herausforderung bei der Entwicklung von CAT4D bestand darin, geeignete Trainingsdaten zu finden. Da es nur wenige vorhandene Datensätze mit Multi-View-Videos von dynamischen Szenen gibt, griff das Team auf eine Mischung aus realen und synthetischen Daten zurück. Die Trainingsdaten umfassten Multi-View-Bilder von statischen Szenen, Videos aus einer einzigen Perspektive und synthetisch generierte 4D-Daten. Durch die Kombination dieser verschiedenen Datensätze konnte das Diffusionsmodell lernen, Bilder aus verschiedenen Blickwinkeln zu bestimmten Zeitpunkten zu erstellen.
Obwohl CAT4D laut den Forschern qualitativ hochwertigere Ergebnisse liefert als vergleichbare Systeme, gibt es noch Herausforderungen. So hat das System beispielsweise Schwierigkeiten, Videos zu generieren, die länger sind als das ursprüngliche Videomaterial. Die zeitliche Extrapolation über die Eingangsframes hinaus stellt weiterhin eine Hürde dar.
Dennoch birgt die Technologie großes Potenzial für verschiedene Branchen. Spieleentwickler könnten CAT4D nutzen, um virtuelle Umgebungen zu erstellen. Filmemacher und AR-Entwickler könnten das System in ihre Arbeitsabläufe integrieren. Auch im E-Commerce und der Immobilienbranche könnte die Technologie Anwendung finden, um Produkte oder Immobilien virtuell erlebbar zu machen.
Mindverse, als deutscher Anbieter von KI-gestützten Content-Lösungen, verfolgt die Entwicklungen im Bereich der generativen KI mit großem Interesse. Technologien wie CAT4D unterstreichen das transformative Potenzial von KI und eröffnen spannende neue Möglichkeiten für die Content-Erstellung der Zukunft.
Bibliographie Wu, R. et al. (2024). CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models. arXiv:2411.18613. The Decoder. CAT4D from Google Deepmind turns videos into simple 3D scenes. https://the-decoder.com/cat4d-from-google-deepmind-turns-videos-into-simple-3d-scenes/ Marocsofiane20 (Medium). Google Deepmind’s New Insane 4D AI Model: CAT4D. https://medium.com/@marocsofiane20/google-deepminds-new-insane-4d-ai-model-cat4d-cfbc980be18b CAT4D Project Page. https://cat-4d.github.io/ AI Agenda (Instagram). https://www.instagram.com/aiagenda/reel/DDwWTUsBotv/ Pujitha Vasanth (LinkedIn). https://www.linkedin.com/posts/pujitha-vasanth_cat3d-cat4d-activity-7269915779238625280-RAvR Facebook Group Post. https://www.facebook.com/groups/948195673219111/posts/1331566051548736/ Ganesh Jagadeesan (LinkedIn). https://www.linkedin.com/posts/ganeshjagadeesan_generativeai-cat4d-aiinnovation-activity-7269917613508456449-Hi_Q Hyunjik11 (X). https://x.com/hyunjik11?lang=de AI News (YouTube). NEW GOOGLE DEEPMIND "CAT4D" AI MAKES THESE 4D VIDEOS | TECH NEWS. https://www.youtube.com/watch?v=i56IcwB8ouw