Stille Revolution in der KI: Die Ära generativer 3D-Welten beginnt

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In der Welt der künstlichen Intelligenz (KI) vollzieht sich eine stille Revolution, die das Potenzial hat, die Landschaft der digitalen Kreation und Interaktion grundlegend zu verändern. Im Zentrum dieser Veränderung steht das aufstrebende Feld der generativen 3D-KI, das nun dank der Fortschritte von Unternehmen wie Common Sense Machines (CSM) in greifbare Nähe rückt.

Generative KI-Systeme sind darauf ausgelegt, neue Inhalte zu erzeugen, die von Menschenhand stammen könnten. Sie haben bereits in der Erzeugung von Text, Bild und Musik beeindruckende Ergebnisse geliefert. Doch die Generierung von dynamischen, steuerbaren 3D-Umgebungen stellt eine ganz andere Herausforderung dar. Diese Umgebungen sind interaktive Simulationen, die aus Objekten, Räumen und Agenten bestehen und in Echtzeit auf Benutzerinteraktionen reagieren können.

Traditionell gab es zwei Hauptansätze zur Erstellung solcher Umgebungen: explizite und implizite Game Engines. Explizite Game Engines erfordern das Erstellen von 3D-Assets inklusive Rigging, Animation und Programmierung. Sie sind flexibel, aber komplex in der Anwendung und schwierig mit Gradientenabstiegstechniken zu erlernen. Implizite Game Engines sind große neuronale Netze, die von Grund auf mit rohen sensorischen Eingaben trainiert werden. Sie bieten beeindruckende Generalisierungen, sind jedoch in ihrer Steuerbarkeit eingeschränkt und nicht leicht programmierbar.

CSM stellt nun einen dritten Weg vor: eine implizit gelernte Game Engine, die in einem explizit gelernten 3D-Framework verankert ist und sowohl hohe Flexibilität als auch Steuerbarkeit bietet. Diese Entwicklung zielt darauf ab, Ersteller und Entwickler aller Fähigkeitsniveaus zu befähigen, Weltensimulatoren mit detailreichen Objekten und Charakteren zu konstruieren, indem sie sowohl Standard- als auch Spitzen-Neural-Game-Engines nutzen.

Mit der neuen Plattform Cube, die im öffentlichen Beta-Test eingeführt wurde, hat CSM bereits einen neuen Maßstab für die Umwandlung einzelner Bilder in 3D-Assets gesetzt und damit die Revolution der generativen 3D-KI eingeleitet. Cube ermöglicht es Benutzern, aus Konzeptkunst, Textbeschreibungen und Stilen in Minuten statt Wochen arbeitsfähige Prototypen zu schaffen. Produktentwickler können schnell ihre Vorstellungen in 3D-Drucke umsetzen, während Designer in 2D oder 3D skizzieren können, um AAA-Qualitätsrenderings mit unübertroffener Präzision zu erstellen.

Die neue 3D-Grundlagenmodellierung von CSM, die einzelne Bilder in Sekundenschnelle in texturierte 3D-Assets umwandelt, verwendet eine Mischung aus modernsten KI-Techniken, darunter Diffusionsmodelle, Transformatoren und neurale Strahlungsfelder (NeRFs). Diese Fortschritte ermöglichen interaktive Workflows und die In-Game-Generierung von 3D-Inhalten. Nutzer haben die Möglichkeit, manuelle Segmentierungen, Text und Skizzenoberflächen zu nutzen, um präzise und kreative Möglichkeiten aus jeder Datenquelle zu erschließen.

Darüber hinaus können fortgeschrittene Benutzer bildstilkonsistente Generatoren auf ihren eigenen Datensätzen anpassen und Textbefehle verwenden, um 3D-Assets in ihrem eigenen Stil zu erstellen. Die schnellen 3D-Assets können verfeinert werden, um in nur wenigen Minuten hochauflösende 3D-Assets zu produzieren, wobei die Benutzer ihre Ausgaben anhand von Präferenzen für Pixelausrichtung, Modellauflösung und Mesh-Topologie (Quads/Dreiecke) anpassen können.

Die Animationswerkzeuge, die CSM einführt, umfassen automatisches Rigging von humanoiden 3D-Assets, eine ständig wachsende Animationsbibliothek für vorgefertigte Bewegungen und sogar die Möglichkeit, komplexe Animationen aus einfachen Textbefehlen zu generieren. Dies ermöglicht es Benutzern, ihre Assets direkt in der Cube-App zum Leben zu erwecken und integriert nahtlos den gesamten Prozess von der Mesh-Erstellung bis zur Animation.

Abschließend hat CSM auch eine neue Echtzeit-Diffusions-Rendering-Engine entwickelt, die die komplexen Eingabebedingungen aus dem 3D-System synthetisiert, um den visuellen Treueabstand von virtuellen Umgebungen zu überbrücken und gleichzeitig in 3D-Darstellungen aus ersten Prinzipien zu verankern. Diese hybriden neuronalen Netze sollen es Benutzern ermöglichen, atemberaubende Welten mit fein abgestimmter Kontrolle zu erstellen und zu navigieren.

Die Entwicklungen von CSM stehen beispielhaft für den Fortschritt im Bereich der generativen 3D-KI und die sich daraus ergebenden Möglichkeiten für Kreative und Entwickler. Mit Spannung wird erwartet, welche weiteren Innovationen sich aus diesen Technologien ergeben und wie sie die digitale Welt gestalten werden.

Bibliographie:
- Common Sense Machines Blog: "Controllable 3D World Generation from Any Input" (https://www.csm.ai/blog/controllable-3d-world-generation-from-any-input)
- YouTube: "Generative AI - CSM - Real time Sketch to 3D" (https://www.youtube.com/watch?v=9N3FSYZQdFM)
- Twitter: Common Sense Machines (@CSM_ai) (https://twitter.com/CSM_ai/status/1673817785204367361)

Was bedeutet das?
No items found.