NVIDIA stellt Kimodo vor: Ein neues Modell zur Generierung von 3D-Bewegungen

Kategorien:

No items found.

Freigegeben:

April 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA hat mit Kimodo ein kinematisches Bewegungsdiffusionsmodell vorgestellt, das 3D-Bewegungen für Menschen und Roboter generiert.
Das Modell wird durch Textbefehle und kinematische Einschränkungen gesteuert.
Kimodo wurde auf einem umfangreichen Datensatz von 700 Stunden optischer Bewegungserfassung trainiert.
Es bietet Anwendungsbereiche in der Spieleentwicklung, Robotiksimulation und Animation.
Eine interaktive Demo und eine Befehlszeilenschnittstelle ermöglichen die Erstellung und Bearbeitung von Bewegungen.

Die Generierung realistischer und steuerbarer 3D-Bewegungen für digitale Charaktere und Roboter stellt seit Langem eine Herausforderung in verschiedenen Industrien dar. NVIDIA hat nun mit der Veröffentlichung von Kimodo, einem kinematischen Bewegungsdiffusionsmodell, einen Schritt unternommen, der diese Prozesse potenziell vereinfachen könnte. Kimodo ist darauf ausgelegt, hochwertige 3D-Bewegungen auf Basis von Texteingaben und spezifischen kinematischen Einschränkungen zu generieren. Das Modell wurde auf einem Datensatz von 700 Stunden optischer Bewegungserfassung trainiert und ist über die Plattform Hugging Face zugänglich gemacht worden.

Grundlagen von Kimodo und seine Funktionsweise

Kimodo, ein Akronym für "kinematic motion diffusion", ist ein Modell, das sich auf die Erzeugung von Bewegungen konzentriert. Es nutzt Diffusionsmodelle, um aus Rauschen schrittweise kohärente und realistische Bewegungssequenzen zu rekonstruieren. Ein zentrales Merkmal ist die Steuerung durch natürliche Sprachbefehle. Nutzer können über Texteingaben beschreiben, welche Art von Bewegung generiert werden soll, beispielsweise "Eine Person geht vorwärts und hebt eine Kiste auf."

Steuerung und Flexibilität

Neben Textprompts bietet Kimodo eine Reihe von kinematischen Einschränkungen, die eine präzise Kontrolle über die generierten Bewegungen ermöglichen. Dazu gehören:

Ganzkörper-Keyframes: Definieren Sie vollständige Gelenkpositionen zu bestimmten Zeitpunkten.
Endeffektor-Positionen und -Rotationen: Steuern Sie die Position und Ausrichtung von Händen und Füßen.
2D-Pfade und Wegpunkte: Legen Sie die Bewegung des Charakters oder Roboters auf einer Ebene fest.

Diese Kombination aus textueller Beschreibung und spezifischen kinematischen Restriktionen unterscheidet Kimodo von reinen Text-zu-Bewegung-Systemen und ermöglicht eine detailliertere und anwendungsspezifische Bewegungserstellung.

Trainingsdaten und Modellvarianten

Die Leistungsfähigkeit von Kimodo basiert auf einem umfangreichen Trainingsdatensatz. Das Modell wurde auf "Bones Rigplay 1" trainiert, einem proprietären Datensatz von 700 Stunden optischer Bewegungserfassung. Dieser Datensatz umfasst Bewegungen von professionellen Darstellern, Athleten und Technikern in verschiedenen Szenarien, ergänzt durch detaillierte Textbeschreibungen. Zusätzlich wurde der öffentlich zugängliche "BONES-SEED"-Datensatz, der 288 Stunden Material umfasst, für grundlegende Bewegungsprimitive genutzt.

Kimodo ist in mehreren Varianten verfügbar, die auf unterschiedliche Skelette und Datensätze zugeschnitten sind. Hierzu zählen Modelle für:

SOMA-Skelett: Ein parametrisches menschliches Körpermodell.
Unitree G1 Roboter-Skelett: Für humanoide Robotik-Anwendungen.
SMPL-X-Skelett: Ein weiteres häufig verwendetes menschliches Skelettmodell.

Die "RP"-Varianten (Rigplay) nutzen den vollen 700-Stunden-Datensatz und werden für produktive Anwendungen empfohlen, während die "SEED"-Varianten (BONES-SEED) für Vergleichszwecke und Benchmarking nützlich sind.

Anwendungsfelder und Potenziale

Die Fähigkeiten von Kimodo eröffnen vielfältige Anwendungsmöglichkeiten in verschiedenen Branchen.

Spieleentwicklung und Animation

In der Spiele- und Filmindustrie kann Kimodo den Prozess der Animationserstellung erheblich beschleunigen. Anstatt Bewegungen manuell per Keyframing zu erstellen, können Animatoren Basisbewegungen durch Texteingaben generieren und diese anschließend mithilfe kinematischer Einschränkungen verfeinern. Dies kann die Produktionszeiten verkürzen und die Iterationszyklen beschleunigen.

Robotiksimulation und -steuerung

Ein bedeutendes Anwendungsfeld ist die Robotik. Kimodo kann Bewegungen direkt für humanoide Roboter wie den Unitree G1 generieren. Dies ist besonders relevant für die Entwicklung von Robotern, da es die Erstellung von Simulationsumgebungen und Trainingsdaten erleichtert. Die Möglichkeit, Roboterbewegungen über Textbefehle zu steuern, könnte die Programmierung komplexer Aufgaben vereinfachen.

Generierung von Bewegungsdatensätzen

Kimodo kann auch zur Erzeugung großer Mengen variierter Bewegungsclips genutzt werden, was für das Training anderer Modelle oder die Erweiterung bestehender Datensätze von Vorteil ist. Durch die Kombination von Textprompts und Constraint-Variationen lassen sich diverse Bewegungsszenarien generieren.

Technische Aspekte und Integrationsmöglichkeiten

Die Implementierung von Kimodo ist auf Flexibilität ausgelegt und bietet verschiedene Zugangswege.

Interaktive Demo und Befehlszeilenschnittstelle

NVIDIA stellt eine webbasierte interaktive Demo zur Verfügung, die eine intuitive Benutzeroberfläche zur Bewegungserstellung bietet. Hier können Nutzer Textprompts und Constraints auf einer Zeitleiste platzieren und die generierten Bewegungen in Echtzeit in einer 3D-Visualisierung betrachten. Für automatisierte Workflows und die Integration in bestehende Pipelines steht eine Befehlszeilenschnittstelle (CLI) zur Verfügung, die eine programmatische Generierung von Bewegungen ermöglicht.

Systemanforderungen und Kompatibilität

Für den lokalen Betrieb benötigt Kimodo etwa 17 GB VRAM, hauptsächlich bedingt durch das Text-Embedding-Modell. Das System wurde primär auf Linux entwickelt und auf GPUs wie der GeForce RTX 3090, RTX 4090 und NVIDIA A100 getestet. Die Installation kann entweder als Python-Paket oder über Docker erfolgen, wobei ein Hugging Face Token für den Zugriff auf das Text-Encoder-Modell erforderlich ist.

Downstream-Anwendungen

Die von Kimodo generierten Bewegungsdaten können in andere NVIDIA-Tools und -Frameworks integriert werden, um weiterführende Anwendungen zu realisieren:

ProtoMotions: Ein Framework für physikbasierte Simulation und maschinelles Lernen, das zur Schulung physikbasierter Roboterkontrollen mit den von Kimodo generierten Bewegungen genutzt werden kann.
General Motion Retargeting (GMR): Ermöglicht die Übertragung von Bewegungen, die mit Kimodo-SMPLX generiert wurden, auf andere Roboterskelette.

Herausforderungen und Grenzen

Trotz der vielversprechenden Möglichkeiten weist Kimodo auch bestimmte Grenzen auf, die bei der Anwendung berücksichtigt werden sollten.

Abhängigkeit von proprietären Daten

Ein wesentlicher Aspekt ist die Abhängigkeit von dem proprietären "Bones Rigplay 1"-Datensatz. Obwohl das Modell und der Code quelloffen sind, ist der vollständige Trainingsdatensatz nicht öffentlich verfügbar. Dies erschwert die vollständige Reproduzierbarkeit der Ergebnisse durch externe Forscher und Unternehmen, die nicht über vergleichbare Ressourcen zur Datenerfassung verfügen.

Physikalische Realität und Komplexität

Kimodo generiert kinematische Sequenzen, also Gelenkpositionen über die Zeit, berücksichtigt jedoch nicht explizit die physikalischen Kräfte, die zur Erzielung dieser Bewegungen erforderlich sind. Für die Ausführung durch einen realen Roboter ist eine weitere Verarbeitung durch physikbasierte Simulations- oder Steuerungsframeworks wie ProtoMotions notwendig.

Länge der Bewegungssequenzen

Die maximale Länge der generierten Bewegungssequenzen ist auf 10 Sekunden begrenzt. Für komplexere, länger andauernde Aufgaben, die typischerweise in industriellen Anwendungen oder komplexen Animationen vorkommen, müssen mehrere Sequenzen kombiniert oder nahtlos aneinandergereiht werden.

Ressourcenintensive Nutzung

Die Anforderung von 17 GB VRAM und die Empfehlung für leistungsstarke GPUs zeigen, dass die Nutzung von Kimodo rechenintensiv ist. Dies kann für kleinere Unternehmen oder Forschungseinrichtungen ohne entsprechende Hardware eine Hürde darstellen.

Fazit

NVIDIAs Kimodo stellt einen wichtigen Fortschritt in der Generierung von 3D-Bewegungen dar. Durch die Kombination von Text-zu-Bewegung-Fähigkeiten und präzisen kinematischen Einschränkungen bietet es ein vielseitiges Werkzeug für Anwendungen in der Animation, Robotik und der Erstellung von Bewegungsdatensätzen. Die Verfügbarkeit als Open-Source-Code und die Integration in das NVIDIA-Ökosystem unterstreichen das Potenzial für eine breite Anwendung. Gleichzeitig weisen die Abhängigkeit von umfangreichen proprietären Trainingsdaten und die systemischen Grenzen auf die fortwährenden Herausforderungen in der Entwicklung fortschrittlicher KI-Modelle hin, insbesondere im Bereich der physischen Interaktion und der Robotik.

Bibliographie

- GitHub Repository nv-tlabs/kimodo. (2026). Official implementation of Kimodo, a kinematic motion diffusion model for high-quality human(oid) motion generation. - Kimodo Documentation. (o.D.). NVIDIA Research. Abgerufen von https://research.nvidia.com/labs/sil/projects/kimodo/docs - Kimodo: NVIDIA's Text-Controlled 3D Motion Diffusion… (2026, 23. März). dudarik.com. Abgerufen von https://dudarik.com/en/blog/github-kimodo/ - nvidia/Kimodo-SOMA-RP-v1. (o.D.). Hugging Face. Abgerufen von https://huggingface.co/nvidia/Kimodo-SOMA-RP-v1 - Pebblous Data Communication Team. (2026, 1. April). The Code Is Open. The Data Isn't. — NVIDIA Kimodo | Pebblous. Abgerufen von https://blog.pebblous.ai/blog/kimodo-text-to-motion/en/