Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung realistischer und steuerbarer 3D-Bewegungen für digitale Charaktere und Roboter stellt seit Langem eine Herausforderung in verschiedenen Industrien dar. NVIDIA hat nun mit der Veröffentlichung von Kimodo, einem kinematischen Bewegungsdiffusionsmodell, einen Schritt unternommen, der diese Prozesse potenziell vereinfachen könnte. Kimodo ist darauf ausgelegt, hochwertige 3D-Bewegungen auf Basis von Texteingaben und spezifischen kinematischen Einschränkungen zu generieren. Das Modell wurde auf einem Datensatz von 700 Stunden optischer Bewegungserfassung trainiert und ist über die Plattform Hugging Face zugänglich gemacht worden.
Kimodo, ein Akronym für "kinematic motion diffusion", ist ein Modell, das sich auf die Erzeugung von Bewegungen konzentriert. Es nutzt Diffusionsmodelle, um aus Rauschen schrittweise kohärente und realistische Bewegungssequenzen zu rekonstruieren. Ein zentrales Merkmal ist die Steuerung durch natürliche Sprachbefehle. Nutzer können über Texteingaben beschreiben, welche Art von Bewegung generiert werden soll, beispielsweise "Eine Person geht vorwärts und hebt eine Kiste auf."
Neben Textprompts bietet Kimodo eine Reihe von kinematischen Einschränkungen, die eine präzise Kontrolle über die generierten Bewegungen ermöglichen. Dazu gehören:
Diese Kombination aus textueller Beschreibung und spezifischen kinematischen Restriktionen unterscheidet Kimodo von reinen Text-zu-Bewegung-Systemen und ermöglicht eine detailliertere und anwendungsspezifische Bewegungserstellung.
Die Leistungsfähigkeit von Kimodo basiert auf einem umfangreichen Trainingsdatensatz. Das Modell wurde auf "Bones Rigplay 1" trainiert, einem proprietären Datensatz von 700 Stunden optischer Bewegungserfassung. Dieser Datensatz umfasst Bewegungen von professionellen Darstellern, Athleten und Technikern in verschiedenen Szenarien, ergänzt durch detaillierte Textbeschreibungen. Zusätzlich wurde der öffentlich zugängliche "BONES-SEED"-Datensatz, der 288 Stunden Material umfasst, für grundlegende Bewegungsprimitive genutzt.
Kimodo ist in mehreren Varianten verfügbar, die auf unterschiedliche Skelette und Datensätze zugeschnitten sind. Hierzu zählen Modelle für:
Die "RP"-Varianten (Rigplay) nutzen den vollen 700-Stunden-Datensatz und werden für produktive Anwendungen empfohlen, während die "SEED"-Varianten (BONES-SEED) für Vergleichszwecke und Benchmarking nützlich sind.
Die Fähigkeiten von Kimodo eröffnen vielfältige Anwendungsmöglichkeiten in verschiedenen Branchen.
In der Spiele- und Filmindustrie kann Kimodo den Prozess der Animationserstellung erheblich beschleunigen. Anstatt Bewegungen manuell per Keyframing zu erstellen, können Animatoren Basisbewegungen durch Texteingaben generieren und diese anschließend mithilfe kinematischer Einschränkungen verfeinern. Dies kann die Produktionszeiten verkürzen und die Iterationszyklen beschleunigen.
Ein bedeutendes Anwendungsfeld ist die Robotik. Kimodo kann Bewegungen direkt für humanoide Roboter wie den Unitree G1 generieren. Dies ist besonders relevant für die Entwicklung von Robotern, da es die Erstellung von Simulationsumgebungen und Trainingsdaten erleichtert. Die Möglichkeit, Roboterbewegungen über Textbefehle zu steuern, könnte die Programmierung komplexer Aufgaben vereinfachen.
Kimodo kann auch zur Erzeugung großer Mengen variierter Bewegungsclips genutzt werden, was für das Training anderer Modelle oder die Erweiterung bestehender Datensätze von Vorteil ist. Durch die Kombination von Textprompts und Constraint-Variationen lassen sich diverse Bewegungsszenarien generieren.
Die Implementierung von Kimodo ist auf Flexibilität ausgelegt und bietet verschiedene Zugangswege.
NVIDIA stellt eine webbasierte interaktive Demo zur Verfügung, die eine intuitive Benutzeroberfläche zur Bewegungserstellung bietet. Hier können Nutzer Textprompts und Constraints auf einer Zeitleiste platzieren und die generierten Bewegungen in Echtzeit in einer 3D-Visualisierung betrachten. Für automatisierte Workflows und die Integration in bestehende Pipelines steht eine Befehlszeilenschnittstelle (CLI) zur Verfügung, die eine programmatische Generierung von Bewegungen ermöglicht.
Für den lokalen Betrieb benötigt Kimodo etwa 17 GB VRAM, hauptsächlich bedingt durch das Text-Embedding-Modell. Das System wurde primär auf Linux entwickelt und auf GPUs wie der GeForce RTX 3090, RTX 4090 und NVIDIA A100 getestet. Die Installation kann entweder als Python-Paket oder über Docker erfolgen, wobei ein Hugging Face Token für den Zugriff auf das Text-Encoder-Modell erforderlich ist.
Die von Kimodo generierten Bewegungsdaten können in andere NVIDIA-Tools und -Frameworks integriert werden, um weiterführende Anwendungen zu realisieren:
Trotz der vielversprechenden Möglichkeiten weist Kimodo auch bestimmte Grenzen auf, die bei der Anwendung berücksichtigt werden sollten.
Ein wesentlicher Aspekt ist die Abhängigkeit von dem proprietären "Bones Rigplay 1"-Datensatz. Obwohl das Modell und der Code quelloffen sind, ist der vollständige Trainingsdatensatz nicht öffentlich verfügbar. Dies erschwert die vollständige Reproduzierbarkeit der Ergebnisse durch externe Forscher und Unternehmen, die nicht über vergleichbare Ressourcen zur Datenerfassung verfügen.
Kimodo generiert kinematische Sequenzen, also Gelenkpositionen über die Zeit, berücksichtigt jedoch nicht explizit die physikalischen Kräfte, die zur Erzielung dieser Bewegungen erforderlich sind. Für die Ausführung durch einen realen Roboter ist eine weitere Verarbeitung durch physikbasierte Simulations- oder Steuerungsframeworks wie ProtoMotions notwendig.
Die maximale Länge der generierten Bewegungssequenzen ist auf 10 Sekunden begrenzt. Für komplexere, länger andauernde Aufgaben, die typischerweise in industriellen Anwendungen oder komplexen Animationen vorkommen, müssen mehrere Sequenzen kombiniert oder nahtlos aneinandergereiht werden.
Die Anforderung von 17 GB VRAM und die Empfehlung für leistungsstarke GPUs zeigen, dass die Nutzung von Kimodo rechenintensiv ist. Dies kann für kleinere Unternehmen oder Forschungseinrichtungen ohne entsprechende Hardware eine Hürde darstellen.
NVIDIAs Kimodo stellt einen wichtigen Fortschritt in der Generierung von 3D-Bewegungen dar. Durch die Kombination von Text-zu-Bewegung-Fähigkeiten und präzisen kinematischen Einschränkungen bietet es ein vielseitiges Werkzeug für Anwendungen in der Animation, Robotik und der Erstellung von Bewegungsdatensätzen. Die Verfügbarkeit als Open-Source-Code und die Integration in das NVIDIA-Ökosystem unterstreichen das Potenzial für eine breite Anwendung. Gleichzeitig weisen die Abhängigkeit von umfangreichen proprietären Trainingsdaten und die systemischen Grenzen auf die fortwährenden Herausforderungen in der Entwicklung fortschrittlicher KI-Modelle hin, insbesondere im Bereich der physischen Interaktion und der Robotik.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen