Einheitliche physische Sprache für humanoide Roboter: UniT als Lösung für Datenmangel und kinematische Herausforderungen

Kategorien:

No items found.

Freigegeben:

April 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Entwicklung von humanoiden Robotern wird durch den Mangel an hochwertigen Robotikdaten gebremst.
UniT (Unified Latent Action Tokenizer via Visual Anchoring) schlägt eine einheitliche physische Sprache vor, um die Kluft zwischen menschlichen und humanoiden Bewegungen zu überbrücken.
Das Framework nutzt visuelle Beobachtungen als universellen Anker, um heterogene kinematische Räume zu vereinheitlichen.
UniT verwendet einen Tri-Branch-Cross-Rekonstruktionsmechanismus, der Aktionen und Vision synergetisch in einem gemeinsamen diskreten latenten Raum zusammenführt.
In zwei Paradigmen – Policy Learning (VLA-UniT) und World Modeling (WM-UniT) – zeigt UniT deutliche Verbesserungen bei der Dateneffizienz, der Generalisierung und dem Zero-Shot-Task-Transfer.
Ablationsstudien bestätigen die Notwendigkeit der Synergie von Vision und Aktion sowie der bidirektionalen Kreuzrekonstruktion für die Leistungssteigerung.

Revolution in der Robotik: UniT schafft einheitliche physische Sprache für humanoide Modelle

Die Entwicklung von humanoiden Robotern und deren Fähigkeit, komplexe Aufgaben in realen Umgebungen zu meistern, steht vor einer fundamentalen Herausforderung: dem Mangel an umfangreichen, hochwertigen Robotikdaten. Während die Verfügbarkeit von menschlichen Daten, insbesondere egozentrischen Videos, eine skalierbare Alternative darstellt, bleibt die Übertragung von menschlichem Wissen auf humanoide Systeme aufgrund kinematischer Unterschiede und divergierender Freiheitsgrade eine komplexe Aufgabe. Das Forschungspapier „UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling“ stellt einen innovativen Ansatz vor, der diese Lücke durch eine „einheitliche physische Sprache“ überbrücken soll, um das Skalierungspotenzial von humanoiden Basismodellen zu realisieren.

Die Herausforderung der Datenknappheit und kinematischen Diskrepanzen

Die Skalierung von Basismodellen für humanoide Roboter im Bereich des Policy Learnings und der Weltmodellierung wird maßgeblich durch die Knappheit hochwertiger Robotikdaten eingeschränkt. Menschliche Bewegungsdaten, die in großer Menge und zu geringen Kosten verfügbar sind, bieten zwar eine reiche Quelle an Interaktionsprioritäten, deren Nutzung wird jedoch durch erhebliche Unterschiede zwischen menschlicher und humanoider Kinematik erschwert. Biomechanische und hardwarebedingte Abweichungen führen zu heterogenen Zustands-Aktions-Räumen mit unterschiedlichen Freiheitsgraden und Kontrollparadigmen. Bestehende Methoden, die auf Bewegungs-Retargeting setzen, sind oft arbeitsintensiv, nicht skalierbar und führen zu physikalisch inkonsistenten Ergebnissen. Dies unterstreicht die Notwendigkeit einer datengesteuerten, einheitlichen physikalischen Sprache, die heterogene Daten in einen gemeinsamen latenten Aktionsraum projiziert.

UniT: Eine visuell verankerte, latente Aktions-Tokenisierung

UniT (Unified Latent Action Tokenizer via Visual Anchoring) adressiert diese Herausforderungen durch ein Framework, das eine einheitliche physische Sprache für den Transfer von Mensch zu Humanoid etabliert. Die zentrale Philosophie hinter UniT ist die Erkenntnis, dass heterogene Kinematiken universelle visuelle Konsequenzen teilen. Visuelle Beobachtungen können somit als universeller Anker dienen, um disparate kinematische Räume zu erden und auszurichten.

Der Tri-Branch-Cross-Rekonstruktionsmechanismus

UniT verwendet einen Tri-Branch-Cross-Rekonstruktionsmechanismus, der drei gekoppelte Repräsentationen extrahiert:

Ein temporär-visuelles Merkmal aus aufeinanderfolgenden Frames.
Ein kinematisches Merkmal aus den entsprechenden Aktionen zwischen den Frames.
Ein fusioniertes visuo-motorisches Merkmal, das beide Modalitäten synergetisch zusammenführt.

Anstatt diese als isolierte Ströme zu behandeln, erzwingt UniT ein rigoroses Kreuzrekonstruktionsziel, das jede Repräsentation dazu zwingt, sowohl visuelle Übergänge als auch Low-Level-Aktionen unabhängig voneinander zu dekodieren. Dieser Mechanismus verankert heterogene Aktionen an ihren tatsächlichen physikalischen Konsequenzen in der Umgebung, indem kinematische Merkmale visuelle Übergänge rekonstruieren müssen. Gleichzeitig werden irrelevante visuelle Störfaktoren (wie Texturen oder Beleuchtung) herausgefiltert, indem visuelle Merkmale Aktionen rekonstruieren müssen. Das Ergebnis sind tief integrierte visuo-motorische Tokens, die eine stabile Grundlage für den Transfer von Absichten über verschiedene Robotermorphologien hinweg bieten.

Anwendungsfelder und Ergebnisse

Die Wirksamkeit von UniT wurde in zwei zentralen Paradigmen der verkörperten KI evaluiert:

1. Policy Learning (VLA-UniT)

VLA-UniT integriert UniT in Vision-Language-Action-Architekturen. Anstatt rohe Aktionen über große Verteilungsunterschiede hinweg anzupassen, prognostiziert VLA-UniT Tokens im gemeinsamen latenten Raum. Ein leichtgewichtiger Flow-Head generiert dann embodiment-spezifische Aktionen für die Ausführung. Die Evaluierung auf dem RoboCasa GR1 Benchmark und einem realen Humanoiden zeigte:

Verbesserte Dateneffizienz: VLA-UniT erreichte mit nur 10 % der Trainingsdaten (100 Trajektorien pro Aufgabe) eine Erfolgsrate von 45,5 %, was der GR00T-Baseline mit vollständigen Daten nahekommt.
Robuste Out-of-Distribution (OOD)-Generalisierung: Durch die Nutzung vielfältiger menschlicher Daten zeigte VLA-UniT eine verbesserte Generalisierungsfähigkeit in unbekannten Szenarien.
Zero-Shot-Task-Transfer: Das System demonstrierte die Fähigkeit, ungesehene Aufgaben ohne spezifisches Training zu bewältigen, einschließlich emergenter Oberkörperkoordination.

2. World Modeling (WM-UniT)

WM-UniT nutzt UniT-Tokens als universelle Bedingungen anstelle von rohen Aktionen. Durch die Angleichung der Dynamik zwischen verschiedenen Verkörperungen mittels dieser Tokens wird ein direkter Transfer von Mensch-zu-Humanoid-Aktionen ermöglicht. Dies führt zu einer verbesserten Aktionskontrollierbarkeit bei der Generierung humanoider Videos. Die Ergebnisse zeigten:

Verbesserte Vorhersagekonsistenz: Die Tokens absorbieren physikalische Prioritäten während des gemeinsamen Dynamiktrainings, was zu einer konsistenteren Vorhersage führt.
Effektiver Transfer von Dynamik: Vortraining auf großen menschlichen Datensätzen ermöglichte die Übertragung von physikalischen Dynamiken über verschiedene Verkörperungen hinweg.

Detaillierte Experimente und Ablationsstudien

Die Forschungsarbeit validierte UniT anhand von vier Kernfragen:

Q1: Vereinheitlichte Repräsentation: Ausrichtung und Robustheit

t-SNE-Analysen von menschlichen und humanoiden Daten zeigten, dass UniT erfolgreich heterogene Aktionen in einen hochgradig überlappenden, gemeinsamen latenten Raum projiziert. Dies bestätigt, dass die visuell verankerte Kreuzrekonstruktion disparate Aktionsräume in ein gemeinsames Manifold überführt. UniT zeigte zudem eine höhere Robustheit gegenüber Aktionsrauschen, wobei die visuelle Verankerung eine implizite Entrauschung bewirkte.

Q2: Effizientes Policy Learning

VLA-UniT erreichte auf dem RoboCasa GR1 Benchmark eine Gesamt-Erfolgsrate von 66,7 %, was eine deutliche Überlegenheit gegenüber allen Baselines darstellt. Die Integration menschlicher Daten verbesserte sowohl die In-Domain- als auch die OOD-Leistung erheblich. Im realen Einsatz auf dem IRON-R01-1.11 Humanoiden übertraf VLA-UniT die GR00T-Baseline in Aufgaben wie "Pick & Place" und "Pouring" signifikant, besonders bei Aufgaben, die eine koordinierte beidhändige Kontrolle erfordern.

Q3: Effektive Weltmodellierung

WM-UniT zeigte eine überlegene Steuerbarkeit bei der Videogenerierung auf dem DROID-Datensatz und verbesserte die Konsistenz der Dynamikvorhersage durch Co-Training und Vortraining mit menschlichen Daten. Experimente zur Cross-Embodiment-Konditionierung demonstrierten, dass UniT-Tokens eine feingranulare Aktionssemantik, Magnitudensensitivität und zeitliche Kohärenz zwischen menschlichen und Robotik-Domänen übertragen können.

Q4: Design-Validierung durch Ablationsstudien

Ablationsstudien bestätigten, dass sowohl die Synergie von visuellen und Aktionsmodalitäten als auch die bidirektionale Kreuzrekonstruktion entscheidend für die Leistungsfähigkeit von UniT sind. UniT übertraf Varianten, die nur eine Modalität nutzten oder bei denen die Kreuzrekonstruktion fehlte oder unidirektional war, deutlich.

Ausblick und zukünftige Potenziale

UniT bietet eine skalierbare Lösung für das Problem der Datenknappheit in der humanoiden Robotik. Die visuelle Branch von UniT kann physische Übergänge allein aus Beobachtungen kodieren, ohne gepaarte Aktionsannotationen zu benötigen. Dies eröffnet die Möglichkeit, riesige, ungenutzte Reservoirs von Internetvideos zu nutzen, in denen Menschen vielfältige physische Aufgaben ohne motorische Labels ausführen. Solche Daten könnten als zusätzliche Quelle physikalischer Prioritäten dienen, die den gemeinsamen latenten Raum bereichern.

Die Tatsache, dass UniT als einheitliche Schnittstelle sowohl für Policy Learning als auch für Weltmodelle dient, deutet auf eine tiefere Möglichkeit hin: Policies könnten latente Aktionen vorschlagen, Weltmodelle könnten ihre visuellen Konsequenzen simulieren, und die daraus resultierenden imaginierten Rollouts könnten als Belohnungssignale für Reinforcement Learning zurückfließen oder die Testzeitplanung durch Suche im latenten Raum ermöglichen. Diese geschlossene Schleifen-Koevolution, die vollständig innerhalb des gemeinsamen Token-Raums vermittelt wird, könnte ein vielversprechender Weg zu skalierbarer verkörperter Intelligenz sein.

Die Architektur von UniT stellt einen bedeutenden Fortschritt im Bereich der humanoiden Robotik dar, indem sie die Übertragung von menschlichem Wissen auf Roboter nicht nur effizienter, sondern auch robuster und generalisierbarer macht. Dies ebnet den Weg für die Entwicklung von Robotern, die in der Lage sind, komplexe Aufgaben in dynamischen und unstrukturierten Umgebungen autonom zu bewältigen.

Bibliographie

- Chen, B., Chen, Y., Qiu, L., Bai, J., Ge, Y., & Ge, Y. (2026). UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling. arXiv preprint arXiv:2604.19734. - Hoque, R., Huang, P., Yoon, D. J., Sivapurapu, M., & Zhang, J. (2025). EgoDex: learning dexterous manipulation from large-scale egocentric video. arXiv preprint arXiv:2505.11709. - Khazatsky, A., Pertsch, K., Nair, S., Balakrishna, A., Dasari, S., Karamcheti, S., ... & Finn, C. (2024). DROID: a large-scale in-the-wild robot manipulation dataset. RSS. - NVIDIA et al. (2025a). World simulation with video foundation models for physical ai. - NVIDIA et al. (2025b). GR00T n1: an open foundation model for generalist humanoid robots. - NVIDIA et al. (2025c). GR00T N1: an open foundation model for generalist humanoid robots. - Pertsch, K., Stachowicz, K., Ichter, B., Driess, D., Nair, S., Vuong, Q., ... & Levine, S. (2025). Fast: efficient action tokenization for vision-language-action models. arXiv preprint arXiv:2501.09747. - van der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9(86), 2579-2605. - Michael Abramov, Founder and CEO of Introspector (2026). We Taught Robots to Move. Now We Are Teaching Them to Live. Unite.AI. Available at: https://www.unite.ai/physical-ai-robotics-evolution-egocentric-data-pretraining/