Schlussfolgerungen zur Nutzung menschlicher Videos für die Entwicklung von Embodied AI

Kategorien:
No items found.
Freigegeben:
November 6, 2024

Artikel jetzt als Podcast anhören

In der Welt der Embodied AI, die sich mit der Interaktion von künstlicher Intelligenz mit der physischen Welt beschäftigt, spielt die Verfügbarkeit von Interaktionsdaten eine entscheidende Rolle. Im Gegensatz zu den riesigen Mengen an Text- und Videodaten im Internet sind Trainingsdaten für Roboter, die reale Aufgaben ausführen, deutlich knapper. Dies begrenzt die Entwicklung von sogenannten Foundation Models, die auf großen Datensätzen trainiert werden und so ein breites Verständnis von Aufgaben und Umgebungen entwickeln. Ein vielversprechender Ansatz, um diese Datenlücke zu schließen, ist die Nutzung von öffentlich verfügbaren Videos menschlicher Aktivitäten.

Von menschlichen Videos zu Roboteraktionen: Das IGOR-Konzept

Forscher von Microsoft Research haben mit IGOR (Image-GOal Representations) ein neuartiges Framework entwickelt, das genau diesen Ansatz verfolgt. IGOR lernt einen einheitlichen Aktionsraum, der sowohl für menschliche als auch für Roboteraktionen gilt. Dies ermöglicht den Wissenstransfer zwischen großen Datensätzen von Roboter- und menschlichen Aktivitätsdaten. Der Kern von IGOR besteht darin, visuelle Veränderungen zwischen einem Ausgangsbild und einem Zielbild in latente Aktionen zu komprimieren. Diese latenten Aktionen repräsentieren die Essenz der Bewegung oder Manipulation, die nötig ist, um vom Ausgangszustand zum Zielzustand zu gelangen. Das Besondere an IGOR ist, dass es semantisch konsistente latente Aktionen lernt. Ähnliche visuelle Veränderungen, unabhängig davon, ob sie von einem Menschen oder einem Roboter ausgeführt werden, werden in ähnliche latente Aktionen übersetzt. Dies ermöglicht es, Internetvideos mit latenten Aktionslabels zu versehen und so große Mengen an Trainingsdaten für Embodied AI-Modelle zu generieren.

Aufbau und Funktionsweise von IGOR

Das IGOR-Framework besteht aus drei Hauptkomponenten: einem latenten Aktionsmodell, einem Foundation Policy Model und einem Foundation World Model. Das latente Aktionsmodell lernt, die visuellen Veränderungen zwischen Bildpaaren in latente Aktionen zu kodieren. Das Foundation Policy Model agiert als High-Level-Controller und sagt die nächste latente Aktion basierend auf einer gegebenen Aufgabe, beispielsweise in Form einer natürlichsprachlichen Anweisung, vorher. Das Foundation World Model lernt, die Auswirkungen der Ausführung einer latenten Aktion zu simulieren. Durch das gemeinsame Training dieser drei Komponenten auf großen Videodatensätzen lernt IGOR, komplexe Aufgaben zu verstehen und auszuführen. Die latenten Aktionen dienen dabei als Brücke zwischen der visuellen Wahrnehmung und der motorischen Steuerung.

Experimentelle Ergebnisse und Potenziale

Die Forscher haben IGOR auf einer Kombination aus menschlichen Videodaten und Roboterdaten trainiert und die Ergebnisse auf dem RT-1-Datensatz evaluiert. Die Ergebnisse zeigen, dass IGOR semantisch konsistente latente Aktionen lernt und diese sogar auf unbekannte Szenarien generalisieren kann. Das World Model kann beispielsweise die Bewegungen eines Objekts in einem Video auf andere Videos übertragen, selbst wenn diese Objekte von unterschiedlicher Art sind oder die Bewegung ursprünglich von einem Mensch ausgeführt wurde. Darüber hinaus kann IGOR durch das Foundation Policy Model natürlichsprachliche Anweisungen verstehen und in entsprechende latente Aktionen übersetzen. Die Integration von IGOR mit Low-Level-Steuerungsmodellen für Roboter zeigt vielversprechende Ergebnisse in der Verbesserung der Roboterleistung, insbesondere in Szenarien mit wenigen Trainingsdaten. Die Fähigkeit, aus menschlichen Videos zu lernen und das Gelernte auf Roboter zu übertragen, eröffnet neue Möglichkeiten für die Entwicklung von flexiblen und anpassungsfähigen Robotern.

Fazit

IGOR stellt einen wichtigen Schritt in Richtung einer skalierbaren und generalisierbaren Embodied AI dar. Durch die Nutzung von Internetvideos als Datenquelle und die Einführung von latenten Aktionen als einheitlichem Aktionsraum ermöglicht IGOR den Wissenstransfer zwischen Mensch und Roboter und ebnet den Weg für leistungsfähigere und vielseitigere Robotersysteme. Die weitere Forschung in diesem Bereich könnte zu noch robusteren und effizienteren Methoden für das Training von Embodied AI-Modellen führen und so die Entwicklung von Robotern beschleunigen, die komplexe Aufgaben in der realen Welt bewältigen können. Bibliographie - Chen, X., et al. "IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI." arXiv preprint arXiv:2411.00785 (2024). - Microsoft. "IGOR: Image-Goal Representations." - Microsoft. "IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI." - HCPLab-SYSU. "Embodied_AI_Paper_List." GitHub repository. - IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2024). Conference Program. - Hugging Face. "HuggingDiscussions." - arXiv. "Robotics (cs.RO) past week." - SCADS.ai. "Publications." - IEEE International Conference on Robotics and Automation (ICRA 2024). Conference Program. - Institut für Photogrammetrie und Fernerkundung, Universität Bonn. "Publications."
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.