Schlussfolgerungen zur Nutzung menschlicher Videos für die Entwicklung von Embodied AI

Kategorien:

No items found.

Freigegeben:

November 6, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

In der Welt der Embodied AI, die sich mit der Interaktion von künstlicher Intelligenz mit der physischen Welt beschäftigt, spielt die Verfügbarkeit von Interaktionsdaten eine entscheidende Rolle. Im Gegensatz zu den riesigen Mengen an Text- und Videodaten im Internet sind Trainingsdaten für Roboter, die reale Aufgaben ausführen, deutlich knapper. Dies begrenzt die Entwicklung von sogenannten Foundation Models, die auf großen Datensätzen trainiert werden und so ein breites Verständnis von Aufgaben und Umgebungen entwickeln. Ein vielversprechender Ansatz, um diese Datenlücke zu schließen, ist die Nutzung von öffentlich verfügbaren Videos menschlicher Aktivitäten.

Von menschlichen Videos zu Roboteraktionen: Das IGOR-Konzept

Forscher von Microsoft Research haben mit IGOR (Image-GOal Representations) ein neuartiges Framework entwickelt, das genau diesen Ansatz verfolgt. IGOR lernt einen einheitlichen Aktionsraum, der sowohl für menschliche als auch für Roboteraktionen gilt. Dies ermöglicht den Wissenstransfer zwischen großen Datensätzen von Roboter- und menschlichen Aktivitätsdaten. Der Kern von IGOR besteht darin, visuelle Veränderungen zwischen einem Ausgangsbild und einem Zielbild in latente Aktionen zu komprimieren. Diese latenten Aktionen repräsentieren die Essenz der Bewegung oder Manipulation, die nötig ist, um vom Ausgangszustand zum Zielzustand zu gelangen. Das Besondere an IGOR ist, dass es semantisch konsistente latente Aktionen lernt. Ähnliche visuelle Veränderungen, unabhängig davon, ob sie von einem Menschen oder einem Roboter ausgeführt werden, werden in ähnliche latente Aktionen übersetzt. Dies ermöglicht es, Internetvideos mit latenten Aktionslabels zu versehen und so große Mengen an Trainingsdaten für Embodied AI-Modelle zu generieren.

Aufbau und Funktionsweise von IGOR

Das IGOR-Framework besteht aus drei Hauptkomponenten: einem latenten Aktionsmodell, einem Foundation Policy Model und einem Foundation World Model. Das latente Aktionsmodell lernt, die visuellen Veränderungen zwischen Bildpaaren in latente Aktionen zu kodieren. Das Foundation Policy Model agiert als High-Level-Controller und sagt die nächste latente Aktion basierend auf einer gegebenen Aufgabe, beispielsweise in Form einer natürlichsprachlichen Anweisung, vorher. Das Foundation World Model lernt, die Auswirkungen der Ausführung einer latenten Aktion zu simulieren. Durch das gemeinsame Training dieser drei Komponenten auf großen Videodatensätzen lernt IGOR, komplexe Aufgaben zu verstehen und auszuführen. Die latenten Aktionen dienen dabei als Brücke zwischen der visuellen Wahrnehmung und der motorischen Steuerung.

Experimentelle Ergebnisse und Potenziale

Die Forscher haben IGOR auf einer Kombination aus menschlichen Videodaten und Roboterdaten trainiert und die Ergebnisse auf dem RT-1-Datensatz evaluiert. Die Ergebnisse zeigen, dass IGOR semantisch konsistente latente Aktionen lernt und diese sogar auf unbekannte Szenarien generalisieren kann. Das World Model kann beispielsweise die Bewegungen eines Objekts in einem Video auf andere Videos übertragen, selbst wenn diese Objekte von unterschiedlicher Art sind oder die Bewegung ursprünglich von einem Mensch ausgeführt wurde. Darüber hinaus kann IGOR durch das Foundation Policy Model natürlichsprachliche Anweisungen verstehen und in entsprechende latente Aktionen übersetzen. Die Integration von IGOR mit Low-Level-Steuerungsmodellen für Roboter zeigt vielversprechende Ergebnisse in der Verbesserung der Roboterleistung, insbesondere in Szenarien mit wenigen Trainingsdaten. Die Fähigkeit, aus menschlichen Videos zu lernen und das Gelernte auf Roboter zu übertragen, eröffnet neue Möglichkeiten für die Entwicklung von flexiblen und anpassungsfähigen Robotern.

Fazit

IGOR stellt einen wichtigen Schritt in Richtung einer skalierbaren und generalisierbaren Embodied AI dar. Durch die Nutzung von Internetvideos als Datenquelle und die Einführung von latenten Aktionen als einheitlichem Aktionsraum ermöglicht IGOR den Wissenstransfer zwischen Mensch und Roboter und ebnet den Weg für leistungsfähigere und vielseitigere Robotersysteme. Die weitere Forschung in diesem Bereich könnte zu noch robusteren und effizienteren Methoden für das Training von Embodied AI-Modellen führen und so die Entwicklung von Robotern beschleunigen, die komplexe Aufgaben in der realen Welt bewältigen können. Bibliographie - Chen, X., et al. "IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI." arXiv preprint arXiv:2411.00785 (2024). - Microsoft. "IGOR: Image-Goal Representations." - Microsoft. "IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI." - HCPLab-SYSU. "Embodied_AI_Paper_List." GitHub repository. - IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2024). Conference Program. - Hugging Face. "HuggingDiscussions." - arXiv. "Robotics (cs.RO) past week." - SCADS.ai. "Publications." - IEEE International Conference on Robotics and Automation (ICRA 2024). Conference Program. - Institut für Photogrammetrie und Fernerkundung, Universität Bonn. "Publications."

Was bedeutet das?

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.