Nvidia und Apple Vision Pro revolutionieren die Robotik mit neuartigen Trainingsdaten

Kategorien:

No items found.

Freigegeben:

August 4, 2024

Nvidia und Apple Vision Pro: Eine neue Ära der Robotik-Trainingsdaten

Nvidia nutzt Apple Vision Pro zur Aufzeichnung menschlicher Robotersteuerung für realistischere Trainingsdaten

Nvidia hat einen bedeutenden Fortschritt in der Robotik erzielt, indem es die Apple Vision Pro Headsets verwendet, um menschliche Bewegungen aufzuzeichnen, die zur Steuerung von Robotern genutzt werden. Diese innovative Methode zielt darauf ab, die sogenannte "Simulationslücke" zu schließen und humanoide Roboter für den Einsatz in alltäglichen Aufgaben zu trainieren.

Projekt GR00T und die Herausforderung der Datenerfassung

Unter der Leitung von Jim Fan, Senior Research Manager und Leiter des Bereichs Embodied AI bei Nvidia, hat das Unternehmen das Projekt GR00T ins Leben gerufen. Dieses Projekt ist eine AI-Plattform zur Entwicklung humanoider Roboter. Ein zentrales Problem bei der Entwicklung solcher Roboter ist der Mangel an qualitativ hochwertigen Trainingsdaten. Nvidia hat eine Lösung gefunden, indem es menschliche und synthetische Daten kombiniert.

Menschen tragen das Apple Vision Pro Headset und steuern Roboter aus der Ich-Perspektive. Dabei führen sie Aufgaben wie das Zubereiten von Toast oder das Holen eines Glases aus einem Schrank aus. Die Vision Pro Headsets erfassen die Handbewegungen der Menschen und übertragen diese Bewegungen in Echtzeit auf die Roboterhände.

Der Einsatz von RoboCasa und MimicGen

Nachdem die Daten erfasst sind, verwendet Nvidia das RoboCasa-Simulationsframework, um diese Daten um das Tausendfache oder mehr zu multiplizieren. Das MimicGen-System erweitert den Datensatz weiter, indem es neue Aktionen basierend auf den ursprünglichen menschlichen Daten generiert und dabei erfolglose Versuche herausfiltert.

Jim Fan erklärt: "Dies ist der Weg, um Rechenleistung gegen teure menschliche Daten durch GPU-beschleunigte Simulation zu tauschen. Teleoperation ist grundsätzlich nicht skalierbar, da wir immer durch 24 Stunden/Roboter/Tag in der Welt der Atome begrenzt sind. Unsere neue GR00T-Synthesedaten-Pipeline durchbricht diese Barriere in der Welt der Bits."

Der "Drei-Computer-Ansatz" von Jensen Huang

Auf der diesjährigen Siggraph-Konferenz erläuterte Nvidia-CEO Jensen Huang das "Drei-Computer-Problem" bei der Robotikentwicklung. Dabei werden separate Computer für die Erstellung der AI, deren Simulation und deren Ausführung im tatsächlichen Roboter verwendet. Dieser mehrstufige Ansatz stellt sicher, dass AI-Modelle gründlich entworfen, getestet und optimiert werden, bevor sie in der realen Welt eingesetzt werden.

Offene Tools und der Weg in die Zukunft

RoboCasa ist jetzt vollständig Open-Source und unter robocasa.ai verfügbar. Auch MimicGen ist für Roboterarme Open-Source, wobei eine Version für Humanoide und fünfgliedrige Hände in Entwicklung ist.

Durch die Kombination von realen und synthetischen Daten könnte Nvidia helfen, die sogenannte Realitätssimulationslücke zu schließen. Dieser Begriff beschreibt die Schwierigkeit, robotische Systeme, die ausschließlich in einer Simulation trainiert wurden, auf die normalerweise viel komplexere Realität zu übertragen.

Nvidia setzt auf eine Mischung aus menschlichen und synthetischen Daten, um das Problem des Mangels an Trainingsdaten für humanoide Roboter zu lösen. Mithilfe des Apple Vision Pro steuern Menschen die Roboter und nehmen Beispielaktionen auf. Das RoboCasa-Simulationsframework multipliziert die aufgezeichneten Daten um das Tausendfache oder mehr. MimicGen generiert zusätzliche Aktionssequenzen aus den ursprünglichen Daten und filtert Fehler heraus. Auf diese Weise können teure menschliche Daten durch GPU-beschleunigte Simulationen ersetzt werden.

Jensen Huang, CEO von Nvidia, erklärt auch das "Drei-Computer-Problem" in der Robotikentwicklung: ein Computer für die AI-Erstellung, einer für die Simulation und einer für die Ausführung. Open-Source-Tools wie RoboCasa und MimicGen sollen das Robotik-Ökosystem im Einklang mit Nvidias Software und Hardware ausbauen.

Mit diesen Fortschritten hofft Nvidia, die Entwicklung humanoider Roboter zu beschleunigen und ihnen zu ermöglichen, sich besser an die reale Welt anzupassen. Dies könnte die Entwicklung in verschiedenen Anwendungsbereichen vorantreiben, von Haushaltsassistenten bis hin zur industriellen Automatisierung.

Quellen

https://blogs.nvidia.com/blog/omniverse-apple-vision-pro/ https://twitter.com/BRNZ_ai/status/1818718866119557537 https://wallstreetpit.com/119370-from-vision-pro-to-virtual-armies-nvidias-data-revolution/ https://www.apple.com/newsroom/2024/04/apple-vision-pro-brings-a-new-era-of-spatial-computing-to-business/ https://nvidianews.nvidia.com/news/foundation-model-isaac-robotics-platform https://encord.com/blog/vision-radiology-apple-vision-pro-application/ https://www.linkedin.com/pulse/apples-vision-pro-threat-opportunity-future-ai-design-sheikhansari https://www.apple.com/newsroom/2024/03/apple-vision-pro-unlocks-new-opportunities-for-health-app-developers/ https://m.php.cn/faq/1796551290.html https://www.livescience.com/technology/virtual-reality/watch-scientists-control-a-robot-with-their-hands-while-wearing-the-apple-vision-pro

Was bedeutet das?