Robotik durch Beobachtung: Neue Wege der Manipulation durch maschinelles Lernen

Kategorien:

No items found.

Freigegeben:

September 27, 2024

Die Fähigkeit des Menschen, durch Beobachten anderer neue Objekte zu manipulieren, ist bemerkenswert. Könnten Roboter auf ähnliche Weise lernen, würde dies eine natürlichere Schnittstelle zur Programmierung neuer Verhaltensweisen eröffnen. In diesem Kontext präsentiert sich "Robot See Robot Do" (RSRD) als vielversprechende Methode zur Imitation der Manipulation gelenkiger Objekte. RSRD benötigt lediglich eine einzige monokulare RGB-Demonstration durch einen Menschen sowie einen statischen Multi-View-Objektscan.

4D-DPM: Den Schlüssel zur 3D-Bewegungserfassung liefern

Zentral für RSRD ist die Entwicklung von "4D Differentiable Part Models" (4D-DPM). Dieser Ansatz ermöglicht die Rekonstruktion der 3D-Bewegung von Objektteilen aus einem monokularen Video mittels differenzierbarem Rendering. Vereinfacht ausgedrückt, versucht 4D-DPM, die Entstehung des Videos aus den 3D-Bewegungen der Objektteile zu simulieren. Durch den Vergleich der simulierten Bilder mit dem tatsächlichen Videomaterial und die schrittweise Anpassung der simulierten 3D-Bewegungen, kann 4D-DPM die tatsächliche 3D-Bewegung der Objektteile rekonstruieren. Dieser Ansatz wird als "Analyse durch Synthese" bezeichnet. Die Verwendung von geometrischen Regularisierern, die die Plausibilität der 3D-Bewegungen sicherstellen, ermöglicht es 4D-DPM, diese Rekonstruktion auch aus einem einzigen Video durchzuführen.

Von der 4D-Rekonstruktion zur Roboterbewegung

Basierend auf der 4D-Rekonstruktion plant der Roboter seine Bewegungen. Dabei liegt der Fokus nicht auf der direkten Nachahmung der menschlichen Hand, sondern auf der Replikation der Bewegung der Objektteile. Dies wird durch die Planung bimanueller Armbewegungen erreicht, die die gewünschte Bewegung der Objektteile hervorrufen. Die Darstellung der Demonstration als Trajektorien einzelner Objektteile ermöglicht es RSRD, das eigentliche Ziel der Demonstration zu erfassen und dabei die morphologischen Einschränkungen des Roboters zu berücksichtigen.

RSRD in der Praxis: Eine Erfolgsgeschichte?

Die Evaluierung von 4D-DPM erfolgte anhand von 3D-Objektteil-Trajektorien, die mit Ground-Truth-Annotationen versehen waren. Die Ergebnisse zeigen eine hohe Genauigkeit bei der 3D-Verfolgung. Die Leistungsfähigkeit von RSRD wurde in physischen Ausführungstests mit einem bimanuellen YuMi-Roboter unter Beweis gestellt. In diesen Tests wurden 9 verschiedene Objekte verwendet, wobei jedes Objekt in 10 Durchläufen manipuliert werden musste. Die Erfolgsquote lag bei durchschnittlich 87% für jede Phase von RSRD, was zu einer beeindruckenden Gesamterfolgsquote von 60% über alle 90 Durchläufe hinweg führte.

Herausragend: Lernen ohne explizites Training

Besonders bemerkenswert ist, dass RSRD diese Leistungen ohne aufgabenspezifisches Training, Feinabstimmung, Datenerfassung oder Annotationen erzielt. Stattdessen nutzt RSRD vortrainierte Modelle zur visuellen Merkmalsextraktion. Diese Modelle wurden auf riesigen Datensätzen trainiert, um allgemeine visuelle Merkmale zu erlernen, die sich auf eine Vielzahl von Aufgaben übertragen lassen. RSRD nutzt diese vortrainierten Modelle, um die relevanten visuellen Informationen aus den Demonstrationsvideos zu extrahieren, ohne dass ein Training speziell für die jeweilige Manipulationsaufgabe erforderlich ist. Dieser Ansatz des "Zero-Shot-Learning" ist ein vielversprechender Schritt in Richtung einer flexibleren und anpassungsfähigeren Robotermanipulation.

Zusammenfassend lässt sich sagen, dass RSRD einen bedeutenden Fortschritt im Bereich der Robotermanipulation darstellt. Durch die Kombination von 4D-DPM und der Fokussierung auf Objektteile ebnet RSRD den Weg für eine intuitivere und effizientere Interaktion zwischen Mensch und Roboter. Die Fähigkeit, aus einer einzigen Demonstration zu lernen, ohne auf aufgabenspezifisches Training angewiesen zu sein, eröffnet neue Möglichkeiten für den Einsatz von Robotern in einer Vielzahl von Anwendungsbereichen.

Bibliographie

- https://openreview.net/forum?id=2LLu3gavF1
- https://openreview.net/pdf/fba2aad444602b0131b3d699d4ac066d095f43c6.pdf
- https://www.researchgate.net/publication/365699733_Learning_to_Imitate_Object_Interactions_from_Internet_Videos
- https://ras.papercept.net/conferences/conferences/ICRA24/program/ICRA24_ContentListWeb_1.html
- https://github.com/PaoPaoRobot/IROS2022-paper-list
- https://ras.papercept.net/conferences/conferences/ICRA24/program/ICRA24_ContentListWeb_2.html
- https://www.researchgate.net/publication/364642440_DexMV_Imitation_Learning_for_Dexterous_Manipulation_from_Human_Videos?_share=1
- https://lnnx2006.github.io/publications/
- https://cvg.cit.tum.de/members/sturmju/phd_thesis&astext=1
- https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/stachniss-habil.pdf

Was bedeutet das?