Neue Methoden im Robotik Lernen: Effizienz durch Next-Token Prediction und In-Context Imitation

Kategorien:
No items found.
Freigegeben:
August 30, 2024
In-Context Imitation Learning auf Basis von Next-Token Prediction

In-Context Imitation Learning auf Basis von Next-Token Prediction

Die jüngsten Fortschritte in der Künstlichen Intelligenz haben die Fähigkeit von Robotern erheblich erweitert, neue Aufgaben durch die Interpretation kontextueller Informationen auszuführen. Ein bemerkenswerter Beitrag zu diesem Feld ist das Konzept des In-Context Imitation Learning, das durch Next-Token Prediction realisiert wird. Diese Methode ermöglicht es Robotern, Aufgaben durch die Analyse von Sensor-Motor-Daten zu bewältigen, ohne dass eine Aktualisierung der zugrundeliegenden Richtlinienparameter erforderlich ist.

In-Context Robot Transformer (ICRT)

Der In-Context Robot Transformer (ICRT) ist ein kausaler Transformer, der autoregressive Vorhersagen auf Basis von Sensor-Motor-Trajektorien trifft. Im Gegensatz zu anderen Modellen benötigt ICRT keine sprachlichen Daten oder Belohnungsfunktionen. Diese einfache Formulierung erlaubt eine flexible und trainingsfreie Ausführung neuer Aufgaben zur Testzeit. Das Modell wird mit Sensor-Motor-Trajektorien der neuen Aufgabe, bestehend aus Bildbeobachtungen, Aktionen und Zuständen, die durch menschliche Teleoperation gesammelt wurden, angeregt.

Methodologie

Um die Beobachtungen des Roboters zu kodieren, werden die Bilddaten (linke und Handgelenkskamera) mit einem vortrainierten Vision Transformer verarbeitet. Die Propriozeption wird zusätzlich durch ein mehrschichtiges Perzeptron (MLP) kodiert. Die visuellen Latent- und Propriozeptions-Latents werden zusammengeführt und durch eine Aufmerksamkeits-Pooling-Schicht extrahiert, um den aktuellen Zustand zu repräsentieren. Ein weiteres MLP kodiert die Aktion, die in diesem Schritt ausgeführt wurde.

Mehrere Trajektorien derselben Aufgabe werden zusammengeführt, und die ersten k Trajektorien werden zufällig als Anreiz ausgewählt. Diese Trajektorien werden über einen kausalen Transformer kodiert, und das Modell dekodiert eine Serie von Tokens. Diese Tokens werden an den Positionen der Zustandsmerkmale dekodiert, um die nächsten 16 Aktionen über ein MLP zu generieren.

Modellarchitektur und Training

Das Transformer-Modell basiert auf einem zufällig initialisierten Llama2-Modell mit 12 Schichten und einer latenten Dimension von 768. Es nimmt eine Sequenz von Zustands- und Aktionsmerkmalen auf, die durch modalitätsspezifische Projektoren erzeugt werden. MLP-Dekoder produzieren Zustands- und Aktionsausgaben aus der letzten Schicht des Transformers an den entsprechenden Positionen.

Für das Training wird ein großes robotisches Datenset namens DROID sowie ein manuell erstelltes Multitask-Dataset (ICRT-Multi-Task) verwendet. Das ICRT-MT-Dataset umfasst 1098 Trajektorien und enthält 26 Aufgaben mit 6 Primitiven. ICRT wird auf dem DROID-Dataset vortrainiert und anschließend auf ICRT-MT feinabgestimmt.

Verlustfunktion

Während des Trainings werden n Trajektorien für eine Gesamtlänge von L als Eingabe verwendet. Die ersten k Trajektorien werden zufällig ausgewählt und als Anreiz innerhalb der Sequenz gekennzeichnet. Mindestens eine vollständige Trajektorie ist im Anreiz enthalten. Die Aktionsvorhersage wird nur für die Aktionen nach den Anreiztrajektorien mit L1-Verlust berechnet.

Experimente und Ergebnisse

Die Experimente umfassen zwei Aktionsprimitive: ein Pick-and-Place-Primitiv und ein Poking-Primitiv. Für jedes Aktionsprimitiv wurden sechs unbekannte Aufgaben entworfen, wobei drei Aufgaben die Generalisierung im Bereich und drei die Generalisierung auf nicht gesehene Objekte bewerten.

Die Ergebnisse zeigen, dass ICRT die anderen Varianten und Baselines übertrifft. ICRT kann auf unbekannte Aufgaben und Objekte generalisieren, selbst in Umgebungen, die vom Anreiz abweichen.

Fazit

Der In-Context Robot Transformer (ICRT) stellt einen signifikanten Fortschritt im Bereich der Robotik dar. Durch die Nutzung von Next-Token Prediction ermöglicht dieses Modell eine flexible und effektive Ausführung neuer Aufgaben ohne zusätzliche Trainingsanforderungen. Die Ergebnisse der Experimente belegen die Überlegenheit von ICRT gegenüber bestehenden Modellen und heben das Potenzial dieser innovativen Methode hervor, die zukünftige Entwicklungen in der Robotik zu beeinflussen.

Bibliographie

- https://icrt.dev/ - https://arxiv.org/pdf/2403.06963 - https://boyuan.space/diffusion-forcing/ - https://roboticsconference.org/program/papersession/?session=17.%20Imitation%20learning&c1=Rudolf%20Lioutikov&c2=Youngwoon%20Lee&c1a=&c2a= - https://www.arxiv.org/abs/2408.13442 - https://groups.csail.mit.edu/robotics-center/public_papers/Chen24.pdf - https://roboticsconference.org/program/papersession/ - https://github.com/dair-ai/ML-Papers-of-the-Week - https://openreview.net/pdf?id=suzMI2P1rT - https://people.ee.duke.edu/~lcarin/WSIL.pdf
Was bedeutet das?