Neuer Ansatz zur Leistungssteigerung verkörperter Agenten durch Trajektorienabfrage

Kategorien:
No items found.
Freigegeben:
October 11, 2024
Große Sprachmodelle (LLMs) haben sich in jüngster Zeit als vielversprechend für komplexe Aufgaben in der Robotik erwiesen, insbesondere im Bereich der verkörperten Künstlichen Intelligenz (KI). Diese Agenten, die in der Lage sind, mit ihrer Umgebung zu interagieren und Aufgaben in der realen Welt auszuführen, benötigen jedoch ein tiefes Verständnis sowohl des aktuellen Kontexts als auch aufgabenspezifisches Wissen. Eine Möglichkeit, dieses Wissen bereitzustellen, ist die Verwendung von Trajektoriedaten. Diese Daten, die Abfolgen von Aktionen und Beobachtungen enthalten, können wertvolle Einblicke in die Ausführung von Aufgaben liefern und so den Agenten als eine Art Erfahrungsschatz dienen. Herkömmliche Verfahren zur Trajektorienabfrage konzentrieren sich jedoch hauptsächlich auf oberflächliche Ähnlichkeiten in Text- oder Bildbeschreibungen der Trajektorien. Sie berücksichtigen nicht die tatsächliche Effektivität einer Trajektorie für die jeweilige Aufgabe. Beispielsweise kann eine Trajektorie zwar eine ähnliche Aufgabenbeschreibung aufweisen, aber in einer anderen Umgebung stattfinden oder eine andere Anordnung von Objekten aufweisen. Um dieses Problem zu lösen, wurde ein neuer Ansatz namens "MLLM as ReTriever" (MART) entwickelt. Dieser Ansatz nutzt interaktives Lernen, um die Leistung von verkörperten Agenten zu verbessern. Anstatt sich nur auf oberflächliche Ähnlichkeiten zu verlassen, wird MART mithilfe von Interaktionsdaten feinabgestimmt, um die Effektivität von Trajektorien für eine bestimmte Aufgabe zu bewerten. MART verwendet dabei ein sogenanntes Präferenzlernen. Der Agent interagiert zunächst mit der Umgebung, wobei ihm verschiedene Trajektorien als Referenz dienen. Anhand des Erfolgs oder Misserfolgs des Agenten bei der Ausführung der Aufgabe werden die Trajektorien bewertet und in Präferenzpaare eingeteilt. Diese Paare werden dann verwendet, um ein großes Sprachmodell – in diesem Fall LLaVA – zu optimieren. Um die Trajektoriedaten effizienter zu verarbeiten, wurde außerdem ein Mechanismus namens "Trajectory Abstraction" eingeführt. Dieser Mechanismus nutzt die Fähigkeit von LLMs zur Zusammenfassung, um Trajektorien mit weniger Tokens darzustellen, ohne dabei wichtige Informationen zu verlieren. Experimentelle Ergebnisse in verschiedenen Umgebungen haben gezeigt, dass MART die Erfolgsraten von verkörperten Agenten bei Aufgaben in unbekannten Szenarien deutlich verbessert. Dies liegt daran, dass MART in der Lage ist, die effektivsten Trajektorien aus vergangenen Erfahrungen abzurufen und so den Agenten bei der Entscheidungsfindung zu unterstützen. MART stellt somit einen neuen Ansatz für die multimodale Abfrage in verkörperten Agenten dar. Durch die Feinabstimmung eines allgemeinen LLMs als Retriever, der die Effektivität von Trajektorien bewertet, können diese Agenten effektiver in unbekannten Umgebungen agieren und komplexe Aufgaben erfolgreicher ausführen. ## Quellenangaben - Yue, J., Xu, X., Karlsson, B. F., & Lu, Z. (2024). MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents. arXiv preprint arXiv:2410.03450. http://arxiv.org/abs/2410.03450 - https://arxiv.org/html/2410.03450v1 - https://linnk.ai/insight/machine-learning/interactively-learning-multimodal-retrieval-to-enhance-embodied-agent-performance-in-unseen-environments-the-mart-approach-wOLPhWqe/ - https://arxiv-sanity-lite.com/?rank=pid&pid=2410.03450 - https://bytez.com/docs/arxiv/2410.0345/paper - https://www.researchgate.net/publication/384198657_LEGENT_Open_Platform_for_Embodied_Agents - https://2024.aclweb.org/program/finding_papers/ - http://44.241.247.213/inspect?pid=2410.03450 - https://www.researchgate.net/publication/355023301_Retrieval-Augmented_Generation_for_Knowledge-Intensive_NLP_Tasks - https://github.com/azminewasi/Awesome-LLMs-ICLR-24
Was bedeutet das?