In den letzten Jahren hat die Entwicklung großer multimodaler Modelle (LMMs) wie GPT-4V(ision) und Gemini die Fähigkeiten von künstlicher Intelligenz signifikant erweitert und die Grenzen dessen, was wir von AI-Systemen erwarten, neu definiert. Diese Modelle gehen über traditionelle Aufgaben wie Bildbeschriftung und visuelle Fragenbeantwortung hinaus und öffnen die Tür zu einem breiteren Anwendungsspektrum. Ein besonders spannendes Feld ist die Nutzung von LMMs als generalistische Webagenten, die natürlichsprachliche Anweisungen befolgen können, um Aufgaben auf beliebigen Websites zu erledigen.
Das Konzept des generalistischen Webagenten bedeutet, dass ein AI-System nicht nur für spezifische Aufgaben oder auf spezifischen Websites effektiv ist, sondern dass es die Fähigkeit besitzt, eine Vielzahl von Aufgaben über das gesamte Web hinweg zu bewältigen. Dies erfordert ein tiefgreifendes Verständnis sowohl der visuellen als auch der textlichen Inhalte von Webseiten, sowie die Fähigkeit, diese Informationen zu integrieren und darauf basierend zu handeln.
GPT-4V(ision) ist ein solches System, das auf dem neuesten Stand der Technik in der AI-Forschung aufbaut und das Verständnis für multimodale Interaktionen auf ein neues Niveau hebt. Entwickelt von OpenAI, repräsentiert GPT-4V(ision) eine neue Generation von AI-Modellen, die dazu in der Lage sind, Text und Bilder nicht nur zu verstehen, sondern auch zu generieren. Dies eröffnet eine breite Palette von Anwendungsmöglichkeiten, von der Erstellung dynamischer Inhalte bis hin zu komplexen Interaktionen mit Usern über verschiedene Medien hinweg.
Ein kürzlich veröffentlichtes Papier, das auf arXiv zugänglich ist, stellt SEEACT vor, einen Ansatz, der die Möglichkeiten von GPT-4V(ision) nutzt, um als generalistischer Webagent zu fungieren. SEEACT zeichnet sich durch die Integration visueller Verständnisfähigkeiten und Handlungskompetenzen auf dem Web aus. Die Forscher evaluierten das Modell mithilfe des MIND2WEB-Benchmarks, der eine reale Online-Bewertung auf Live-Websites ermöglicht. Die Ergebnisse zeigen, dass GPT-4V(ision) in der Lage ist, 50 % der Aufgaben auf Live-Websites erfolgreich zu bewältigen, sofern seine textuellen Pläne manuell in Aktionen auf den Websites umgesetzt werden. Dies übertrifft bei weitem die Leistung von rein textbasierten LLMs wie GPT-4 oder kleineren speziell für Webagenten angepassten Modellen wie FLAN-T5 und BLIP-2.
Dennoch bleibt das "Grounding", also die Fähigkeit der Modelle, ihre Pläne in konkrete Aktionen umzusetzen, eine große Herausforderung. Aktuelle Strategien zum Grounding, wie das Set-of-Mark-Prompting, erwiesen sich für Webagenten als nicht effektiv. Die beste im Papier entwickelte Grounding-Strategie nutzt sowohl den HTML-Text als auch visuelle Elemente. Trotz dieser Fortschritte gibt es immer noch eine erhebliche Lücke im Vergleich zum idealen Grounding, was darauf hinweist, dass in diesem Bereich noch viel Raum für Verbesserungen besteht.
Die Fähigkeit von GPT-4V(ision), visuelle Marker auf Eingabebildern zu verstehen, eröffnet darüber hinaus neue Möglichkeiten für Mensch-Computer-Interaktionen. Visual Referencing und Prompting könnten völlig neue Interaktionsformen zwischen Benutzern und Computern ermöglichen, indem Benutzer beispielsweise auf Bilder zeichnen, um die Interpretation durch das Modell zu lenken. Diese innovativen Ansätze könnten in naher Zukunft Realität werden und die Art und Weise, wie wir mit Computern interagieren, grundlegend verändern.
Die Autoren des Papiers betonen das Potenzial, das GPT-4V(ision) für zukünftige Anwendungsszenarien und Forschungsrichtungen bietet. Sie hoffen, dass ihre vorläufige Erkundung andere Forscher inspirieren wird, neue multimodale Aufgabenformulierungen zu entwickeln, LMMs weiter zu verbessern und ein besseres Verständnis für multimodale Grundmodelle zu gewinnen.
Zusammenfassend lässt sich sagen, dass GPT-4V(ision) als Teil der fortschreitenden Entwicklung in der AI-Technologie nicht nur die Fähigkeiten von AI-Systemen erweitert, sondern auch die Art und Weise, wie wir über die Möglichkeiten von künstlicher Intelligenz denken, neu prägt. Es stellt einen wichtigen Schritt in Richtung einer stärker integrierten, intelligenten und flexiblen AI dar, die in der Lage ist, komplexe Aufgaben über eine Vielzahl von Plattformen und Kontexten hinweg zu bewältigen.