Visuelles Prompting als Wegbereiter der Mensch-Maschine-Interaktion

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Die künstliche Intelligenz revolutioniert kontinuierlich die Interaktion zwischen Mensch und Maschine, und mit den fortschreitenden Entwicklungen in der visuellen Wahrnehmung und Sprachverarbeitung entstehen innovative Ansätze zur Verarbeitung und Generierung von Wissen. Ein solches innovatives Konzept ist das visuelle Prompting, ein Ansatz, der in der Welt der Vision-Language-Modelle (VLMs) zunehmend an Bedeutung gewinnt. Google stellte kürzlich PIVOT (Prompting with Iterative Visual Optimization) vor, ein neues Verfahren, das durch iteratives visuelles Prompting handlungsrelevantes Wissen für VLMs erzeugt.

PIVOT ist eine visuelle Prompting-Methode, die Aufgaben als iteratives visuelles Fragenbeantworten konzipiert. In jedem Iterationsschritt wird das Bild mit einer visuellen Darstellung von Vorschlägen annotiert, auf die sich das VLM beziehen kann, wie z.B. Kandidatenaktionen eines Roboters, Lokalisierungen oder Trajektorien. Das VLM wählt dann die besten Vorschläge für die Aufgabe aus. Diese Vorschläge werden iterativ verfeinert, sodass das VLM schließlich die beste verfügbare Antwort finden kann.

Google untersuchte PIVOT in Anwendungsbereichen wie der realen Roboternavigation, der realen Manipulation aus Bildern, der Befolgung von Anweisungen in der Simulation und zusätzlichen räumlichen Inferenzaufgaben wie der Lokalisierung. Überraschenderweise ermöglicht dieser Ansatz die Nullschuss-Steuerung von Robotersystemen ohne jegliche Roboterschulungsdaten, die Navigation in einer Vielzahl von Umgebungen und weitere Fähigkeiten.

Obwohl die aktuelle Leistung noch nicht perfekt ist, hebt die Arbeit das Potenzial und die Grenzen dieses neuen Regimes hervor und zeigt einen vielversprechenden Ansatz für Internet-Scale VLMs in den Bereichen Robotik und räumliches Denken.

Der Bereich des visuellen Promptings ist vielfältig und umfasst verschiedene Ansätze zur Interaktion mit VLMs. Zum Beispiel untersuchten Forscher im Rahmen des Projekts Fine-Grained Visual Prompting (FGVP) feinkörnige visuelle Prompting-Designs. Sie fanden heraus, dass die Anwendung eines Blur Reverse Mask, bei dem der Bereich außerhalb der Zielmaske unscharf gemacht wird, besonders effektiv ist. Dieser Ansatz nutzt präzise Maskenannotationen, um den Fokus von schwach verwandten Bereichen wegzulenken und gleichzeitig die räumliche Kohärenz zwischen Ziel und Hintergrund zu bewahren. FGVP zeigte eine überlegene Leistung im Zero-Shot-Verstehen von referenzierenden Ausdrücken auf den Benchmarks RefCOCO, RefCOCO+ und RefCOCOg und übertraf die früheren Methoden um durchschnittlich 3,0% bis 4,6%, mit einer maximalen Verbesserung von 12,5% auf dem RefCOCO+ TestA Subset.

Ein weiteres Projekt, LaViP, konzentrierte sich auf sprachbegründete visuelle Prompts und entwickelte eine parameter-effiziente Strategie zur Anpassung des visuellen Encoders von VLMs für nachgelagerte Aufgaben. Im Vergleich zu bestehenden Ansätzen erhöhte die Verankerung visueller Prompts in Sprache sowohl die Genauigkeit als auch die Geschwindigkeit der Anpassung und zeigte eine hervorragende Generalisierung von Basis- zu neuartigen Klassen.

Diese Entwicklungen zeigen, wie visuelles und sprachliches Prompting verwendet werden kann, um die Flexibilität und aufgabenspezifische Leistung von VLMs zu verbessern. Visuelles Prompting, insbesondere, bietet eine vielversprechende Methode zur Anpassung großer Modelle und zur Verbesserung ihrer räumlichen Verständnisfähigkeit.

Quellen:
1. Gu, J., Han, Z., Chen, S., Beirami, A., He, B., Zhang, G., Liao, R., Qin, Y., Tresp, V., & Torr, P. (2023). A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models. arXiv preprint arXiv:2307.12980.
2. Yang, L., Wang, Y., Li, X., Wang, X., & Yang, J. (2023). Fine-Grained Visual Prompting. NeurIPS 2023 poster.
3. Kunananthaseelan, N., Zhang, J., & Harandi, M. (2023). LaViP: Language-Grounded Visual Prompts. arXiv preprint arXiv:2312.10945v1.

Was bedeutet das?
No items found.