Innovativer Ansatz zur Bounding-Box-Vorhersage mit LocateAnything

Kategorien:

No items found.

Freigegeben:

May 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

LocateAnything ist ein Vision-Language-Modell (VLM), das die Bounding-Box-Vorhersage für KI-Agenten und Roboter neu definiert.
Die Kerninnovation ist das Parallel Box Decoding (PBD), das Begrenzungsrahmen parallel statt sequenziell decodiert.
LocateAnything wurde mit 138 Millionen hochwertigen Samples trainiert und verbessert die Lokalisierungsgenauigkeit erheblich.
Es steigert den Durchsatz für visuelles Grounding und Detektion drastisch, was für Echtzeit-Anwendungen entscheidend ist.
Das Modell erreicht bis zu 2,5-mal höhere Durchsatzraten als vergleichbare Methoden und übertrifft diese in der Lokalisierungsqualität.
Es unterstützt vielfältige Lokalisierungsaufgaben, einschliesslich Objektdetektion, GUI-Grounding, Referenzverstehen und OCR-Lokalisierung.

Die Fähigkeit von Künstlicher Intelligenz, ihre Umgebung nicht nur zu "sehen", sondern Objekte innerhalb dieser Umgebung präzise und schnell zu lokalisieren, ist für die Entwicklung autonomer Systeme und intelligenter Agenten von fundamentaler Bedeutung. Ein aktueller Forschungsbeitrag, der unter dem Titel „LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding“ auf der CVPR 2026 vorgestellt wurde, adressiert genau diese Herausforderung und präsentiert einen neuartigen Ansatz für die Bounding-Box-Vorhersage.

Revolutionäre Bounding-Box-Vorhersage durch Parallel Box Decoding

Herkömmliche Vision-Language-Modelle (VLMs) formulieren die visuelle Verankerung (Visual Grounding) und Objektdetektion oft als ein Problem der Koordina-ten-Token-Generierung. Dabei wird jeder 2D-Begrenzungsrahmen in mehrere 1D-Token zerlegt, die weitgehend unabhängig voneinander gelernt und sequenziell decodiert werden. Diese Token-für-Token-Decodierungsmethode kann jedoch zu einem praktischen Engpass in der Inferenzzeit führen, da die stark gekoppelte Struktur der Box-Geometrie nicht optimal genutzt wird.

LocateAnything, entwickelt von einem Forscherteam, führt das Parallel Box Decoding (PBD) ein. Dieses Verfahren ermöglicht die Decodierung geometrischer Elemente wie Begrenzungsrahmen und Punkte als atomare Einheiten in einem einzigen Schritt. Dadurch wird die geometrische Kohärenz innerhalb der Boxen bewahrt und ein erhebliches Mass an Parallelität freigesetzt. Die Methode verbessert nicht nur den Decodierungsdurchsatz, sondern auch die Genauigkeit der Lokalisierung.

Architektur und Trainingsdaten

LocateAnything basiert auf einem nativen VLM, das auf grossen Bild-Text-Korpora vortrainiert wurde. Die Architektur umfasst einen Moon-ViT Vision-Encoder und einen Qwen2.5 Language-Decoder, die durch einen MLP-Projektor verbunden sind. Der Vision-Encoder extrahiert visuelle Token in nativer Auflösung, um feinkörnige räumliche Details für eine hochpräzise Lokalisierung zu erhalten. Diese Token werden dann in das Sprachmodell eingespeist, das sie direkt in eine Sequenz von box-ausgerichteten Block-Level-Vorhersagen umwandelt.

Ein wesentlicher Bestandteil der Entwicklung ist der riesige und vielfältige Trainingskorpus LocateAnything-Data. Dieser Datensatz umfasst mehr als 138 Millionen Trainingssamples, die 12 Millionen einzigartige Bilder und 785 Millionen annotierte Bounding-Boxen abdecken. Diese Datenvielfalt ist entscheidend für eine hohe Präzisionslokalisierung und ermöglicht es dem Modell, ein breites Spektrum an Aufgaben zu bewältigen, darunter:

Allgemeine Objektdetektion (66,9 % der Anfragen, 83,1 % der Boxen)
GUI-Element-Grounding (16,5 % der Anfragen)
Referenzverstehen (7,3 % der Anfragen)
Textlokalisierung (OCR) (3,6 % der Anfragen)
Layout-Grounding (3,5 % der Anfragen)
Punktbasierte Lokalisierung (2,2 % der Anfragen)

Die Block-basierte Ausgabeformalisierung von LocateAnything verzichtet auf die standardmässige NTP-Koordinatengenerierung. Stattdessen werden kontinuierliche Koordinaten normalisiert, in Token diskretisiert und in eine Sequenz von Blöcken reorganisiert. Es werden vier funktionale Blocktypen definiert: Semantic Block, Box Block, Negative Block und End Block.

Flexible Inferenzmodi für unterschiedliche Anforderungen

Um sowohl hohe Durchsatzraten als auch robuste Lokalisierung zu gewährleisten, bietet LocateAnything flexible Inferenzmodi:

Fast Mode (MTP): Dieser Modus prognostiziert vollständige Boxen parallel für maximalen Durchsatz. Er ist ideal für latenz- und rechenintensive Umgebungen wie Robotik vor Ort und eingebettete Agenten.
Slow Mode (NTP): Hierbei werden die Koordinatentoken autoregressiv decodiert, um maximale Stabilität zu erreichen. Dieser Modus eignet sich für hochpräzise Beschriftungen, die Kuration von Datensätzen und genauigkeitsorientierte Offline-Evaluierungen.
Hybrid Mode: Dieser Modus verwendet standardmässig den Fast Mode und wechselt nahtlos in den Slow Mode, wenn parallele Ausgaben unzuverlässig sind, beispielsweise aufgrund von Formatunregelmässigkeiten oder räumlicher Mehrdeutigkeit. Dadurch werden die meisten Geschwindigkeitsvorteile beibehalten, während gleichzeitig robuste Ausgaben gewährleistet werden.

Die Entwicklung eines hybriden Inferenzmodus ist eine direkte Antwort auf die inhärenten Herausforderungen paralleler Decodierung in komplexen Szenen. Bei Formatunregelmässigkeiten oder räumlicher Mehrdeutigkeit wird der kompromittierte Block verworfen und die Generierung auf den letzten verifizierten Präfix zurückgesetzt. Das Modell generiert dann autoregressiv Token für den problematischen Block, bevor es wieder in den MTP-Modus wechselt.

Leistungsfähigkeit und Anwendungen

Die umfangreichen Evaluierungen zeigen, dass LocateAnything die Grenzen von Geschwindigkeit und Genauigkeit verschiebt. Das Modell erreicht im Hybrid Mode einen Durchsatz von 12,7 Boxen pro Sekunde (BPS) und ist damit mehr als 10-mal schneller als textbasierte Modelle wie Qwen3-VL (1,1 BPS) und 2,5-mal schneller als quantisierte Modelle wie Rex-Omni (5,0 BPS).

In Bezug auf die Qualität übertrifft LocateAnything-3B frühere VLM-Grounding-Modelle bei der Lokalisierungsqualität in anspruchsvollen Benchmarks wie LVIS, M6Doc und ScreenSpot-Pro:

Multi-Objektdetektion: Auf LVIS verbessert LocateAnything den mittleren F1-Wert um +3,8 % und auf COCO um +1,8 % im Vergleich zu Rex-Omni, bei gleicher Modellgrösse.
Dichte Objektdetektion: In dichten Umgebungen wie Dense200 und VisDrone erzielt das Modell F1-Werte von 58,7 bzw. 39,9, was eine überlegene Abgrenzung von Begrenzungen in stark überlappenden Szenen demonstriert.
Präzise Open-World-Lokalisierung: Bei GUI-Grounding (ScreenSpot-Pro) erreicht LocateAnything einen F1-Wert von 60,3, was generische VLMs und spezialisierte Modelle übertrifft. Auch bei Dokumentenverständnisaufgaben wie DocLayNet und M6Doc werden neue Standards gesetzt.

Die Fähigkeit, geometrische Elemente als atomare Einheiten zu behandeln und parallel zu decodieren, adressiert nicht nur einen kritischen Engpass, sondern verbessert auch die intrinsische geometrische Kohärenz der Vorhersagen. Dies ist besonders wichtig für Anwendungen, bei denen eine schnelle und zuverlässige visuelle Wahrnehmung erforderlich ist, wie etwa bei autonomen Robotern, die in dynamischen Umgebungen agieren müssen.

Zusammenfassend lässt sich festhalten, dass LocateAnything einen bedeutenden Fortschritt im Bereich der visuellen Verankerung und Objektdetektion darstellt. Durch die Kombination von Parallel Box Decoding, einem umfangreichen Trainingsdatensatz und flexiblen Inferenzmodi bietet es eine skalierbare und effiziente Lösung für die Echtzeit-Wahrnehmung, die die Tür für den Einsatz von Allzweck-VLMs in latenzsensiblen Robotik- und Agentenanwendungen öffnet.

Die fortlaufende Forschung in diesem Bereich wird sich voraussichtlich auf die weitere Optimierung der Decodierungsstrategien und die Integration von Reinforcement Learning konzentrieren, um die Robustheit und die Worst-Case-Decodierungsgeschwindigkeit weiter zu verbessern.

Bibliography - HuggingFace (o. D.). nvidia/LocateAnything-3B. Abgerufen am 28. Mai 2026 von https://huggingface.co/nvidia/LocateAnything-3B - Man, Y., Wang, S., Zhang, G., Bjorck, J., Li, Z., Gui, L.-Y., Fan, J., Kautz, J., Wang, Y.-X., & Yu, Z. (2025). LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight. arXiv. Abgerufen am 28. Mai 2026 von https://arxiv.org/html/2511.20648 - NVIDIA Research (o. D.). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. Abgerufen am 28. Mai 2026 von https://research.nvidia.com/labs/lpr/locate-anything/ - Paper Notes (o. D.). CVPR2026 · 1643 Paper Notes. Abgerufen am 28. Mai 2026 von https://en.papernotes.org/CVPR2026/ - Paper Notes (o. D.). CVPR2026 · Multimodal VLM · 230 Paper Notes. Abgerufen am 28. Mai 2026 von https://en.papernotes.org/CVPR2026/multimodal_vlm/ - Papers.Cool (o. D.). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. Abgerufen am 28. Mai 2026 von https://papers.cool/arxiv/2605.27365 - Wang, S., Liu, S., Kuang, Y., Wei, X., Liu, Y., Li, Z., Man, Y., Chen, G., Tao, A., Liu, G., Kautz, J., Zhang, L., & Yu, Z. (2026). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. arXiv. Abgerufen am 28. Mai 2026 von https://arxiv.org/html/2605.27365v2