Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, ihre Umgebung nicht nur zu "sehen", sondern Objekte innerhalb dieser Umgebung präzise und schnell zu lokalisieren, ist für die Entwicklung autonomer Systeme und intelligenter Agenten von fundamentaler Bedeutung. Ein aktueller Forschungsbeitrag, der unter dem Titel „LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding“ auf der CVPR 2026 vorgestellt wurde, adressiert genau diese Herausforderung und präsentiert einen neuartigen Ansatz für die Bounding-Box-Vorhersage.
Herkömmliche Vision-Language-Modelle (VLMs) formulieren die visuelle Verankerung (Visual Grounding) und Objektdetektion oft als ein Problem der Koordina-ten-Token-Generierung. Dabei wird jeder 2D-Begrenzungsrahmen in mehrere 1D-Token zerlegt, die weitgehend unabhängig voneinander gelernt und sequenziell decodiert werden. Diese Token-für-Token-Decodierungsmethode kann jedoch zu einem praktischen Engpass in der Inferenzzeit führen, da die stark gekoppelte Struktur der Box-Geometrie nicht optimal genutzt wird.
LocateAnything, entwickelt von einem Forscherteam, führt das Parallel Box Decoding (PBD) ein. Dieses Verfahren ermöglicht die Decodierung geometrischer Elemente wie Begrenzungsrahmen und Punkte als atomare Einheiten in einem einzigen Schritt. Dadurch wird die geometrische Kohärenz innerhalb der Boxen bewahrt und ein erhebliches Mass an Parallelität freigesetzt. Die Methode verbessert nicht nur den Decodierungsdurchsatz, sondern auch die Genauigkeit der Lokalisierung.
LocateAnything basiert auf einem nativen VLM, das auf grossen Bild-Text-Korpora vortrainiert wurde. Die Architektur umfasst einen Moon-ViT Vision-Encoder und einen Qwen2.5 Language-Decoder, die durch einen MLP-Projektor verbunden sind. Der Vision-Encoder extrahiert visuelle Token in nativer Auflösung, um feinkörnige räumliche Details für eine hochpräzise Lokalisierung zu erhalten. Diese Token werden dann in das Sprachmodell eingespeist, das sie direkt in eine Sequenz von box-ausgerichteten Block-Level-Vorhersagen umwandelt.
Ein wesentlicher Bestandteil der Entwicklung ist der riesige und vielfältige Trainingskorpus LocateAnything-Data. Dieser Datensatz umfasst mehr als 138 Millionen Trainingssamples, die 12 Millionen einzigartige Bilder und 785 Millionen annotierte Bounding-Boxen abdecken. Diese Datenvielfalt ist entscheidend für eine hohe Präzisionslokalisierung und ermöglicht es dem Modell, ein breites Spektrum an Aufgaben zu bewältigen, darunter:
Die Block-basierte Ausgabeformalisierung von LocateAnything verzichtet auf die standardmässige NTP-Koordinatengenerierung. Stattdessen werden kontinuierliche Koordinaten normalisiert, in Token diskretisiert und in eine Sequenz von Blöcken reorganisiert. Es werden vier funktionale Blocktypen definiert: Semantic Block, Box Block, Negative Block und End Block.
Um sowohl hohe Durchsatzraten als auch robuste Lokalisierung zu gewährleisten, bietet LocateAnything flexible Inferenzmodi:
Die Entwicklung eines hybriden Inferenzmodus ist eine direkte Antwort auf die inhärenten Herausforderungen paralleler Decodierung in komplexen Szenen. Bei Formatunregelmässigkeiten oder räumlicher Mehrdeutigkeit wird der kompromittierte Block verworfen und die Generierung auf den letzten verifizierten Präfix zurückgesetzt. Das Modell generiert dann autoregressiv Token für den problematischen Block, bevor es wieder in den MTP-Modus wechselt.
Die umfangreichen Evaluierungen zeigen, dass LocateAnything die Grenzen von Geschwindigkeit und Genauigkeit verschiebt. Das Modell erreicht im Hybrid Mode einen Durchsatz von 12,7 Boxen pro Sekunde (BPS) und ist damit mehr als 10-mal schneller als textbasierte Modelle wie Qwen3-VL (1,1 BPS) und 2,5-mal schneller als quantisierte Modelle wie Rex-Omni (5,0 BPS).
In Bezug auf die Qualität übertrifft LocateAnything-3B frühere VLM-Grounding-Modelle bei der Lokalisierungsqualität in anspruchsvollen Benchmarks wie LVIS, M6Doc und ScreenSpot-Pro:
Die Fähigkeit, geometrische Elemente als atomare Einheiten zu behandeln und parallel zu decodieren, adressiert nicht nur einen kritischen Engpass, sondern verbessert auch die intrinsische geometrische Kohärenz der Vorhersagen. Dies ist besonders wichtig für Anwendungen, bei denen eine schnelle und zuverlässige visuelle Wahrnehmung erforderlich ist, wie etwa bei autonomen Robotern, die in dynamischen Umgebungen agieren müssen.
Zusammenfassend lässt sich festhalten, dass LocateAnything einen bedeutenden Fortschritt im Bereich der visuellen Verankerung und Objektdetektion darstellt. Durch die Kombination von Parallel Box Decoding, einem umfangreichen Trainingsdatensatz und flexiblen Inferenzmodi bietet es eine skalierbare und effiziente Lösung für die Echtzeit-Wahrnehmung, die die Tür für den Einsatz von Allzweck-VLMs in latenzsensiblen Robotik- und Agentenanwendungen öffnet.
Die fortlaufende Forschung in diesem Bereich wird sich voraussichtlich auf die weitere Optimierung der Decodierungsstrategien und die Integration von Reinforcement Learning konzentrieren, um die Robustheit und die Worst-Case-Decodierungsgeschwindigkeit weiter zu verbessern.
Bibliography - HuggingFace (o. D.). nvidia/LocateAnything-3B. Abgerufen am 28. Mai 2026 von https://huggingface.co/nvidia/LocateAnything-3B - Man, Y., Wang, S., Zhang, G., Bjorck, J., Li, Z., Gui, L.-Y., Fan, J., Kautz, J., Wang, Y.-X., & Yu, Z. (2025). LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight. arXiv. Abgerufen am 28. Mai 2026 von https://arxiv.org/html/2511.20648 - NVIDIA Research (o. D.). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. Abgerufen am 28. Mai 2026 von https://research.nvidia.com/labs/lpr/locate-anything/ - Paper Notes (o. D.). CVPR2026 · 1643 Paper Notes. Abgerufen am 28. Mai 2026 von https://en.papernotes.org/CVPR2026/ - Paper Notes (o. D.). CVPR2026 · Multimodal VLM · 230 Paper Notes. Abgerufen am 28. Mai 2026 von https://en.papernotes.org/CVPR2026/multimodal_vlm/ - Papers.Cool (o. D.). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. Abgerufen am 28. Mai 2026 von https://papers.cool/arxiv/2605.27365 - Wang, S., Liu, S., Kuang, Y., Wei, X., Liu, Y., Li, Z., Man, Y., Chen, G., Tao, A., Liu, G., Kautz, J., Zhang, L., & Yu, Z. (2026). LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding. arXiv. Abgerufen am 28. Mai 2026 von https://arxiv.org/html/2605.27365v2Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen