KI für Ihr Unternehmen – Jetzt Demo buchen

Neues KI-Modell Count Anything revolutioniert das domänenübergreifende Zählen von Objekten in Bildern

Kategorien:
No items found.
Freigegeben:
June 15, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Ein neues KI-Modell namens "Count Anything" wurde entwickelt, um Objekte in Bildern domänenübergreifend zu zählen.
    • Das Modell vereint zwei Ansätze: einen für große, gut sichtbare Objekte (Bounding Boxes) und einen für kleine, dichte Objekte (Punktmarkierungen).
    • Es basiert auf Metas SAM3-Architektur und nutzt Adapter für die Zählaufgabe.
    • Für das Training wurde das CLOC-Dataset erstellt, das größte Datensatz für textgesteuertes Zählen mit Bildern aus sechs verschiedenen Domänen.
    • "Count Anything" übertrifft in den Vergleichstests des Entwicklerteams viele bestehende Systeme, stößt jedoch bei mehrdeutigen Begriffen und extrem dichten Szenen an Grenzen.
    • Der Quellcode des Modells ist auf GitHub verfügbar.

    Einleitung: Die Herausforderung des zählenden Sehens in der KI

    Die Fähigkeit, Objekte in Bildern präzise zu zählen, stellt für künstliche Intelligenz (KI) eine erhebliche Herausforderung dar, obwohl sie intuitiv als einfache Aufgabe erscheint. Moderne KI-Systeme sind in der Lage, Bilder zu beschreiben, Diagramme zu interpretieren und Text aus Fotos zu extrahieren. Die Multimodalität ist zu einem Kernaspekt geworden. Dennoch bleibt das zuverlässige Zählen von Objekten in einer Vielzahl von Kontexten eine komplexe Aufgabe, deren präzise Ausführung weitreichende praktische Implikationen hat – von der medizinischen Diagnostik über die Landwirtschaft bis hin zur Stadtplanung.

    Bisher erforderten spezifische Zählaufgaben, wie das Erfassen von Menschenmengen, Fahrzeugen oder Zellen, maßgeschneiderte Systeme. Diese Spezialisierung führte dazu, dass ein Modell, das beispielsweise Köpfe in einer Menschenmenge zuverlässig zählt, bei dicht gepackten Zellen unter dem Mikroskop oder winzigen Fahrzeugen aus der Vogelperspektive an seine Grenzen stieß. Die Notwendigkeit eines generalisierten Ansatzes, der diese Fragmentierung überwindet, ist evident.

    "Count Anything": Ein neuer Ansatz für das domänenübergreifende Zählen

    Forscher der Tsinghua University und weiterer Institutionen haben mit "Count Anything" ein neues KI-Modell vorgestellt, das darauf abzielt, Objekte über ein breites Spektrum von Bildtypen hinweg zu zählen. Ziel ist es, ein einziges Modell zu entwickeln, das textbasierte Anweisungen entgegennimmt, jedes gezählte Objekt im Bild markiert und dabei unterschiedlichste Bilddomänen berücksichtigt.

    Die Duale Strategie: Boxen und Punkte

    Der Kernansatz von "Count Anything" liegt in der Kombination zweier komplementärer Zählmethoden:

    • Regionenbasierter Zähler: Dieser spezialisiert sich auf größere, klar definierte Objekte und umrahmt diese mit Bounding Boxes.
    • Pixelbasierter Zähler: Dieser ist für kleine, dicht gedrängte Objekte konzipiert und markiert jedes erkannte Ziel mit einem Punkt.
    Die Ergebnisse beider Zähler werden anschließend zusammengeführt. Eine integrierte Logik stellt sicher, dass kein Objekt doppelt gezählt wird. Bei überlappenden Erkennungen wird lediglich die Vorhersage mit der höheren Konfidenz beibehalten.

    Architektonische Grundlage und Effizienz

    Das System baut auf einem vortrainierten Modell von Meta, SAM3 (Segment Anything Model), auf, das in der Lage ist, Bilder und Text gemeinsam zu verarbeiten. Anstatt das gesamte Modell neu zu trainieren, integriert "Count Anything" kleinere Adapterkomponenten, die speziell für die Zählaufgabe optimiert sind. Dieser Ansatz ermöglicht eine effiziente Anpassung an die spezifische Aufgabe des Zählens, ohne die umfassenden Fähigkeiten des Basismodells zu beeinträchtigen.

    CLOC: Der Datensatz für universelles Zählen

    Eine zentrale Voraussetzung für die Entwicklung eines derart generalistischen Modells war ein passender Datensatz. Bestehende öffentliche Datensätze waren typischerweise für einen einzigen Zweck konzipiert, beispielsweise für Tumorzellen oder Satellitenbilder. Die Forscher haben diese Datensätze zusammengeführt, widersprüchliche Labels bereinigt und das Ergebnis als CLOC (Cross-domain Large-scale Object Counting) veröffentlicht. Laut den Entwicklern handelt es sich dabei um den bisher größten Datensatz für textgesteuertes Zählen.

    CLOC umfasst etwa 220.000 Bilder, 619 Kategorien und 15 Millionen annotierte Objekte aus sechs unterschiedlichen Domänen:

    • Allgemeine Szenen
    • Fernerkundung (Satelliten- und Drohnenbilder)
    • Histopathologie (medizinische Gewebeproben)
    • Zelluläre Mikroskopie
    • Landwirtschaftliche Bilder (z.B. Weizenähren)
    • Mikrobiologie (Bakterienkulturen)
    Diese breite Abdeckung ermöglicht es dem Modell, eine umfassende Generalisierungsfähigkeit zu entwickeln.

    Leistung und Grenzen von "Count Anything"

    In den vom Entwicklungsteam durchgeführten Vergleichstests positioniert sich "Count Anything" deutlich vor konkurrierenden Systemen wie CountGD, CLIP-Count und Grounding DINO. Im Durchschnitt liegt die Fehlzählrate des Modells bei etwa neun Objekten pro abgefragter Kategorie und Bild. Das beste Vergleichsmodell wies eine mehr als doppelt so hohe Abweichung auf. Im Bereich des reinen Crowd Countings zeigt "Count Anything" eine konkurrenzfähige Leistung, erreicht jedoch nicht die Präzision der besten spezialisierten Systeme.

    Die Forscher weisen auf weitere Limitationen hin:

    • Ambiguität und Spezialisierung: Bei mehrdeutigen oder hochspezialisierten Begriffen kann das Modell Objekte übersehen oder falsch klassifizieren.
    • Extrem dichte Szenen: In Bildern mit extrem hoher Objektdichte und starken Verdeckungen wird es schwierig zu unterscheiden, ob zwei Vorhersagen dasselbe oder zwei verschiedene Objekte betreffen.
    Der Quellcode für "Count Anything" ist auf GitHub verfügbar.

    Kontext: Die anhaltenden Herausforderungen visueller KI

    Die Schwierigkeiten, mit denen aktuelle KI-Systeme bei grundlegenden visuellen Zählaufgaben konfrontiert sind, wurden kürzlich durch den BabyVision-Benchmark verdeutlicht. Bei Tests mit 80 Kindern schnitten die meisten führenden KI-Modelle unter dem Durchschnitt eines Dreijährigen ab. Selbst Top-Modelle wie Gemini 3 Pro erreichten kaum 50 Prozent, während Erwachsene über 94 Prozent erzielten. Besonders deutlich zeigte sich diese Lücke beim Zählen verdeckter 3D-Blöcke, wo das beste Modell nur 20,5 Prozent erreichte, während Menschen diese Aufgabe fehlerfrei lösten.

    Diese Ergebnisse unterstreichen, dass trotz der Fortschritte in der KI grundlegende visuelle Wahrnehmungs- und Zählfähigkeiten, die für Menschen selbstverständlich sind, für Maschinen weiterhin eine komplexe Herausforderung darstellen. "Count Anything" stellt einen wichtigen Schritt dar, um diese Lücke zu schließen und die Anwendbarkeit von KI im Bereich des visuellen Zählens erheblich zu erweitern.

    Fazit und Ausblick

    "Count Anything" repräsentiert einen bedeutsamen Fortschritt im Bereich des textgesteuerten, domänenübergreifenden Objektzählens. Durch die Kombination dualer Zählansätze und die Nutzung eines umfangreichen, diversifizierten Datensatzes gelingt es dem Modell, eine breite Palette von Zählaufgaben zu bewältigen, die bisher spezialisierte Lösungen erforderten. Die Fähigkeit, Objekte in unterschiedlichsten Kontexten – von Satellitenbildern bis zu mikroskopischen Aufnahmen – präzise zu erfassen, eröffnet neue Möglichkeiten in zahlreichen Anwendungsfeldern.

    Trotz der beeindruckenden Leistung zeigen die identifizierten Grenzen bei mehrdeutigen Anfragen und extrem dichten Szenen die weiterhin bestehenden Forschungsfelder auf. Die kontinuierliche Entwicklung von Modellen wie "Count Anything" ist entscheidend, um die Robustheit und Generalisierbarkeit von KI-Systemen im Bereich der visuellen Wahrnehmung weiter zu verbessern und letztlich zu intelligenten Systemen zu gelangen, die grundlegende Aufgaben des Sehens mit menschlicher Präzision und Flexibilität ausführen können.

    Bibliographie

    • Lei, M., Cheng, S., Bao, W., Du, S., Yong, J., Li, S., & Gao, Y. (2026). Count Anything. arXiv preprint arXiv:2605.30846.
    • Lei, M., Cheng, S., Bao, W., Du, S., Yong, J., Li, S., & Gao, Y. (2026). Mengqi-Lei/count-anything. GitHub. URL: https://github.com/Mengqi-Lei/count-anything
    • Lei, M., Cheng, S., Bao, W., Du, S., Yong, J., Li, S., & Gao, Y. (2026). MengqiLei/count-anything · Hugging Face. Hugging Face. URL: https://huggingface.co/MengqiLei/count-anything
    • Kemper, J. (2026). New AI model called "Count Anything" does exactly what it says, and that's harder than it sounds. The Decoder. URL: https://the-decoder.com/new-ai-model-called-count-anything-does-exactly-what-it-says-and-thats-harder-than-it-sounds/
    • Meta's SAM3: Segmentation Model Blurs the Boundary Between Language and Vision. The Decoder. URL: https://the-decoder.com/metas-sam-3-segmentation-model-blurs-the-boundary-between-language-and-vision/
    • BabyVision Benchmark: Even the Best AI Models Fail at Visual Tasks Toddlers Handle Easily. The Decoder. URL: https://the-decoder.com/even-the-best-ai-models-fail-at-visual-tasks-toddlers-handle-easily/

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen