Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, Objekte in Bildern präzise zu zählen, stellt für künstliche Intelligenz (KI) eine erhebliche Herausforderung dar, obwohl sie intuitiv als einfache Aufgabe erscheint. Moderne KI-Systeme sind in der Lage, Bilder zu beschreiben, Diagramme zu interpretieren und Text aus Fotos zu extrahieren. Die Multimodalität ist zu einem Kernaspekt geworden. Dennoch bleibt das zuverlässige Zählen von Objekten in einer Vielzahl von Kontexten eine komplexe Aufgabe, deren präzise Ausführung weitreichende praktische Implikationen hat – von der medizinischen Diagnostik über die Landwirtschaft bis hin zur Stadtplanung.
Bisher erforderten spezifische Zählaufgaben, wie das Erfassen von Menschenmengen, Fahrzeugen oder Zellen, maßgeschneiderte Systeme. Diese Spezialisierung führte dazu, dass ein Modell, das beispielsweise Köpfe in einer Menschenmenge zuverlässig zählt, bei dicht gepackten Zellen unter dem Mikroskop oder winzigen Fahrzeugen aus der Vogelperspektive an seine Grenzen stieß. Die Notwendigkeit eines generalisierten Ansatzes, der diese Fragmentierung überwindet, ist evident.
Forscher der Tsinghua University und weiterer Institutionen haben mit "Count Anything" ein neues KI-Modell vorgestellt, das darauf abzielt, Objekte über ein breites Spektrum von Bildtypen hinweg zu zählen. Ziel ist es, ein einziges Modell zu entwickeln, das textbasierte Anweisungen entgegennimmt, jedes gezählte Objekt im Bild markiert und dabei unterschiedlichste Bilddomänen berücksichtigt.
Der Kernansatz von "Count Anything" liegt in der Kombination zweier komplementärer Zählmethoden:
Das System baut auf einem vortrainierten Modell von Meta, SAM3 (Segment Anything Model), auf, das in der Lage ist, Bilder und Text gemeinsam zu verarbeiten. Anstatt das gesamte Modell neu zu trainieren, integriert "Count Anything" kleinere Adapterkomponenten, die speziell für die Zählaufgabe optimiert sind. Dieser Ansatz ermöglicht eine effiziente Anpassung an die spezifische Aufgabe des Zählens, ohne die umfassenden Fähigkeiten des Basismodells zu beeinträchtigen.
Eine zentrale Voraussetzung für die Entwicklung eines derart generalistischen Modells war ein passender Datensatz. Bestehende öffentliche Datensätze waren typischerweise für einen einzigen Zweck konzipiert, beispielsweise für Tumorzellen oder Satellitenbilder. Die Forscher haben diese Datensätze zusammengeführt, widersprüchliche Labels bereinigt und das Ergebnis als CLOC (Cross-domain Large-scale Object Counting) veröffentlicht. Laut den Entwicklern handelt es sich dabei um den bisher größten Datensatz für textgesteuertes Zählen.
CLOC umfasst etwa 220.000 Bilder, 619 Kategorien und 15 Millionen annotierte Objekte aus sechs unterschiedlichen Domänen:
In den vom Entwicklungsteam durchgeführten Vergleichstests positioniert sich "Count Anything" deutlich vor konkurrierenden Systemen wie CountGD, CLIP-Count und Grounding DINO. Im Durchschnitt liegt die Fehlzählrate des Modells bei etwa neun Objekten pro abgefragter Kategorie und Bild. Das beste Vergleichsmodell wies eine mehr als doppelt so hohe Abweichung auf. Im Bereich des reinen Crowd Countings zeigt "Count Anything" eine konkurrenzfähige Leistung, erreicht jedoch nicht die Präzision der besten spezialisierten Systeme.
Die Forscher weisen auf weitere Limitationen hin:
Die Schwierigkeiten, mit denen aktuelle KI-Systeme bei grundlegenden visuellen Zählaufgaben konfrontiert sind, wurden kürzlich durch den BabyVision-Benchmark verdeutlicht. Bei Tests mit 80 Kindern schnitten die meisten führenden KI-Modelle unter dem Durchschnitt eines Dreijährigen ab. Selbst Top-Modelle wie Gemini 3 Pro erreichten kaum 50 Prozent, während Erwachsene über 94 Prozent erzielten. Besonders deutlich zeigte sich diese Lücke beim Zählen verdeckter 3D-Blöcke, wo das beste Modell nur 20,5 Prozent erreichte, während Menschen diese Aufgabe fehlerfrei lösten.
Diese Ergebnisse unterstreichen, dass trotz der Fortschritte in der KI grundlegende visuelle Wahrnehmungs- und Zählfähigkeiten, die für Menschen selbstverständlich sind, für Maschinen weiterhin eine komplexe Herausforderung darstellen. "Count Anything" stellt einen wichtigen Schritt dar, um diese Lücke zu schließen und die Anwendbarkeit von KI im Bereich des visuellen Zählens erheblich zu erweitern.
"Count Anything" repräsentiert einen bedeutsamen Fortschritt im Bereich des textgesteuerten, domänenübergreifenden Objektzählens. Durch die Kombination dualer Zählansätze und die Nutzung eines umfangreichen, diversifizierten Datensatzes gelingt es dem Modell, eine breite Palette von Zählaufgaben zu bewältigen, die bisher spezialisierte Lösungen erforderten. Die Fähigkeit, Objekte in unterschiedlichsten Kontexten – von Satellitenbildern bis zu mikroskopischen Aufnahmen – präzise zu erfassen, eröffnet neue Möglichkeiten in zahlreichen Anwendungsfeldern.
Trotz der beeindruckenden Leistung zeigen die identifizierten Grenzen bei mehrdeutigen Anfragen und extrem dichten Szenen die weiterhin bestehenden Forschungsfelder auf. Die kontinuierliche Entwicklung von Modellen wie "Count Anything" ist entscheidend, um die Robustheit und Generalisierbarkeit von KI-Systemen im Bereich der visuellen Wahrnehmung weiter zu verbessern und letztlich zu intelligenten Systemen zu gelangen, die grundlegende Aufgaben des Sehens mit menschlicher Präzision und Flexibilität ausführen können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen