Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, menschliche soziale Interaktionen zu verstehen und zu interpretieren, ist für die Entwicklung intelligenter KI-Systeme von entscheidender Bedeutung. Aktuelle Forschungsarbeiten konzentrieren sich darauf, wie multimodale grosse Sprachmodelle (MLLMs) nonverbale Hinweise in Videos verarbeiten und daraus soziale Schlussfolgerungen ziehen können. Ein wesentlicher Fortschritt in diesem Bereich ist die Einführung des GRASP-Datasets und der damit verbundenen Methode Social Grounding Reward (SGR), die darauf abzielen, das soziale Denkvermögen von KI-Modellen zu verbessern.
Menschliche soziale Interaktionen sind reich an subtilen nonverbalen Hinweisen wie Blickrichtungen, Gesten und Körperhaltung. Diese Hinweise sind oft entscheidend, um zu verstehen, wer mit wem interagiert, welche Emotionen im Spiel sind oder welche Absichten verfolgt werden. Für KI-Systeme stellt dies eine erhebliche Herausforderung dar. Traditionelle Ansätze konzentrierten sich oft auf die Erkennung isolierter Hinweise oder allgemeine Frage-Antwort-Aufgaben, ohne die komplexen, feinkörnigen Verknüpfungen sozialer Ereignisse vollständig zu erfassen.
Bestehende Datensätze für soziales Denken sind in ihrer Komplexität, ihrem Umfang und ihrer Abdeckung mentaler Zustände begrenzt. Viele konzentrieren sich auf textbasierte Szenarien oder einfache visuelle Aufgaben, die nicht die reichhaltige kausale Dynamik realer Interaktionen widerspiegeln. Dies führt dazu, dass selbst hochmoderne MLLMs Schwierigkeiten haben, kohärente und konsistente soziale Schlussfolgerungen zu ziehen, insbesondere wenn es darum geht, die Perspektiven mehrerer Personen zu berücksichtigen oder externes Kontextwissen einzubeziehen.
Um diese Lücke zu schliessen, wurde GRASP (Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions) entwickelt. GRASP ist ein umfangreicher Datensatz, der hochrangige soziale Fragen mit detaillierten Informationen über Blickverhalten und deiktische Gesten in Videos verknüpft.
GRASP umfasst eine beachtliche Menge von Daten:
Im Gegensatz zu früheren Ressourcen, die sich entweder auf isolierte Hinweise oder auf hochrangige soziale Fragen konzentrierten, konstruiert GRASP Fragen aus identitätskonsistenten Blickverläufen, deiktischen Gesten und deren gemeinsamen Zusammensetzungen zu sozialen Ereignissen. Dies ermöglicht eine detailliertere Analyse, wer mit wem interagiert und welche Rolle nonverbale Kommunikation dabei spielt.
Zusätzlich zum Datensatz wurde Social Grounding Reward (SGR) vorgeschlagen. SGR ist ein Lernsignal, das soziale Ereignisse nutzt, um Modelle dazu anzuregen, über die an jeder Interaktion beteiligten Personen nachzudenken. Experimente zeigen, dass SGR die Leistung auf GRASP-Bench verbessert, während die Zero-Shot-Leistung auf verwandten sozialen Video-QA-Benchmarks beibehalten wird.
Die Forschungsarbeit evaluierte die Leistung verschiedener multimodaler Modelle auf GRASP, darunter sowohl Closed-Source-Modelle (wie Gemini-1.5-Flash und GPT-4o) als auch Open-Source-Modelle (wie LLaVA-Video, LongVA, Video-ChatGPT und VideoChat2). Die Bewertung umfasste 12 Metriken, die die Genauigkeit der sozialen Inferenz, die semantische und strukturelle Ähnlichkeit mit menschlichen Argumentationsspuren sowie das Verständnis feinkörniger multimodaler Hinweise und externen Wissens messen.
Eine menschliche Bewertung der von den Modellen generierten Argumentationsspuren bestätigte die quantitativen Ergebnisse. Gemini-1.5-Flash und GPT-4o erhielten die höchsten Bewertungen für feinkörniges, kompositorisches, umfassendes und gültiges Denken. Die Korrektheit der Modalitäts-Tags lag bei 98 %, und die automatisierten Metriken korrelierten stark mit menschlichen Urteilen, was die Validität des Benchmarks unterstützt.
Ein Beispiel zeigte, dass Gemini-1.5-Flash multimodale Hinweise und externes Wissen gut integrieren konnte, während ein anderes Modell (LLaVA-Video) auf einer falschen Prämisse aufbaute und zu einer inkorrekten Schlussfolgerung gelangte. Menschliche Spuren enthielten oft feinkörnige Verhaltensweisen, die in den Modellspuren fehlten, aber die Interpretation der Szene beeinflussten.
Die Ergebnisse der GRASP-Studie verdeutlichen, dass, obwohl MLLMs beeindruckende Fortschritte gemacht haben, noch erhebliche Herausforderungen beim Verständnis komplexer sozialer Interaktionen bestehen. Zukünftige KI-Systeme, die soziale Interaktionen interpretieren sollen, müssen in der Lage sein, ihr Denken auf konkrete multimodale Beweise und Konzepte des externen Wissens zu stützen.
Die Forschungsarbeiten motivieren dazu, Modelle zu entwickeln, die feinkörnige Hinweise besser erfassen und die Fehlerfortpflanzung im Denkprozess handhaben können. Darüber hinaus ist die Entwicklung von Modellen, die zu einem hierarchischeren sozialen Denken fähig sind, ein wichtiges Ziel.
Die Studie weist auch auf die Notwendigkeit hin, die Einschränkungen der derzeitigen Ansätze zu berücksichtigen, wie die ausschliessliche Verwendung von natürlicher Sprache für soziale Argumentationsspuren und die begrenzte Länge der Videos im Datensatz. Die Community wird ermutigt, sich an der Kuratierung längerfristiger Datensätze und an der Erforschung multikultureller und mehrsprachiger sozialer Interaktionen zu beteiligen.
Die Entwicklung von KI-Systemen, die menschliche soziale Dynamiken nuanciert verstehen können, ist ein komplexes Unterfangen. GRASP und die begleitende Forschung bieten einen wichtigen Schritt vorwärts, indem sie einen detaillierten Benchmark und neue Methoden zur Förderung dieser entscheidenden Fähigkeit bereitstellen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen