Fortschritte im Verständnis sozialer Interaktionen durch KI-Modelle

Kategorien:

No items found.

Freigegeben:

May 20, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Neue Forschungsarbeiten untersuchen die Fähigkeit von KI-Modellen, soziale Interaktionen in Videos zu verstehen, insbesondere nonverbale Hinweise.
Das GRASP-Dataset und die zugehörige Social Grounding Reward (SGR)-Methode wurden entwickelt, um das Verständnis multimodaler grosser Sprachmodelle (MLLMs) für soziale Interaktionen zu verbessern.
GRASP umfasst 290.000 Frage-Antwort-Paare aus 46.000 Videos (insgesamt 749 Stunden) und konzentriert sich auf Blickverhalten, deiktische Gesten und deren Kombinationen.
Aktuelle MLLMs zeigen Schwächen beim Erkennen, wer mit wem in Videos interagiert, und bei der Verarbeitung von feinkörnigen, multimodalen Hinweisen und externem Wissen.
Die SGR-Methode verbessert die Leistung der Modelle bei der Begründung der an Interaktionen beteiligten Personen, während die Zero-Shot-Leistung erhalten bleibt.
Menschliche Bewertungen zeigen, dass Modelle noch erheblichen Nachholbedarf beim feinkörnigen, kompositorischen und umfassenden sozialen Denken haben.
Zukünftige Entwicklungen müssen sich auf hierarchisches soziales Denken und die Überwindung von Einschränkungen bei der Verarbeitung von Kontext und externem Wissen konzentrieren.

Die Fähigkeit, menschliche soziale Interaktionen zu verstehen und zu interpretieren, ist für die Entwicklung intelligenter KI-Systeme von entscheidender Bedeutung. Aktuelle Forschungsarbeiten konzentrieren sich darauf, wie multimodale grosse Sprachmodelle (MLLMs) nonverbale Hinweise in Videos verarbeiten und daraus soziale Schlussfolgerungen ziehen können. Ein wesentlicher Fortschritt in diesem Bereich ist die Einführung des GRASP-Datasets und der damit verbundenen Methode Social Grounding Reward (SGR), die darauf abzielen, das soziale Denkvermögen von KI-Modellen zu verbessern.

Die Herausforderung des sozialen Denkens für KI

Menschliche soziale Interaktionen sind reich an subtilen nonverbalen Hinweisen wie Blickrichtungen, Gesten und Körperhaltung. Diese Hinweise sind oft entscheidend, um zu verstehen, wer mit wem interagiert, welche Emotionen im Spiel sind oder welche Absichten verfolgt werden. Für KI-Systeme stellt dies eine erhebliche Herausforderung dar. Traditionelle Ansätze konzentrierten sich oft auf die Erkennung isolierter Hinweise oder allgemeine Frage-Antwort-Aufgaben, ohne die komplexen, feinkörnigen Verknüpfungen sozialer Ereignisse vollständig zu erfassen.

Bestehende Datensätze für soziales Denken sind in ihrer Komplexität, ihrem Umfang und ihrer Abdeckung mentaler Zustände begrenzt. Viele konzentrieren sich auf textbasierte Szenarien oder einfache visuelle Aufgaben, die nicht die reichhaltige kausale Dynamik realer Interaktionen widerspiegeln. Dies führt dazu, dass selbst hochmoderne MLLMs Schwierigkeiten haben, kohärente und konsistente soziale Schlussfolgerungen zu ziehen, insbesondere wenn es darum geht, die Perspektiven mehrerer Personen zu berücksichtigen oder externes Kontextwissen einzubeziehen.

GRASP: Ein neues Fundament für soziales Denken

Um diese Lücke zu schliessen, wurde GRASP (Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions) entwickelt. GRASP ist ein umfangreicher Datensatz, der hochrangige soziale Fragen mit detaillierten Informationen über Blickverhalten und deiktische Gesten in Videos verknüpft.

Umfang und Struktur des GRASP-Datasets

GRASP umfasst eine beachtliche Menge von Daten:

290.000 Frage-Antwort-Paare: Diese Paare decken eine breite Palette sozialer Szenarien ab.
46.000 Videos: Die Videos haben eine Gesamtlänge von 749 Stunden und zeigen Interaktionen zwischen mehreren Personen.
16-Kategorien-Taxonomie: Diese Taxonomie organisiert die Daten nach Blickverhalten, Gesten und der Kombination beider, um ein umfassendes Verständnis nonverbaler Kommunikation zu ermöglichen.

Im Gegensatz zu früheren Ressourcen, die sich entweder auf isolierte Hinweise oder auf hochrangige soziale Fragen konzentrierten, konstruiert GRASP Fragen aus identitätskonsistenten Blickverläufen, deiktischen Gesten und deren gemeinsamen Zusammensetzungen zu sozialen Ereignissen. Dies ermöglicht eine detailliertere Analyse, wer mit wem interagiert und welche Rolle nonverbale Kommunikation dabei spielt.

Die Social Grounding Reward (SGR)-Methode

Zusätzlich zum Datensatz wurde Social Grounding Reward (SGR) vorgeschlagen. SGR ist ein Lernsignal, das soziale Ereignisse nutzt, um Modelle dazu anzuregen, über die an jeder Interaktion beteiligten Personen nachzudenken. Experimente zeigen, dass SGR die Leistung auf GRASP-Bench verbessert, während die Zero-Shot-Leistung auf verwandten sozialen Video-QA-Benchmarks beibehalten wird.

Bewertung multimodaler Modelle

Die Forschungsarbeit evaluierte die Leistung verschiedener multimodaler Modelle auf GRASP, darunter sowohl Closed-Source-Modelle (wie Gemini-1.5-Flash und GPT-4o) als auch Open-Source-Modelle (wie LLaVA-Video, LongVA, Video-ChatGPT und VideoChat2). Die Bewertung umfasste 12 Metriken, die die Genauigkeit der sozialen Inferenz, die semantische und strukturelle Ähnlichkeit mit menschlichen Argumentationsspuren sowie das Verständnis feinkörniger multimodaler Hinweise und externen Wissens messen.

Zentrale Erkenntnisse der Evaluation

Menschliche Überlegenheit: Die Fähigkeit zur sozialen Inferenz des Menschen übertrifft die aller getesteten Modelle erheblich. Gemini-1.5-Flash und GPT-4o erreichten die höchsten Genauigkeiten von 74,4 % bzw. 71,0 %, lagen aber immer noch etwa 10-15 % unter der menschlichen Genauigkeit von 85,3 %.
Schwächen bei der semantischen und strukturellen Ausrichtung: Modelle hatten Schwierigkeiten, Argumentationsspuren zu generieren, die eine hohe semantische oder strukturelle Übereinstimmung mit menschlichen Argumentationen aufwiesen. Die Werte für Similarity-Trace und Similarity-Step blieben oft unter 50 %.
Herausforderung des externen Wissens: Die Fähigkeit der Modelle, externes Wissen in soziale Argumentationsspuren einzubeziehen, war geringer als beim Menschen. Allerdings führte das Bereitstellen zusätzlicher Few-Shot-Beispiele zu einer Verbesserung dieser Fähigkeit bei einigen Modellen.
Fehlende feinkörnige multimodale Erdung: Modelle referenzierten durchweg weniger multimodale Hinweise und externes Wissen als menschliche Argumentationen, was auf eine unzureichende feinkörnige Erdung hindeutet.
Begrenzte Wirksamkeit von Few-Shot ICL: Im Gegensatz zu formalen Domänen wie Mathematik verbesserte Few-Shot In-Context Learning (ICL) die Genauigkeit der sozialen Inferenz bei den meisten Modellen nicht wesentlich. Dies deutet darauf hin, dass soziale Argumentation, die oft implizite Regeln und weniger formale Strukturen aufweist, andere Lernansätze erfordert.
Hierarchisches Denken: Menschliche Argumentationsspuren zeigen oft eine hierarchische Struktur, in der niedrigere Hinweise (z. B. Lippenbewegungen) kombiniert und neu interpretiert werden. Modellspuren waren tendenziell flacher und übersahen Zwischennachweise.

Qualitative Bewertung und menschliche Beurteilung

Eine menschliche Bewertung der von den Modellen generierten Argumentationsspuren bestätigte die quantitativen Ergebnisse. Gemini-1.5-Flash und GPT-4o erhielten die höchsten Bewertungen für feinkörniges, kompositorisches, umfassendes und gültiges Denken. Die Korrektheit der Modalitäts-Tags lag bei 98 %, und die automatisierten Metriken korrelierten stark mit menschlichen Urteilen, was die Validität des Benchmarks unterstützt.

Ein Beispiel zeigte, dass Gemini-1.5-Flash multimodale Hinweise und externes Wissen gut integrieren konnte, während ein anderes Modell (LLaVA-Video) auf einer falschen Prämisse aufbaute und zu einer inkorrekten Schlussfolgerung gelangte. Menschliche Spuren enthielten oft feinkörnige Verhaltensweisen, die in den Modellspuren fehlten, aber die Interpretation der Szene beeinflussten.

Ausblick und zukünftige Forschungsrichtungen

Die Ergebnisse der GRASP-Studie verdeutlichen, dass, obwohl MLLMs beeindruckende Fortschritte gemacht haben, noch erhebliche Herausforderungen beim Verständnis komplexer sozialer Interaktionen bestehen. Zukünftige KI-Systeme, die soziale Interaktionen interpretieren sollen, müssen in der Lage sein, ihr Denken auf konkrete multimodale Beweise und Konzepte des externen Wissens zu stützen.

Die Forschungsarbeiten motivieren dazu, Modelle zu entwickeln, die feinkörnige Hinweise besser erfassen und die Fehlerfortpflanzung im Denkprozess handhaben können. Darüber hinaus ist die Entwicklung von Modellen, die zu einem hierarchischeren sozialen Denken fähig sind, ein wichtiges Ziel.

Die Studie weist auch auf die Notwendigkeit hin, die Einschränkungen der derzeitigen Ansätze zu berücksichtigen, wie die ausschliessliche Verwendung von natürlicher Sprache für soziale Argumentationsspuren und die begrenzte Länge der Videos im Datensatz. Die Community wird ermutigt, sich an der Kuratierung längerfristiger Datensätze und an der Erforschung multikultureller und mehrsprachiger sozialer Interaktionen zu beteiligen.

Die Entwicklung von KI-Systemen, die menschliche soziale Dynamiken nuanciert verstehen können, ist ein komplexes Unterfangen. GRASP und die begleitende Forschung bieten einen wichtigen Schritt vorwärts, indem sie einen detaillierten Benchmark und neue Methoden zur Förderung dieser entscheidenden Fähigkeit bereitstellen.

Bibliographie

- Kim, J., Cao, X., Yang, H., Boote, B., Jojic, A., Ryan, F., Lai, B., Lee, S., & Rehg, J. M. (2026). GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions. arXiv preprint arXiv:2605.15764. - Mathur, L., Qian, M., Liang, P. P., & Morency, L.-P. (2025). SOCIAL GENOME: Grounded Social Reasoning Abilities of Multimodal Models. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, 24868–24891. - Cao, X., Virupaksha, P., Jia, W., Lai, B., Ryan, F., Lee, S., & Rehg, J. M. (2025). SocialGesture: Delving into Multi-person Gesture Understanding. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). - Anonymous Authors. (2025). Read the Room: VIDEO SOCIAL REASONING WITH MENTAL-PHYSICAL CAUSAL CHAINS. Under review as a conference paper at ICLR 2026. - Jassim, S., Holubar, M., Richter, A., Wolff, C., Ohmer, X., & Bruni, E. (2023). GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models. arXiv preprint arXiv:2311.09048. - Netanyahu, A., Shu, T., Katz, B., Barbu, A., & Tenenbaum, J. B. (2021). PHASE: PHysically-grounded Abstract Social Events for Machine Social Perception. arXiv preprint arXiv:2103.01933. - Saponaro, G., Jamone, L., Bernardino, A., & Salvi, G. (2019). Beyond the Self: Using Grounded Affordances to Interpret and Describe Others’ Actions. IEEE Transactions on Cognitive and Developmental Systems, 11(2), 221–234.