EgoMemReason: Neuer Benchmark zur Bewertung des Langzeitgedächtnisses in egozentrischen Videos

Kategorien:

No items found.

Freigegeben:

May 14, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Der neue Benchmark EgoMemReason wurde entwickelt, um das Gedächtnis-gestützte Denken in egozentrischen Videos über lange Zeiträume zu bewerten.
Er zerlegt das Langzeitgedächtnis in drei Typen: Entitäts-, Ereignis- und Verhaltensgedächtnis, um spezifische Engpässe in KI-Modellen zu identifizieren.
Aktuelle Modelle erzielen auf diesem Benchmark nur eine geringe Genauigkeit (bestes Modell 39,6 %), was auf erhebliche Herausforderungen beim Verstehen von Langzeitvideos hindeutet.
Engpässe liegen in der präzisen visuellen Verankerung, der Langzeitkohärenz bei Ereignissen und der Abstraktion von Mustern bei Verhaltensweisen.
Weder eine erhöhte Frame-Rate noch zusätzliche Textinputs verbessern die Leistung signifikant, was auf grundlegende Speicher- und Abruflimitationen hindeutet.

Die Forschung im Bereich der Künstlichen Intelligenz (KI) schreitet rasant voran, insbesondere im Hinblick auf das Verständnis komplexer visueller Daten. Ein zentrales und zugleich herausforderndes Feld ist das Verständnis von Videos, die sich über lange Zeiträume erstrecken. Hierbei stossen aktuelle KI-Modelle, insbesondere multimodale grosse Sprachmodelle (MLLMs) und agentische Frameworks, an ihre Grenzen. Eine neue Veröffentlichung stellt einen Benchmark namens EgoMemReason vor, der darauf abzielt, diese Herausforderungen systematisch zu untersuchen und die Entwicklung fortschrittlicherer Systeme voranzutreiben.

EgoMemReason: Ein neuer Massstab für das Langzeitgedächtnis in Videos

Die Notwendigkeit, kontinuierliche visuelle Erfahrungen über Tage oder sogar Wochen hinweg zu verarbeiten, ist für die nächste Generation visueller Assistenten – von Smart Glasses bis hin zu autonomen Agenten – von entscheidender Bedeutung. In ultralangen Videos sind relevante Informationen oft spärlich über Stunden oder Tage verteilt. Dies erfordert von Modellen, Informationen über die Zeit hinweg zu akkumulieren, frühere Zustände abzurufen, die zeitliche Abfolge zu verfolgen und wiederkehrende Muster zu abstrahieren. Bestehende Benchmarks für wochenlange Videos konzentrieren sich jedoch primär auf Wahrnehmung und Erkennung, nicht auf das tiefgreifende Denken, das die Integration von Beweisen über mehrere Tage hinweg erfordert.

EgoMemReason schliesst diese Lücke, indem es einen umfassenden Benchmark für das Verstehen von wochenlangen egozentrischen Videos durch gedächtnisgestütztes Denken einführt. Der Benchmark bewertet drei komplementäre Gedächtnistypen:

Entitätsgedächtnis: Verfolgt, wie sich Objektzustände über Tage hinweg entwickeln und ändern.
Ereignisgedächtnis: Ruft Aktivitäten ab und ordnet sie zeitlich ein, selbst wenn sie Stunden oder Tage auseinanderliegen.
Verhaltensgedächtnis: Abstrahiert wiederkehrende Muster aus spärlichen, wiederholten Beobachtungen über den gesamten Wochenzeitraum.

EgoMemReason umfasst 500 Multiple-Choice-Fragen, die diese drei Gedächtnistypen und sechs Kernherausforderungen abdecken. Im Durchschnitt erfordert jede Frage das Aggregieren von 5,1 verschiedenen Videosegmenten und eine Gedächtnisrückverfolgung von 25,9 Stunden. Dies übertrifft frühere wochenlange Benchmarks um das Zweifache sowohl in der Anzahl der Beweissegmente als auch in der zeitlichen Zertifizierung.

Konstruktion des Benchmarks: Ein mehrstufiger Ansatz

Die Erstellung von EgoMemReason erfolgte in einem vierstufigen Prozess, der automatisierte modellbasierte Generierung mit menschlicher Verifikation kombiniert. Dies gewährleistet, dass die Fragen zeitlich verankert, visuell verifiziert und tatsächlich anspruchsvoll sind.

1. Evidenzvorbereitung

Rohdaten von mehrtägigen egozentrischen Videos werden in strukturierte Evidenz umgewandelt. Dies beinhaltet die Erstellung von detaillierten, objektzentrierten Bildunterschriften für 30-Sekunden-Clips mittels GPT-5. Diese Beschreibungen verfolgen Zustandsänderungen, räumliche Standorte, menschliche Interaktionen und Zählungen. Anschliessend werden diese Clip-Level-Beschreibungen zu hierarchischen Ereigniszusammenfassungen auf mehreren Zeitebenen (30-Sekunden, 10-Minuten, 2-Stunden und ganztägig) aggregiert.

2. Abfragegenerierung

Aus der strukturierten Evidenz werden mittels GPT-5.2 Multiple-Choice-Fragen für jeden Gedächtnistyp generiert. Jede Frage ist an einen Abfragezeitpunkt gebunden, sodass nur frühere Beobachtungen zugänglich sind. Der Prozess umfasst die Extraktion relevanter Faktenaussagen, die Formulierung von Fragen und die Generierung semantisch kompetitiver Distraktoren (falsche Antworten) aus ähnlichen Kontexten.

3. Automatische Filterung

Kandidatenfragen durchlaufen eine automatische Filterung, um triviale, mehrdeutige oder unbegründete Fragen zu entfernen. Ein "Blindtest" mit drei LLMs (Gemini-3.1-Pro, GPT-5.2, Qwen-3-VL-32B) identifiziert Fragen, die ohne visuelle Eingabe beantwortet werden können, um Textlecks zu vermeiden. Zudem wird überprüft, ob die richtigen Antworten durch gültige visuelle Beweise vor dem Abfragezeitpunkt gestützt werden und ein Mindestzeitabstand von 2 Stunden zwischen den unterstützenden Beweisen eingehalten wird.

4. Menschliche Verifikation

Alle verbleibenden Kandidaten werden von sechs menschlichen Anmerkenden überprüft. Diese bewerten die Klarheit der Frage, die Richtigkeit der Antwort und die Qualität der Optionen. Dieser Prozess stellt sicher, dass der endgültige Benchmark visuell verankert und von Menschen validiert ist. Lediglich 15 % der ursprünglichen Kandidaten überstehen alle Filter- und Verifizierungsstufen.

Experimentelle Ergebnisse und identifizierte Engpässe

Es wurden 17 Systeme evaluiert, darunter Allzweck-MLLMs, videospezifische MLLMs und agentische Video-Frameworks. Das beste Modell, Gemini-3-Flash, erreichte eine Gesamtgenauigkeit von lediglich 39,6 %. Dies verdeutlicht, dass das Langzeitgedächtnis-Denken in Videos eine erhebliche offene Herausforderung bleibt.

Die Analyse der Ergebnisse zeigt, dass die drei Gedächtnistypen aus unterschiedlichen Gründen fehlschlagen, was auf spezifische, fehlende Fähigkeiten und nicht auf eine gemeinsame Limitation hindeutet:

Entitätsgedächtnis: Der Engpass liegt in der präzisen visuellen Verankerung in Kombination mit der Modellierung langer Kontexte. Modelle, die stark auf textzentriertes Denken setzen, zeigen hier Schwächen.
Ereignisgedächtnis: Hier ist die Langzeit-Zeitkohärenz der limitierende Faktor. Modelle können einzelne Ereignisse lokalisieren, haben aber Schwierigkeiten, diese über ausgedehnte Zeiträume hinweg in Beziehung zu setzen. Die Leistung nimmt mit zunehmender zeitlicher Spanne der Evidenz stark ab.
Verhaltensgedächtnis: Der Engpass besteht in der Abstraktion über spärliche, wiederholte Evidenz. Modelle können zwar zusammenfassen, was sie gesehen haben, tun sich aber schwer, wiederkehrende Muster aus vielen spärlich verteilten Beobachtungen zu abstrahieren.

Weitere Analysen zeigten, dass weder eine dichtere Frame-Abtastung noch zusätzliche Textinputs (Transkripte, Bildunterschriften) zu einer konsistenten Verbesserung führten. Dies verstärkt die Annahme, dass der Kernengpass darin liegt, wie Modelle Informationen über lange Zeithorizonte intern speichern und abrufen.

Implikationen für die zukünftige Entwicklung

Die Ergebnisse des EgoMemReason-Benchmarks legen nahe, dass die einfache Skalierung der Modellgrösse oder der Eingabelänge nicht ausreicht, um die Herausforderungen des Langzeitgedächtnis-Denkens in egozentrischen Videos zu bewältigen. Stattdessen sind Fortschritte entlang dreier orthogonaler Achsen erforderlich:

Wahrnehmungspräzision: Gekoppelt mit der Fähigkeit, visuelle Evidenz über längere Zeiträume zu speichern, für das Entitätsgedächtnis.
Strukturierte Zeitmodellierung: Für die Kohärenz von Ereignissen.
Aggregationsbasiertes Denken: Für die Abstraktion von Verhaltensmustern.

EgoMemReason bietet somit einen stringenten diagnostischen Rahmen, um zukünftige Forschungsarbeiten in Richtung von Modellen zu lenken, die zu echtem Langzeitgedächtnis-Denken fähig sind.

Zusätzliche Analysen

Es wurden auch Studien zur Auswirkung der zeitlichen Zertifizierung, der Skalierung der visuellen Eingabe und der zusätzlichen Informationen durchgeführt.

Zeitliche Zertifizierung: Die Genauigkeit nimmt tendenziell ab, je länger die zeitliche Spanne ist, die für die Beantwortung einer Frage durchsucht werden muss. Das Ereignisgedächtnis zeigt hier den stärksten Rückgang.
Zusätzliche Texteingaben: Transkripte führten zu einer geringfügigen Verbesserung (0,4 %), während Bildunterschriften keinen Nutzen brachten. Dies deutet darauf hin, dass der Engpass eher in der Speicherung und Nutzung von Gedächtnis über lange Zeiträume liegt als in zusätzlichen Textsignalen.
Frame-Skalierung: Das Entitätsgedächtnis profitierte bis zu einem gewissen Grad von mehr Frames, während das Ereignisgedächtnis am wenigsten darauf reagierte. Das Verhaltensgedächtnis profitierte am meisten von dichterer Abtastung, blieb aber instabil.

Auch die Analyse von Prompting-Strategien ergab, dass direkte Fragen und Antworten (QA) und In-Context Learning (ICL) am effektivsten sind, während Chain-of-Thought (CoT) Prompting die Leistung in gedächtnisintensiven Aufgaben sogar verschlechterte. Dies deutet darauf hin, dass die primäre Herausforderung in der visuellen Wahrnehmung und dem Gedächtnisabruf liegt, nicht in der Denkstrategie.

Die detaillierte Fehleranalyse zeigte, dass die Hauptfehlerquellen in visuellen Wahrnehmungsfehlern (28 %), dem Übersehen wichtiger visueller Informationen (32 %) und logischen Fehlern beim Denken (32 %) liegen. Nur ein kleiner Teil der Fehler (8 %) trat auf, obwohl der Denkprozess korrekt war.

Die Ergebnisse des EgoMemReason-Benchmarks sind von grosser Relevanz für Unternehmen im Bereich der KI, die an der Entwicklung von Systemen für das Verständnis und die Analyse von Videodaten über längere Zeiträume arbeiten. Sie unterstreichen die Notwendigkeit, über reine Skalierung hinaus innovative Ansätze für Speicherarchitekturen und Denkprozesse in multimodalen Systemen zu erforschen.

Bibliography - Bai, S., Cai, Y., Chen, R., Chen, K., Chen, X., Cheng, Z., Deng, L., Ding, W., Gao, C., Ge, C., Ge, W., Guo, Z., Huang, Q., Huang, J., Huang, F., Hui, B., Jiang, S., Li, Z., Li, M., Li, M., Li, K., Lin, Z., Lin, J., Liu, X., Liu, J., Liu, C., Liu, Y., Liu, D., Liu, S., Lu, D., Luo, R., Lv, C., Men, R., Meng, L., Ren, X., Ren, X., Song, S., Sun, Y., Tang, J., Tu, J., Wan, J., Wang, P., Wang, P., Wang, Q., Wang, Y., Xie, T., Xu, Y., Xu, H., Xu, J., Yang, Z., Yang, M., Yang, J., Yang, A., Yu, B., Zhang, F., Zhang, H., Zhang, X., Zheng, B., Zhong, H., Zhou, J., Zhou, F., Zhou, J., Zhu, Y., and Zhu, K. (2025) Qwen3-vl technical report. arXiv preprint arXiv:2511.21631. - Clark, C., Zhang, J., Ma, Z., Park, J. S., Salehi, M., Tripathi, R., Lee, S., Ren, Z., Kim, C. D., Yang, Y., Shao, V., Yang, Y., Huang, W., Gao, Z., Anderson, T., Zhang, J., Jain, J., Stoica, G., Han, W., Farhadi, A., and Krishna, R. (2026) Molmo2: open weights and data for vision-language models with video understanding and grounding. arXiv preprint arXiv:2601.10611. - Google DeepMind (2025) Gemini 3 flash: frontier intelligence built for speed. Note: https://blog.google/products/gemini/gemini-3-flash/ - Google DeepMind (2026) Gemini 3.1 pro model card. Note: https://deepmind.google/models/model-cards/gemini-3-1-pro/ Accessed: 2026-04-25 - Hugging Face. Ted412/EgoMemReason. URL: https://huggingface.co/datasets/Ted412/EgoMemReason - Mangalam, K., Akshulakov, R., and Malik, J. (2023) Egoschema: a diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems 36, pp. 46212–46244. - OpenAI (2025) GPT-5 system card. External Links: 2601.03267 - Wang, Z., Zhang, Y., Yu, S., Zhang, C., Zhao, Z., Yoon, J., Lee, H., Bertasius, G., and Bansal, M. (2026) EgoMemReason: A Memory-driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding. arXiv preprint. URL: https://arxiv.org/abs/2605.09874 - Yang, J., Liu, S., Guo, H., Dong, Y., Zhang, X., Zhang, S., Wang, P., Zhou, Z., Xie, B., Wang, Z., et al. (2025a) Egolife: towards egocentric life assistant. In Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 28885–28900.