Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der Künstlichen Intelligenz (KI) schreitet rasant voran, insbesondere im Hinblick auf das Verständnis komplexer visueller Daten. Ein zentrales und zugleich herausforderndes Feld ist das Verständnis von Videos, die sich über lange Zeiträume erstrecken. Hierbei stossen aktuelle KI-Modelle, insbesondere multimodale grosse Sprachmodelle (MLLMs) und agentische Frameworks, an ihre Grenzen. Eine neue Veröffentlichung stellt einen Benchmark namens EgoMemReason vor, der darauf abzielt, diese Herausforderungen systematisch zu untersuchen und die Entwicklung fortschrittlicherer Systeme voranzutreiben.
Die Notwendigkeit, kontinuierliche visuelle Erfahrungen über Tage oder sogar Wochen hinweg zu verarbeiten, ist für die nächste Generation visueller Assistenten – von Smart Glasses bis hin zu autonomen Agenten – von entscheidender Bedeutung. In ultralangen Videos sind relevante Informationen oft spärlich über Stunden oder Tage verteilt. Dies erfordert von Modellen, Informationen über die Zeit hinweg zu akkumulieren, frühere Zustände abzurufen, die zeitliche Abfolge zu verfolgen und wiederkehrende Muster zu abstrahieren. Bestehende Benchmarks für wochenlange Videos konzentrieren sich jedoch primär auf Wahrnehmung und Erkennung, nicht auf das tiefgreifende Denken, das die Integration von Beweisen über mehrere Tage hinweg erfordert.
EgoMemReason schliesst diese Lücke, indem es einen umfassenden Benchmark für das Verstehen von wochenlangen egozentrischen Videos durch gedächtnisgestütztes Denken einführt. Der Benchmark bewertet drei komplementäre Gedächtnistypen:
EgoMemReason umfasst 500 Multiple-Choice-Fragen, die diese drei Gedächtnistypen und sechs Kernherausforderungen abdecken. Im Durchschnitt erfordert jede Frage das Aggregieren von 5,1 verschiedenen Videosegmenten und eine Gedächtnisrückverfolgung von 25,9 Stunden. Dies übertrifft frühere wochenlange Benchmarks um das Zweifache sowohl in der Anzahl der Beweissegmente als auch in der zeitlichen Zertifizierung.
Die Erstellung von EgoMemReason erfolgte in einem vierstufigen Prozess, der automatisierte modellbasierte Generierung mit menschlicher Verifikation kombiniert. Dies gewährleistet, dass die Fragen zeitlich verankert, visuell verifiziert und tatsächlich anspruchsvoll sind.
Rohdaten von mehrtägigen egozentrischen Videos werden in strukturierte Evidenz umgewandelt. Dies beinhaltet die Erstellung von detaillierten, objektzentrierten Bildunterschriften für 30-Sekunden-Clips mittels GPT-5. Diese Beschreibungen verfolgen Zustandsänderungen, räumliche Standorte, menschliche Interaktionen und Zählungen. Anschliessend werden diese Clip-Level-Beschreibungen zu hierarchischen Ereigniszusammenfassungen auf mehreren Zeitebenen (30-Sekunden, 10-Minuten, 2-Stunden und ganztägig) aggregiert.
Aus der strukturierten Evidenz werden mittels GPT-5.2 Multiple-Choice-Fragen für jeden Gedächtnistyp generiert. Jede Frage ist an einen Abfragezeitpunkt gebunden, sodass nur frühere Beobachtungen zugänglich sind. Der Prozess umfasst die Extraktion relevanter Faktenaussagen, die Formulierung von Fragen und die Generierung semantisch kompetitiver Distraktoren (falsche Antworten) aus ähnlichen Kontexten.
Kandidatenfragen durchlaufen eine automatische Filterung, um triviale, mehrdeutige oder unbegründete Fragen zu entfernen. Ein "Blindtest" mit drei LLMs (Gemini-3.1-Pro, GPT-5.2, Qwen-3-VL-32B) identifiziert Fragen, die ohne visuelle Eingabe beantwortet werden können, um Textlecks zu vermeiden. Zudem wird überprüft, ob die richtigen Antworten durch gültige visuelle Beweise vor dem Abfragezeitpunkt gestützt werden und ein Mindestzeitabstand von 2 Stunden zwischen den unterstützenden Beweisen eingehalten wird.
Alle verbleibenden Kandidaten werden von sechs menschlichen Anmerkenden überprüft. Diese bewerten die Klarheit der Frage, die Richtigkeit der Antwort und die Qualität der Optionen. Dieser Prozess stellt sicher, dass der endgültige Benchmark visuell verankert und von Menschen validiert ist. Lediglich 15 % der ursprünglichen Kandidaten überstehen alle Filter- und Verifizierungsstufen.
Es wurden 17 Systeme evaluiert, darunter Allzweck-MLLMs, videospezifische MLLMs und agentische Video-Frameworks. Das beste Modell, Gemini-3-Flash, erreichte eine Gesamtgenauigkeit von lediglich 39,6 %. Dies verdeutlicht, dass das Langzeitgedächtnis-Denken in Videos eine erhebliche offene Herausforderung bleibt.
Die Analyse der Ergebnisse zeigt, dass die drei Gedächtnistypen aus unterschiedlichen Gründen fehlschlagen, was auf spezifische, fehlende Fähigkeiten und nicht auf eine gemeinsame Limitation hindeutet:
Weitere Analysen zeigten, dass weder eine dichtere Frame-Abtastung noch zusätzliche Textinputs (Transkripte, Bildunterschriften) zu einer konsistenten Verbesserung führten. Dies verstärkt die Annahme, dass der Kernengpass darin liegt, wie Modelle Informationen über lange Zeithorizonte intern speichern und abrufen.
Die Ergebnisse des EgoMemReason-Benchmarks legen nahe, dass die einfache Skalierung der Modellgrösse oder der Eingabelänge nicht ausreicht, um die Herausforderungen des Langzeitgedächtnis-Denkens in egozentrischen Videos zu bewältigen. Stattdessen sind Fortschritte entlang dreier orthogonaler Achsen erforderlich:
EgoMemReason bietet somit einen stringenten diagnostischen Rahmen, um zukünftige Forschungsarbeiten in Richtung von Modellen zu lenken, die zu echtem Langzeitgedächtnis-Denken fähig sind.
Es wurden auch Studien zur Auswirkung der zeitlichen Zertifizierung, der Skalierung der visuellen Eingabe und der zusätzlichen Informationen durchgeführt.
Auch die Analyse von Prompting-Strategien ergab, dass direkte Fragen und Antworten (QA) und In-Context Learning (ICL) am effektivsten sind, während Chain-of-Thought (CoT) Prompting die Leistung in gedächtnisintensiven Aufgaben sogar verschlechterte. Dies deutet darauf hin, dass die primäre Herausforderung in der visuellen Wahrnehmung und dem Gedächtnisabruf liegt, nicht in der Denkstrategie.
Die detaillierte Fehleranalyse zeigte, dass die Hauptfehlerquellen in visuellen Wahrnehmungsfehlern (28 %), dem Übersehen wichtiger visueller Informationen (32 %) und logischen Fehlern beim Denken (32 %) liegen. Nur ein kleiner Teil der Fehler (8 %) trat auf, obwohl der Denkprozess korrekt war.
Die Ergebnisse des EgoMemReason-Benchmarks sind von grosser Relevanz für Unternehmen im Bereich der KI, die an der Entwicklung von Systemen für das Verständnis und die Analyse von Videodaten über längere Zeiträume arbeiten. Sie unterstreichen die Notwendigkeit, über reine Skalierung hinaus innovative Ansätze für Speicherarchitekturen und Denkprozesse in multimodalen Systemen zu erforschen.
Bibliography - Bai, S., Cai, Y., Chen, R., Chen, K., Chen, X., Cheng, Z., Deng, L., Ding, W., Gao, C., Ge, C., Ge, W., Guo, Z., Huang, Q., Huang, J., Huang, F., Hui, B., Jiang, S., Li, Z., Li, M., Li, M., Li, K., Lin, Z., Lin, J., Liu, X., Liu, J., Liu, C., Liu, Y., Liu, D., Liu, S., Lu, D., Luo, R., Lv, C., Men, R., Meng, L., Ren, X., Ren, X., Song, S., Sun, Y., Tang, J., Tu, J., Wan, J., Wang, P., Wang, P., Wang, Q., Wang, Y., Xie, T., Xu, Y., Xu, H., Xu, J., Yang, Z., Yang, M., Yang, J., Yang, A., Yu, B., Zhang, F., Zhang, H., Zhang, X., Zheng, B., Zhong, H., Zhou, J., Zhou, F., Zhou, J., Zhu, Y., and Zhu, K. (2025) Qwen3-vl technical report. arXiv preprint arXiv:2511.21631. - Clark, C., Zhang, J., Ma, Z., Park, J. S., Salehi, M., Tripathi, R., Lee, S., Ren, Z., Kim, C. D., Yang, Y., Shao, V., Yang, Y., Huang, W., Gao, Z., Anderson, T., Zhang, J., Jain, J., Stoica, G., Han, W., Farhadi, A., and Krishna, R. (2026) Molmo2: open weights and data for vision-language models with video understanding and grounding. arXiv preprint arXiv:2601.10611. - Google DeepMind (2025) Gemini 3 flash: frontier intelligence built for speed. Note: https://blog.google/products/gemini/gemini-3-flash/ - Google DeepMind (2026) Gemini 3.1 pro model card. Note: https://deepmind.google/models/model-cards/gemini-3-1-pro/ Accessed: 2026-04-25 - Hugging Face. Ted412/EgoMemReason. URL: https://huggingface.co/datasets/Ted412/EgoMemReason - Mangalam, K., Akshulakov, R., and Malik, J. (2023) Egoschema: a diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems 36, pp. 46212–46244. - OpenAI (2025) GPT-5 system card. External Links: 2601.03267 - Wang, Z., Zhang, Y., Yu, S., Zhang, C., Zhao, Z., Yoon, J., Lee, H., Bertasius, G., and Bansal, M. (2026) EgoMemReason: A Memory-driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding. arXiv preprint. URL: https://arxiv.org/abs/2605.09874 - Yang, J., Liu, S., Guo, H., Dong, Y., Zhang, X., Zhang, S., Wang, P., Zhou, Z., Xie, B., Wang, Z., et al. (2025a) Egolife: towards egocentric life assistant. In Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 28885–28900.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen