Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung großer Sprachmodelle (LLMs) hat in den letzten Jahren beeindruckende Fortschritte gezeigt, insbesondere in Bereichen wie Textgenerierung, Dialogführung und komplexer Problemlösung. Mit der Integration von visuellen Komponenten zu sogenannten Large Vision-Language Models (LVLMs) erweitern sich ihre Fähigkeiten auf multimodale Interaktionen. Eine zentrale Herausforderung für diese Modelle, insbesondere in realen Anwendungsszenarien, ist jedoch das effektive Management und der Abruf von Informationen über längere Zeiträume und mehrere Interaktionssitzungen hinweg. Diese Fähigkeit, die als "Langzeitgedächtnis" bezeichnet wird, ist entscheidend für das Verständnis komplexer, sich entwickelnder Konversationen, die sowohl textuelle als auch visuelle Daten umfassen.
Bisherige Bemühungen zur Verbesserung des Langzeitgedächtnisses in LVLMs konzentrierten sich auf zwei Hauptrichtungen: zum einen auf Long-Context-LVLMs, die darauf ausgelegt sind, sehr lange Eingabesequenzen direkt zu verarbeiten, und zum anderen auf speichererweiterte Agenten, die externe Speichermechanismen nutzen, um relevante Informationen über die aktuelle Konversation hinaus zu speichern und abzurufen. Trotz dieser Fortschritte fehlte es bisher an einem umfassenden und systematischen Benchmark, der die Leistungsfähigkeit beider Ansätze in Szenarien vergleicht, die tatsächlich multimodale Evidenz erfordern und sich über mehrere Sitzungen erstrecken.
Um diese Lücke zu schließen, wurde der Benchmark MEMLENS eingeführt. MEMLENS ist darauf ausgelegt, das Langzeitgedächtnis von LVLMs in multimodalen, mehrsitzigen Konversationen zu evaluieren. Der Benchmark umfasst 789 sorgfältig kuratierte Fragen, die fünf verschiedene Gedächtnisfähigkeiten testen:
Diese Fragen werden über vier standardisierte Kontextlängen hinweg (von 32.000 bis 256.000 Token) bewertet, wobei ein modellübergreifendes Token-Zählschema angewendet wird, das sowohl Text- als auch Bildtoken berücksichtigt.
Ein entscheidendes Merkmal von MEMLENS ist die explizite Berücksichtigung multimodaler Evidenz. Eine durchgeführte Bild-Ablationsstudie unterstreicht die Notwendigkeit visueller Informationen: Bei Fragen, deren Beantwortung visuelle Evidenz erfordert (80,4 % der Fragen), führte das Entfernen der Beweisbilder bei zwei führenden LVLMs zu einem Genauigkeitsabfall auf unter 2 %. Dies bestätigt, dass MEMLENS Modelle zwingt, tatsächlich visuelle Informationen zu nutzen und nicht auf textbasierte Abkürzungen zurückzugreifen.
Im Rahmen der Studie wurden 27 verschiedene LVLMs und 7 speichererweiterte Agenten mit MEMLENS evaluiert. Die Ergebnisse liefern differenzierte Einblicke in die Stärken und Schwächen der aktuellen Ansätze:
Insbesondere die Fähigkeit zur Multi-Session-Argumentation stellte für die meisten Systeme eine erhebliche Hürde dar, wobei die Genauigkeit bei dieser Aufgabe unter 30 % lag. Dies deutet auf eine grundlegende Begrenzung bei der Integration und dem logischen Schlussfolgern über diskrete Interaktionssitzungen hinweg hin.
Die Ergebnisse von MEMLENS legen nahe, dass weder der alleinige Ansatz der Skalierung von Kontextfenstern noch der alleinige Einsatz aktueller Retrieval-Agenten das Problem des langfristigen multimodalen Gedächtnisses vollständig lösen kann. Stattdessen motivieren diese Erkenntnisse die Entwicklung von hybriden Architekturen. Solche Architekturen könnten die Stärken der Long-Context-Attention (für die detaillierte Verarbeitung aktueller multimodaler Eingaben) mit den Vorteilen des strukturierten multimodalen Retrievals (für den effizienten Abruf und die Integration von Langzeitinformationen) kombinieren. Ein solcher Ansatz könnte die visuelle Wiedergabetreue über längere Zeiträume erhalten und gleichzeitig die Fähigkeit zur komplexen Argumentation über mehrere Sitzungen hinweg verbessern.
Der MEMLENS-Benchmark stellt einen wichtigen Schritt zur systematischen Bewertung und Weiterentwicklung von LVLMs dar. Die Autoren haben den Code und den Datensatz öffentlich zugänglich gemacht, um die Forschung in diesem kritischen Bereich zu fördern. Dies ermöglicht es der KI-Gemeinschaft, neue Modelle und Architekturen unter realistischen Bedingungen zu testen und so die Entwicklung von robusteren und intelligenteren multimodalen Systemen voranzutreiben.
Die kontinuierliche Verbesserung des Langzeitgedächtnisses in LVLMs ist entscheidend für ihre breite Anwendung in komplexen, interaktiven Szenarien, von intelligenten Assistenten bis hin zu autonomen Systemen, die eine tiefe und dauerhafte Interaktion mit ihrer Umgebung erfordern.
Bibliographie
- Ren, X., Wang, Z., Du, Y., Xie, Z., Liu, C., Yang, X., Feng, H., Pan, W., Zheng, T., Xu, B., Li, Z., Song, Y., Wong, G., & See, S. (2026). MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models. Hugging Face Papers. - AI Research Roundup. (2026, May 15). MemLens: Measuring Long-Term Memory in LVLMs. YouTube. - He, Z., Zhao, H., Payani, A., & Du, M. (2025). MemLens: Uncovering Memorization in LLMs with Activation Trajectories. OpenReview. - TheMoonlight.io. (n.d.). [Literature Review] MemLens: Uncovering Memorization in LLMs with Activation Trajectories. - Gao, J., Song, J., Wu, J., Zhu, R., Shen, G., Wang, S., Wei, X., Yang, H., Zhang, S., Li, W., Wang, B., Lin, D., Wu, L., & He, C. (2026). PM4Bench: Benchmarking Large Vision-Language Models with Parallel Multilingual Multi-Modal Multi-task Corpus. arXiv preprint arXiv:2503.18484v2.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen