Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, die Länge von generierten Sequenzen in Sprachmodellen präzise zu steuern und vorherzusagen, ist von entscheidender Bedeutung für die Effizienz und Leistungsfähigkeit moderner autoregressiver Modelle. Bisherige Ansätze zur Längenmodellierung operierten oft auf einer groben Sequenzebene, was die Möglichkeiten zur Feinabstimmung und Optimierung einschränkte. Ein neuer Forschungsbeitrag, das Length Value Model (LenVM), bietet hier einen innovativen, auf Token-Ebene basierenden Ansatz, der die Längenmodellierung als ein Wertschätzungsproblem formuliert.
Die Generierungslänge hat einen direkten Einfluss auf die Inferenzkosten und die Schlussfolgerungsleistung von autoregressiven Modellen. Insbesondere bei großen Sprachmodellen (LLMs) und multimodalen Modellen (VLMs) ist die präzise Kontrolle über die Ausgabelänge wünschenswert, um Ressourcen effizient zu nutzen und die Qualität der Ergebnisse zu optimieren. Aktuelle Methoden zur Längenprognose, wie sie in Studien von Qiu et al. (2024) oder Jin et al. (2023) beschrieben werden, verwenden oft leichte Hilfsmodelle, die die Länge statisch auf Basis des Eingabeprompts vorhersagen. Diese Ansätze weisen jedoch mehrere Limitationen auf:
Diese Herausforderungen verdeutlichen den Bedarf an einem robusteren und flexibleren Rahmenwerk für die Längenmodellierung, das sowohl auf Token-Ebene agieren als auch dynamische Anpassungen während des Generierungsprozesses ermöglichen kann.
LenVM adressiert die genannten Probleme durch einen neuartigen Ansatz, der die verbleibende Generierungslänge bei jedem Dekodierungsschritt als Wertschätzungsproblem behandelt. Die Kernidee besteht darin, jedem generierten Token eine konstante negative Belohnung zuzuweisen. Dadurch prognostiziert LenVM einen begrenzten, diskontierten Ertrag, der als Proxy für den verbleibenden Generierungshorizont dient.
Die Implementierung von LenVM erfolgt über ein vortrainiertes Wertmodell, das in moderne autoregressive Architekturen integriert wird. Es nutzt vorhandene Frameworks wie LlamaFactory für das Training und SGLang für die Inferenz. Der Prozess umfasst:
Der Ansatz von LenVM unterscheidet sich grundlegend von anderen Längenmodellierungsmethoden. Während beispielsweise Entropy-Guided Token Pooling (EGTP) und Progressive Length Prediction (PLP) (Einreichung bei ICLR 2026) interne Hidden States von LLMs nutzen, um Ausgabelängen vorherzusagen, agieren diese primär auf Prompt- oder sequenzübergreifender Ebene. EGTP konzentriert sich auf eine genaue statische Vorhersage durch Rekombination modellinterner Aktivierungen, während PLP eine iterative Verfeinerung der Längenprognose in stochastischen Umgebungen ermöglicht. LenVM hingegen konzentriert sich auf die token-basierte Wertschätzung der verbleibenden Länge, was eine direktere und feinkörnigere Steuerung erlaubt.
Andere Forschungsarbeiten, wie GrowLength, konzentrieren sich auf eine progressive Erhöhung der Trainingssequenzlänge während des Vortrainings, um die Effizienz von LLMs zu verbessern, ohne zusätzliche Engineering-Anstrengungen. Efficient Pretraining Length Scaling schlägt den Parallel Hidden Decoding Transformer (PHD-Transformer) vor, um eine effiziente Längenskalierung beim Vortraining zu ermöglichen und gleichzeitig die Inferenz-Effizienz zu erhalten. Diese Methoden zielen darauf ab, die Fähigkeit der Modelle zu verbessern, längere Kontexte zu verarbeiten, während LenVM die explizite Steuerung der Ausgabelänge während der Inferenz in den Vordergrund stellt.
Ein weiterer relevanter Bereich ist die Kontextattribution auf Token-Ebene, wie sie von TokenShapley vorgeschlagen wird. Dieses Verfahren verwendet Shapley-Werte und KNN-Retrieval, um die Beiträge einzelner Tokens zur generierten Antwort zu quantifizieren. Obwohl TokenShapley nicht direkt die Längenmodellierung betrifft, unterstreicht es die wachsende Bedeutung einer granularen Analyse und Steuerung auf Token-Ebene, was auch ein Kernaspekt von LenVM ist.
Die Forschung zur effektiven Skalierung von Foundation Models für lange Kontexte, wie sie in "Effective Long-Context Scaling of Foundation Models" beschrieben wird, zeigt, dass die Anpassung von Positionskodierungen und die Nutzung umfangreicher Trainingsdaten entscheidend sind. Auch hier ergänzt LenVM diese Ansätze, indem es eine zusätzliche Schicht der Kontrolle über die Ausgabelänge bietet.
Für Unternehmen, die large language models (LLMs) oder vision-language models (VLMs) in ihren Geschäftsabläufen einsetzen, bietet LenVM erhebliche Vorteile:
Die Fähigkeit von LenVM, einen effektiven Kompromiss zwischen Leistung und Effizienz zu ermöglichen, ist besonders für B2B-Anwendungen von Relevanz. Beispielsweise kann bei der Generierung von Code auf GSM8K mit einem Budget von 200 Tokens eine Genauigkeit von 63% beibehalten werden, verglichen mit nur 6% bei einem einfachen Token-Budget-Baseline. Dies verdeutlicht das Potenzial von LenVM, die Effizienz von KI-Anwendungen zu steigern, ohne dabei signifikante Leistungseinbußen hinnehmen zu müssen.
Das Length Value Model (LenVM) stellt einen Fortschritt in der Längenmodellierung für autoregressive Modelle dar. Durch seinen token-basierten, wertschätzenden Ansatz bietet es eine präzisere Kontrolle und Vorhersage der Generierungslänge, die über die Fähigkeiten früherer sequenzbasierter Methoden hinausgeht. Die annotationsfreie Skalierbarkeit, multimodale Kompatibilität und die dynamische Steuerbarkeit während der Inferenz machen LenVM zu einem vielversprechenden Werkzeug für die Optimierung von LLM- und VLM-Anwendungen. Die erzielten Ergebnisse, insbesondere die deutliche Verbesserung der Längensteuerung und des Leistungs-Effizienz-Kompromisses, unterstreichen das Potenzial von LenVM als generelles Framework für die Längenmodellierung und als wertvolles Signal für zukünftige RL-Trainings.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen