Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren zu einer Transformation zahlreicher Branchen geführt, und die Softwareentwicklung bildet hier keine Ausnahme. Große Sprachmodelle (LLMs) haben das Potenzial, Entwickler bei alltäglichen Aufgaben wie der Code-Vervollständigung erheblich zu unterstützen. In diesem Kontext hat Microsoft kürzlich den DELULU-FIM-BENCHMARK auf Hugging Face vorgestellt, eine neue, spezialisierte Evaluierungssuite, die darauf abzielt, die Fähigkeiten von LLMs in "Fill-in-the-Middle" (FIM) Code-Vervollständigungsaufgaben präzise zu bewerten.
Bestehende Benchmarks für Code-Generierungsmodelle, wie HumanEval oder MBPP, konzentrieren sich oft auf die Generierung eigenständiger Funktionen oder ganzer Dateien aus natürlichen Sprachbeschreibungen. Diese Ansätze bilden jedoch nicht immer die Realität der Softwareentwicklung ab, in der das Modifizieren und Erweitern bestehenden Codes eine zentrale Rolle spielt. "Fill-in-the-Middle" (FIM)-Aufgaben, bei denen ein fehlender Codeabschnitt innerhalb eines vorhandenen Kontextes vervollständigt werden muss, sind in diesem Zusammenhang von großer praktischer Bedeutung.
Der DELULU-FIM-BENCHMARK basiert auf dem Konzept des Syntax-Aware Fill-in-the-Middle (SAFIM). SAFIM legt den Fokus auf die syntaktisch korrekte Vervollständigung von Programmstrukturen. Dies umfasst:
for, while, if und else-if. Die Modelle müssen hierbei das Verständnis des Code-Kontrollflusses demonstrieren.Der SAFIM-Benchmark umfasst 17.720 Beispiele aus verschiedenen Programmiersprachen (Python, Java, C++, C#). Die Daten stammen aus aktuellen Code-Einreichungen nach April 2022, um Datenkontaminationen mit weit verbreiteten Pretraining-Korpora zu minimieren. Dies erhöht die Glaubwürdigkeit der Evaluationsergebnisse.
Die Bewertung der von den LLMs generierten Vervollständigungen erfolgt durch eine Kombination aus ausführungsbasierter und syntaktischer Übereinstimmungsprüfung.
Ein zentraler Aspekt des Benchmarks ist die Berücksichtigung von Prompt-Designs und Post-Processing-Techniken, die einen erheblichen Einfluss auf die Modellbewertungen haben können.
Die Leistung von LLMs wird maßgeblich durch die Gestaltung der Prompts beeinflusst. Der DELULU-FIM-BENCHMARK verwendet eine Reihe unterschiedlicher Prompt-Typen, um eine faire Bewertung zu gewährleisten:
Des Weiteren wird ein neuartiger Syntax-Aware Truncation-Algorithmus eingesetzt. Dieser Algorithmus ersetzt herkömmliche RegEx-basierte Heuristiken und stellt sicher, dass die gezielten Codestrukturen präzise extrahiert werden. Dies ist entscheidend, da LLMs oft zusätzlichen, irrelevanten Text oder Code generieren. Die syntax-sensitive Trunkierung verbessert nicht nur die Pass@1-Raten (Anteil der korrekt gelösten Aufgaben beim ersten Versuch), sondern reduziert auch signifikant Kompilierungsfehler, insbesondere bei Modellen, die nicht explizit für FIM-Aufgaben vortrainiert wurden.
Die umfassende Bewertung verschiedener LLMs auf dem SAFIM-Benchmark liefert mehrere wichtige Erkenntnisse:
Zusätzliche Evaluierungen umfassen weitere LLMs wie Mixtral, Phi, WizardCoder und Magicoder. Diese Analysen bestätigen die zentrale Rolle der Pretraining-Methodik für die Leistung von Code-LLMs. Es wurde auch festgestellt, dass LLMs in Sprachen wie Java und C# tendenziell höhere Erfolgsraten aufweisen, was auf die größere Ausführlichkeit dieser Sprachen zurückzuführen sein könnte. Im Gegensatz dazu stellen C++ und Python aufgrund ihrer prägnanteren und weniger vorhersehbaren Codierungsstile größere Herausforderungen dar.
Der DELULU-FIM-BENCHMARK von Microsoft stellt einen wichtigen Fortschritt in der Evaluierung von Code-LLMs dar. Durch seinen fokus auf syntax-sensitive FIM-Aufgaben, die Minimierung von Datenkontaminationen und die Einführung innovativer Post-Processing-Techniken bietet er eine robuste Grundlage für die Bewertung und Weiterentwicklung von Modellen für die Code-Vervollständigung. Die gewonnenen Erkenntnisse betonen, dass nicht allein die Größe eines Modells, sondern vor allem die Qualität der Pretraining-Daten und die gewählten Trainingsmethoden entscheidend für die Leistung bei Programmieraufgaben sind.
Für Unternehmen, die LLMs in ihre Entwicklungsprozesse integrieren möchten, bieten diese Erkenntnisse klare Handlungsempfehlungen. Die Auswahl von Modellen sollte nicht nur auf ihrer Größe basieren, sondern auch auf der Spezifität ihres Trainings für FIM-Aufgaben und der Qualität ihrer Pretraining-Daten. Ein tieferes Verständnis der Stärken und Schwächen verschiedener Modelle in spezifischen Code-Vervollständigungsszenarien ermöglicht eine fundiertere Entscheidung bei der Implementierung von KI-gestützten Entwicklungstools.
Die zukünftige Forschung wird sich darauf konzentrieren, die hier gewonnenen Erkenntnisse zu vertiefen und weitere Verbesserungen in Pretraining-Paradigmen zu erforschen, um noch leistungsfähigere und zuverlässigere LLMs für die Softwareentwicklung zu schaffen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen