Microsoft veröffentlicht DELULU-FIM-BENCHMARK zur Evaluierung von Code-Vervollständigungsmodellen

Kategorien:

No items found.

Freigegeben:

May 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Microsoft hat den DELULU-FIM-BENCHMARK auf Hugging Face veröffentlicht, eine neue Evaluierungssuite für "Fill-in-the-Middle" (FIM) Code-Vervollständigungsaufgaben.
DELULU-FIM-BENCHMARK ist ein syntax-sensitiver Benchmark, der die Fähigkeit von großen Sprachmodellen (LLMs) bewertet, Codeblöcke, Kontrollfluss-Ausdrücke und API-Funktionsaufrufe zu vervollständigen.
Der Benchmark wurde entwickelt, um Datenkontaminationen zu minimieren, indem Codequellen nach einem strengen Stichtag (April 2022) verwendet werden.
Eine neuartige syntax-sensitive Trunkierungs-Algorithmus verbessert die Qualität der FIM-Ausgaben und ermöglicht einen gerechten Vergleich verschiedener Modelle.
Die Forschungsergebnisse zeigen, dass die Pretraining-Methode und die Datenqualität einen größeren Einfluss auf die Leistung von Code-LLMs haben können als die reine Modellgröße.
FIM-Pretraining verbessert nicht nur die FIM-Fähigkeiten, sondern auch die "Left-to-Right" (L2R) Inferenzleistung von LLMs.

Die rapide Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren zu einer Transformation zahlreicher Branchen geführt, und die Softwareentwicklung bildet hier keine Ausnahme. Große Sprachmodelle (LLMs) haben das Potenzial, Entwickler bei alltäglichen Aufgaben wie der Code-Vervollständigung erheblich zu unterstützen. In diesem Kontext hat Microsoft kürzlich den DELULU-FIM-BENCHMARK auf Hugging Face vorgestellt, eine neue, spezialisierte Evaluierungssuite, die darauf abzielt, die Fähigkeiten von LLMs in "Fill-in-the-Middle" (FIM) Code-Vervollständigungsaufgaben präzise zu bewerten.

Die Notwendigkeit präziser Benchmarks für Code-LLMs

Bestehende Benchmarks für Code-Generierungsmodelle, wie HumanEval oder MBPP, konzentrieren sich oft auf die Generierung eigenständiger Funktionen oder ganzer Dateien aus natürlichen Sprachbeschreibungen. Diese Ansätze bilden jedoch nicht immer die Realität der Softwareentwicklung ab, in der das Modifizieren und Erweitern bestehenden Codes eine zentrale Rolle spielt. "Fill-in-the-Middle" (FIM)-Aufgaben, bei denen ein fehlender Codeabschnitt innerhalb eines vorhandenen Kontextes vervollständigt werden muss, sind in diesem Zusammenhang von großer praktischer Bedeutung.

Syntax-Aware Fill-in-the-Middle (SAFIM)

Der DELULU-FIM-BENCHMARK basiert auf dem Konzept des Syntax-Aware Fill-in-the-Middle (SAFIM). SAFIM legt den Fokus auf die syntaktisch korrekte Vervollständigung von Programmstrukturen. Dies umfasst:

Algorithmic Block Completion: Hierbei wird ein entscheidender Codeblock maskiert, der für die Lösung einer Programmieraufgabe unerlässlich ist. Dies testet die Fähigkeit des LLM, natürliche Sprachbeschreibungen zu interpretieren und Algorithmen zu entwerfen.
Control-Flow Completion: Diese Kategorie konzentriert sich auf die Maskierung kritischer Kontrollausdrücke in Anweisungen wie for, while, if und else-if. Die Modelle müssen hierbei das Verständnis des Code-Kontrollflusses demonstrieren.
API Function Call Completion: In dieser Kategorie werden Aufrufe von Funktionen und Objektkonstruktoren aus populären API-Bibliotheken maskiert. Dies bewertet das API-Wissen des LLM und seine Fähigkeit, dieses Wissen mit dem Codekontext zu integrieren.

Der SAFIM-Benchmark umfasst 17.720 Beispiele aus verschiedenen Programmiersprachen (Python, Java, C++, C#). Die Daten stammen aus aktuellen Code-Einreichungen nach April 2022, um Datenkontaminationen mit weit verbreiteten Pretraining-Korpora zu minimieren. Dies erhöht die Glaubwürdigkeit der Evaluationsergebnisse.

Methodik der Evaluierung

Die Bewertung der von den LLMs generierten Vervollständigungen erfolgt durch eine Kombination aus ausführungsbasierter und syntaktischer Übereinstimmungsprüfung.

Ausführungsbasierte Evaluierung: Bei Aufgaben zur Vervollständigung von Algorithmusblöcken und Kontrollflüssen wird die generierte Lösung als korrekt angesehen, wenn sie alle Unit-Tests besteht.
Syntaktische Übereinstimmungsprüfung: Bei der Vervollständigung von API-Funktionsaufrufen, wo Unit-Tests aufgrund externer Abhängigkeiten unpraktisch sein können, wird die Ausgabe des Modells mit der Referenzlösung auf syntaktische Äquivalenz verglichen.

Ein zentraler Aspekt des Benchmarks ist die Berücksichtigung von Prompt-Designs und Post-Processing-Techniken, die einen erheblichen Einfluss auf die Modellbewertungen haben können.

Prompt-Designs und Syntax-Aware Truncation

Die Leistung von LLMs wird maßgeblich durch die Gestaltung der Prompts beeinflusst. Der DELULU-FIM-BENCHMARK verwendet eine Reihe unterschiedlicher Prompt-Typen, um eine faire Bewertung zu gewährleisten:

Left-to-Right (L2R): Ein Basis-Prompt, der nur den Präfix des Codes enthält.
Prefix-Suffix-Middle (PSM): Verwendet einen Platzhalter, um den maskierten Codeabschnitt anzuzeigen, wobei das Modell den Abschnitt nach dem Prompt generieren soll.
Suffix-Prefix-Middle (SPM): Platziert das Suffix am Anfang und den Vervollständigungsabschnitt direkt nach dem Präfix.
Instructed Prefix Feeding (IPF): Ersetzt den maskierten Code durch einen Platzhalter, gefolgt von einer Anweisung.
One-Shot (1S): Speziell für nicht-FIM Chat-Modelle, ergänzt einen PSM-ähnlichen Prompt mit einem einfachen Input-Output-Beispiel.

Des Weiteren wird ein neuartiger Syntax-Aware Truncation-Algorithmus eingesetzt. Dieser Algorithmus ersetzt herkömmliche RegEx-basierte Heuristiken und stellt sicher, dass die gezielten Codestrukturen präzise extrahiert werden. Dies ist entscheidend, da LLMs oft zusätzlichen, irrelevanten Text oder Code generieren. Die syntax-sensitive Trunkierung verbessert nicht nur die Pass@1-Raten (Anteil der korrekt gelösten Aufgaben beim ersten Versuch), sondern reduziert auch signifikant Kompilierungsfehler, insbesondere bei Modellen, die nicht explizit für FIM-Aufgaben vortrainiert wurden.

Experimentelle Ergebnisse und Implikationen

Die umfassende Bewertung verschiedener LLMs auf dem SAFIM-Benchmark liefert mehrere wichtige Erkenntnisse:

Die Bedeutung des Prompt-Designs: Eine sorgfältige Auswahl der Prompt-Typen ist entscheidend für eine faire Bewertung. Studien zeigen, dass Modelle unterschiedlich auf verschiedene Prompt-Formate reagieren, was bei einer unzureichenden Auswahl zu verzerrten Ergebnissen führen kann.
FIM-Pretraining verbessert FIM- und L2R-Leistung: Das Vortrainieren von LLMs mit einem FIM-Ziel verbessert nicht nur ihre Leistung bei FIM-Aufgaben, sondern auch bei der Left-to-Right (L2R)-Generierung. Dies deutet darauf hin, dass FIM-Pretraining zu einem besseren Code-Verständnis führen kann.
Syntax-Aware Truncation steigert die Qualität: Der Einsatz des syntax-sensitiven Trunkierungs-Algorithmus erhöht die Qualität der FIM-Ausgaben und ermöglicht einen gerechteren Vergleich von Modellen, insbesondere solchen, die nicht explizit auf FIM trainiert wurden.
Pretraining-Methode und Datenqualität über Modellgröße: Kleinere Modelle mit ausgeklügelten Pretraining-Paradigmen können mit größeren Modellen mithalten oder diese sogar übertreffen. Dies stellt die Annahme in Frage, dass eine größere Modellgröße automatisch zu einer überlegenen Leistung führt, insbesondere bei Programmieraufgaben.
Aufgabenspezifische Leistung wird durch Pretraining beeinflusst: Die Leistung der Modelle variiert je nach Aufgabentyp. Modelle, die Repository-Ebenen-Informationen in ihre Pretraining-Daten integrieren (z.B. StarCoder, DeepSeekCoder), zeigen eine bessere Leistung bei der Vervollständigung von API-Funktionsaufrufen. Modelle, die mit ausführungsbasiertem Feedback trainiert wurden (z.B. CodeLLaMa), erzielen bessere Ergebnisse bei der Generierung von Kontrollfluss-Ausdrücken.

Erweiterte Evaluierungen und Sprachen

Zusätzliche Evaluierungen umfassen weitere LLMs wie Mixtral, Phi, WizardCoder und Magicoder. Diese Analysen bestätigen die zentrale Rolle der Pretraining-Methodik für die Leistung von Code-LLMs. Es wurde auch festgestellt, dass LLMs in Sprachen wie Java und C# tendenziell höhere Erfolgsraten aufweisen, was auf die größere Ausführlichkeit dieser Sprachen zurückzuführen sein könnte. Im Gegensatz dazu stellen C++ und Python aufgrund ihrer prägnanteren und weniger vorhersehbaren Codierungsstile größere Herausforderungen dar.

Fazit und Ausblick

Der DELULU-FIM-BENCHMARK von Microsoft stellt einen wichtigen Fortschritt in der Evaluierung von Code-LLMs dar. Durch seinen fokus auf syntax-sensitive FIM-Aufgaben, die Minimierung von Datenkontaminationen und die Einführung innovativer Post-Processing-Techniken bietet er eine robuste Grundlage für die Bewertung und Weiterentwicklung von Modellen für die Code-Vervollständigung. Die gewonnenen Erkenntnisse betonen, dass nicht allein die Größe eines Modells, sondern vor allem die Qualität der Pretraining-Daten und die gewählten Trainingsmethoden entscheidend für die Leistung bei Programmieraufgaben sind.

Für Unternehmen, die LLMs in ihre Entwicklungsprozesse integrieren möchten, bieten diese Erkenntnisse klare Handlungsempfehlungen. Die Auswahl von Modellen sollte nicht nur auf ihrer Größe basieren, sondern auch auf der Spezifität ihres Trainings für FIM-Aufgaben und der Qualität ihrer Pretraining-Daten. Ein tieferes Verständnis der Stärken und Schwächen verschiedener Modelle in spezifischen Code-Vervollständigungsszenarien ermöglicht eine fundiertere Entscheidung bei der Implementierung von KI-gestützten Entwicklungstools.

Die zukünftige Forschung wird sich darauf konzentrieren, die hier gewonnenen Erkenntnisse zu vertiefen und weitere Verbesserungen in Pretraining-Paradigmen zu erforschen, um noch leistungsfähigere und zuverlässigere LLMs für die Softwareentwicklung zu schaffen.

Bibliographie

- Linyuan Gong et al.: "Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks". Abrufbar unter: https://huggingface.co/papers/2403.04814 - Microsoft auf Hugging Face: "microsoft/DELULU-FIM-BENCHMARK". Abrufbar unter: https://huggingface.co/datasets/microsoft/DELULU-FIM-BENCHMARK - Microsoft auf Hugging Face: "microsoft". Abrufbar unter: https://huggingface.co/microsoft/datasets - AK auf Hugging Face: "akhaliq". Abrufbar unter: https://huggingface.co/akhaliq - Daily Papers auf Hugging Face: "Code completion". Abrufbar unter: https://huggingface.co/papers?q=Code+completion - CMU MLSP: "DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Trained Speech Foundational Model". Abrufbar unter: https://huggingface.co/cmu-mlsp/DELULU/resolve/main/README.md?download=true - Baali, Massa et al. "DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Trained Speech Foundational Model." arXiv preprint arXiv:2510.17662 (2025). Abrufbar unter: https://arxiv.org/html/2510.17662v2 - Golnari, Pareesa Ameneh et al. "DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models." arXiv preprint arXiv:2601.11895 (2026). Abrufbar unter: https://arxiv.org/pdf/2601.11895 - Microsoft GitHub: "microsoft/NoFunEval". Abrufbar unter: https://aka.ms/NoFunEval - Microsoft GitHub: "microsoft/MMLU-CF". Abrufbar unter: https://github.com/microsoft/mmlu-cf