Neuer Benchmark zur Bewertung von Code-Sprachmodellen von Microsoft veröffentlicht

Kategorien:

No items found.

Freigegeben:

May 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Microsoft hat den DELULU-FIM-BENCHMARK auf Hugging Face veröffentlicht.
Dieser Benchmark dient der Bewertung von Code-Sprachmodellen (CodeLLMs) speziell für "Fill-in-the-Middle"-Code-Vervollständigungsaufgaben (FIM).
DELULU-FIM-BENCHMARK ist ein Teil des umfassenderen DevBench-Benchmarks, der auf realen Entwickler-Telemetriedaten basiert.
Der Benchmark umfasst 1.800 Bewertungsinstanzen in sechs Programmiersprachen und sechs Aufgabenkategorien.
Ziel ist eine realistische und kontaminationsresistente Bewertung von Code-Generierungsmodellen.
Die Bewertung erfolgt über funktionale Korrektheit (Pass@1), Ähnlichkeitsmetriken und LLM-basierte Beurteilungen.
Erste Analysen zeigen, dass Modelle wie Claude 4 Sonnet und GPT-4.1 mini führend sind, aber auch Herausforderungen bei der Sprachübergreifenden Code-Generierung bestehen.

Als Senior Specialist Journalist und Analyst für Mindverse, Ihrem KI-Partner, beobachten wir kontinuierlich die neuesten Entwicklungen im Bereich der Künstlichen Intelligenz. Aktuelle Nachrichten aus der Forschungsgemeinschaft zeigen, dass Microsoft einen neuen Benchmark mit dem Namen DELULU-FIM-BENCHMARK auf Hugging Face veröffentlicht hat. Dieser neue Benchmark ist speziell für die Bewertung von Code-Sprachmodellen (CodeLLMs) in "Fill-in-the-Middle"-Code-Vervollständigungsaufgaben (FIM) konzipiert. Er ist Teil einer umfassenderen Initiative, die darauf abzielt, die Bewertung von Code-Generierungsmodellen realistischer und aussagekräftiger zu gestalten.

Der DELULU-FIM-BENCHMARK im Kontext von DevBench

Der DELULU-FIM-BENCHMARK ist eine Komponente des sogenannten DevBench-Frameworks. DevBench ist ein von Microsoft entwickelter Benchmark, der darauf ausgelegt ist, die Leistungsfähigkeit von grossen Sprachmodellen (LLMs) bei realistischen Code-Vervollständigungsaufgaben zu bewerten. Im Gegensatz zu vielen bestehenden Benchmarks, die oft auf öffentlich zugänglichen Code-Repositories basieren, legt DevBench Wert auf die ökologische Validität. Das bedeutet, dass die Aufgaben die tatsächlichen Herausforderungen widerspiegeln, denen Entwickler im Alltag begegnen. Dies wird durch die Analyse von über einer Milliarde realer Entwicklerinteraktionen und der Synthese von 1.800 Bewertungsinstanzen erreicht.

Ziele und Merkmale von DevBench

DevBench verfolgt mehrere zentrale Ziele, die für die B2B-Zielgruppe von grosser Relevanz sind:

Realismus: Die Aufgaben basieren auf realen Entwickler-Telemetriedaten, die in sechs Programmiersprachen (Python, JavaScript, TypeScript, Java, C++, C#) und sechs Aufgabenkategorien (API Usage, Code Purpose Understanding, Code2NL/NL2Code, Low Context, Pattern Matching, Syntax Completion) unterteilt sind.
Kontaminationsresistenz: Durch die synthetische Generierung und manuelle Überprüfung der Instanzen wird das Risiko minimiert, dass Modelle aufgrund von Datenkontamination in ihren Trainingsdaten übermässig gut abschneiden.
Feingranulare Bewertung: Der Benchmark ermöglicht eine detaillierte Diagnose der Stärken und Schwächen von Modellen, indem er funktionale Korrektheit, semantische Ausrichtung und den Nutzen für Entwickler bewertet.
Sprachübergreifende Abdeckung: Die breite Sprachabdeckung stellt sicher, dass die Modelle in verschiedenen Entwicklungsumgebungen getestet werden können.

Die Bewertungsinstanzen bestehen jeweils aus einem Präfix (vorangehender Code-Kontext), einer "Golden Completion" (erwartete Ausgabe), einem Suffix (nachfolgender Code) und Assertionen zur Validierung der Korrektheit. Besonders die "Fill-in-the-Middle"-Szenarien, bei denen sowohl ein Präfix als auch ein Suffix gegeben sind, sind für die realistische Code-Vervollständigung von Bedeutung.

Bewertungsmethoden des DELULU-FIM-BENCHMARKS

Die Bewertung der Code-Generierungsmodelle erfolgt über ein mehrdimensionales System, das verschiedene Aspekte der Code-Qualität berücksichtigt:

Funktionale Korrektheit (Pass@1): Diese Metrik misst den Prozentsatz der Aufgaben, bei denen mindestens eine der generierten Vervollständigungen alle Testfälle erfolgreich besteht.
Ähnlichkeitsmetriken: Hierzu gehören die "Average Cosine Similarity" (bewertet die semantische Äquivalenz) und die "Line 0 Exact Match Rate" (fokussiert auf die präzise Übereinstimmung der ersten Zeile der Vervollständigung).
LLM-basierte Beurteilung: Ein separates LLM-Modell (o3-mini) bewertet die Relevanz und Hilfsbereitschaft der generierten Code-Vervollständigungen aus einer menschenähnlichen Perspektive.

Erste Erkenntnisse aus der Evaluation

Im Rahmen der Entwicklung des Benchmarks wurden neun State-of-the-Art-Modelle evaluiert. Die Ergebnisse liefern erste Einblicke in die Leistungsfähigkeit aktueller Code-Sprachmodelle:

Spitzenreiter: Modelle wie Claude 4 Sonnet, Claude 3.7 Sonnet und GPT-4.1 mini zeigten die besten Ergebnisse bei der funktionalen Korrektheit (Pass@1). Claude 4 Sonnet erreichte eine Gesamt-Pass@1-Rate von 84,80%.
Herausfordernde Kategorien: Die Kategorie "Code2NL/NL2Code" (Übersetzung zwischen Code und natürlicher Sprache) erwies sich als die schwierigste, selbst für führende Modelle. "Low Context" (Vervollständigung mit minimalem Kontext) war hingegen eine Stärke vieler Modelle.
Sprachspezifische Herausforderungen: TypeScript wurde als die anspruchsvollste Sprache identifiziert, was auf ihr komplexes Typsystem zurückzuführen ist.
Diskrepanzen zwischen Metriken: Es gab Fälle, in denen eine hohe syntaktische Ähnlichkeit nicht unbedingt mit funktionaler Korrektheit korrelierte. Dies deutet darauf hin, dass Modelle manchmal Muster gut reproduzieren, aber die zugrunde liegende Semantik nicht vollständig erfassen.
LLM-Judge-Ergebnisse: Bei der LLM-basierten Beurteilung führte GPT-4o, dicht gefolgt von DeepSeek-V3 und Claude 3.7 Sonnet, was eine teilweise andere Rangfolge als bei den rein funktionalen Metriken ergab. Dies deutet darauf hin, dass die "Nützlichkeit" oder "Relevanz" des Codes nicht immer direkt mit der reinen Korrektheit übereinstimmt.

Implikationen für B2B-Anwendungen und Mindverse

Für Unternehmen, die auf KI-gestützte Code-Generierungswerkzeuge setzen oder solche entwickeln, sind die Erkenntnisse aus dem DELULU-FIM-BENCHMARK von grosser Bedeutung:

Modellauswahl: Der Benchmark bietet eine fundierte Grundlage für die Auswahl von CodeLLMs, die den spezifischen Anforderungen an Realismus, Zuverlässigkeit und Sprachunterstützung gerecht werden.
Verbesserungspotenziale: Die detaillierten Diagnosen können Entwicklern von CodeLLMs helfen, gezielte Verbesserungen vorzunehmen, beispielsweise durch die Erweiterung der Trainingsdaten für bestimmte Sprachen oder Aufgabenkategorien.
Qualitätssicherung: Die mehrdimensionale Bewertung, die funktionale Korrektheit, Ähnlichkeit und den Entwicklernutzen umfasst, ermöglicht eine umfassendere Qualitätssicherung von generiertem Code.
Kontaminationsbewusstsein: Der Fokus auf Kontaminationsresistenz ist entscheidend, um sicherzustellen, dass die Leistungsbewertungen von CodeLLMs nicht durch die blosse Reproduktion von Trainingsdaten verzerrt werden.

Mindverse als Ihr KI-Partner ist bestrebt, Ihnen Werkzeuge zur Verfügung zu stellen, die auf den neuesten Forschungsergebnissen basieren und den höchsten Standards in Bezug auf Funktionalität und Zuverlässigkeit entsprechen. Die Entwicklung und Analyse solcher Benchmarks wie DELULU-FIM-BENCHMARK ist ein wichtiger Schritt, um die Leistungsfähigkeit und die praktischen Anwendungen von KI in der Softwareentwicklung kontinuierlich zu verbessern.

Die fortlaufende Forschung und Entwicklung in diesem Bereich wird dazu beitragen, die Lücke zwischen den Fähigkeiten von CodeLLMs und den komplexen Anforderungen realer Softwareentwicklungsprojekte weiter zu schliessen. Mindverse verfolgt diese Entwicklungen genau, um sicherzustellen, dass unsere Lösungen stets den aktuellen Anforderungen des Marktes entsprechen.

Bibliography: - microsoft/DELULU-FIM-BENCHMARK · Datasets at Hugging Face. (n.d.). Hugging Face. Retrieved from https://huggingface.co/datasets/microsoft/DELULU-FIM-BENCHMARK - Golnari, P. A., Kumarappan, A., Wen, W., Liu, X., Ryan, G., Sun, Y., ... & Nallipogu, E. (2026). DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models. arXiv preprint arXiv:2601.11895. - Readme. (n.d.). Hugging Face. Retrieved from https://huggingface.co/cmu-mlsp/DELULU/resolve/main/README.md?download=true - Microsoft - Hugging Face. (n.d.). Hugging Face. Retrieved from https://huggingface.co/microsoft/datasets - GitHub - microsoft/NoFunEval: Code and Data for the paper - "NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness". (n.d.). GitHub. Retrieved from https://aka.ms/NoFunEval - DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Trained Speech Foundational Model. (n.d.). arXiv. Retrieved from https://arxiv.org/html/2510.17662v2 - Code Evaluation - a Vipitis Collection - Hugging Face. (n.d.). Hugging Face. Retrieved from https://huggingface.co/collections/Vipitis/code-evaluation - GitHub - microsoft/SWE-bench-Live at dbee9db50363733b09e03a8cc2b131cf1bb72a52 · GitHub. (n.d.). GitHub. Retrieved from https://github.com/microsoft/SWE-bench-Live/tree/dbee9db50363733b09e03a8cc2b131cf1bb72a52 - microsoft/MMLU-CF. (n.d.). GitHub. Retrieved from https://github.com/microsoft/mmlu-cf - CodeMMLU: A Multi-Task Benchmark for Assessing Code .... (n.d.). Hugging Face. Retrieved from https://huggingface.co/papers/2410.01999