Cohere präsentiert North Mini Code: Ein neues Open-Source-Modell für die Code-Generierung

Kategorien:

No items found.

Freigegeben:

June 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Cohere hat "North Mini Code" vorgestellt, ein Open-Source-Modell für die Code-Generierung und Softwareentwicklung.
Es handelt sich um ein Mixture-of-Experts (MoE)-Modell mit 30 Milliarden Gesamtparametern und 3 Milliarden aktiven Parametern.
"North Mini Code" ist für agentische Software-Engineering-Aufgaben optimiert und übertrifft in Benchmarks vergleichbare und teilweise größere Modelle.
Das Modell ist unter der Apache 2.0 Lizenz verfügbar und kann lokal oder On-Premise eingesetzt werden.
Die Entwicklung erfolgte mit einem zweistufigen "Supervised Fine-Tuning" (SFT) und einem "Reinforcement Learning with Verifiable Rewards" (RLVR)-Ansatz.
Interne menschliche Evaluierungen zeigen insbesondere Verbesserungen bei Code-Bearbeitungsaufgaben nach dem RLVR-Training.

Cohere stellt "North Mini Code" vor: Ein effizientes Modell für die agentische Code-Entwicklung

Das KI-Unternehmen Cohere hat mit "North Mini Code" sein erstes Modell vorgestellt, welches speziell für Entwickler konzipiert wurde. Dieses Open-Source-Modell, das unter der Apache 2.0 Lizenz veröffentlicht wird, zielt darauf ab, die agentische Code-Generierung und die Bewältigung komplexer Software-Engineering-Aufgaben effizient zu unterstützen. Es ist darauf ausgelegt, Entwicklern direkten Zugang zu agentischen Programmierfähigkeiten zu ermöglichen und kann sowohl lokal als auch On-Premise eingesetzt werden.

Architektur und Effizienz

"North Mini Code" ist ein sogenanntes Mixture-of-Experts (MoE)-Modell. Es verfügt über insgesamt 30 Milliarden Parameter, von denen jedoch nur 3 Milliarden aktiv genutzt werden. Diese Architektur ermöglicht eine hohe Leistung bei vergleichsweise geringem Hardware-Bedarf, was die Effizienz des Modells unterstreicht. Die Implementierung einer effizienten Aufmerksamkeitsfunktion, die zwischen gleitender Fenster-Aufmerksamkeit und vollständiger Selbst-Aufmerksamkeit wechselt, trägt zur Leistungsfähigkeit bei.

Das Modell ist als Decoder-only Transformer konzipiert und verwendet ein MoE-Block im Feed-Forward-Bereich mit 128 Experten, von denen 8 pro Token aktiviert werden. Die Router-Komponente nutzt eine Sigmoid-Aktivierungsfunktion vor der Top-k-Auswahl.

Leistung in Benchmarks

In verschiedenen Benchmarks, die agentische Programmieraufgaben und die Generierung komplexen Codes bewerten, zeigt "North Mini Code" eine bemerkenswerte Leistung. Auf dem "Artificial Analysis' Coding Index" erreichte das Modell einen Wert von 33,4. Damit übertrifft es vergleichbare Modelle wie Qwen3.5 (35B-A3B) und Gemma 4 (26B-A4B) sowie größere Modelle wie Nemotron 3 Super (120B-A12B) und Mistral Small 4 (119B-A6B).

Es ist zu beachten, dass diese Benchmarks spezifische Metriken und Methoden verwenden, um die Fähigkeiten der Modelle zu bewerten. Die Ergebnisse deuten auf eine Positionierung von "North Mini Code" unter den führenden Open-Source-Modellen seiner Größenklasse hin.

Post-Training für Code-Exzellenz

Die Entwicklung von "North Mini Code" umfasste einen mehrstufigen Post-Training-Prozess, der auf die Optimierung für agentische Programmieraufgaben ausgerichtet war. Dieser Prozess gliederte sich in zwei Phasen des "Supervised Fine-Tuning" (SFT) und eine Phase des "Reinforcement Learning with Verifiable Rewards" (RLVR).

Supervised Fine-Tuning (SFT)

Die erste SFT-Phase konzentrierte sich auf Programmierfähigkeiten, die in einem breiteren Datenmix integriert wurden, um Robustheit und Benutzerfreundlichkeit zu gewährleisten. Dieser Datenmix umfasste Programmierung, logisches Denken und Befolgen von Anweisungen aus verschiedenen Domänen, wobei Code-Datensätze 70 % der trainierbaren Tokens ausmachten. Davon entfielen 43 % auf agentische Tool-Nutzungsdaten und 27 % auf Single-Turn-Programmierdaten.

In der zweiten SFT-Phase wurde ein 4,5 Milliarden Token umfassender Datenmix verwendet, der ausschließlich aus agentischen und reasoning-basierten Stichproben bestand. Hierbei machten Code-Daten 61 % der trainierbaren Tokens aus. Dieser Mix enthielt hochwertige Daten aus dem Bereich des Programmierens und breiterer agentischer Aufgaben, wobei Tool-Aufrufe und Vervollständigungen als ausführbar und korrekt verifiziert wurden.

Die Trainingsdaten wurden in containerisierten agentischen Programmierumgebungen generiert und umfassten über 70.000 verifizierbare Aufgaben aus etwa 5.000 einzigartigen Repositories. Eine Deduplizierung der Umgebungen gegen Quellen wie SWE-Bench und SWE-Bench-Pro wurde vorgenommen, um Datenlecks bei der Evaluierung zu vermeiden.

Für die SFT-Phasen wurden Kontextlängen von 64K und 128K verwendet. Dieser kaskadierte Ansatz ermöglichte ein bipartites Training mit wertvollen kürzeren Daten, um eine robuste Leistungsbasis zu schaffen, gefolgt von einem gezielten Training mit langerem Kontext nur auf hochwertigen verifizierten Stichproben.

Das finale SFT-Modell erreichte eine Passrate von 80,2 % bei Pass@10 auf SWE-Bench Verified und 55,1 % bei Pass@10 auf Terminal-Bench v2.

Reinforcement Learning with Verifiable Rewards (RLVR)

Das RLVR-Training diente dazu, die agentische Programmierung weiter zu verbessern. Im Gegensatz zur reinen Optimierung quantitativer Metriken während des SFT wurde SFT als Vorbereitung für RLVR genutzt. Der Datenmix optimierte die Stichprobenvielfalt und Pass@K in nachgelagerten Phasen. Stichprobenbasierte Filterung wurde eingesetzt, um Pathologien wie ungültige Tool-Aufrufe oder fehlerhafte Leerzeichen-Generierung zu eliminieren.

Die RLVR-Phase verbesserte die Leistung des Modells im Vergleich zur SFT-Initialisierung um 7,9 % (absolut) Pass@1 in Terminal-Bench v2 und um 3,0 % (absolut) in SWE-Bench. Das gemeinsame Training über beide Umgebungen hinweg zeigte stärkere Ergebnisse als das separate Training und generalisierte besser auf Out-of-Distribution-Aufgaben. Neben der Korrektheit wurden auch signifikante Verbesserungen in der Agentenrobustheit beobachtet, mit kürzeren Trajektorien und weniger ungültigen oder fehlgeschlagenen Tool-Aufrufen.

Robuste Leistung über verschiedene Agenten-Harnesses

Die Robustheit des Modells über verschiedene Agenten-Harnesses hinweg wurde durch die Einführung zusätzlicher Benchmark-Harness-Daten während der zweiten SFT-Phase verbessert. Dies führte zu einem 10%igen Leistungszuwachs bei der Evaluierung mit dem OpenCode-Harness, während die Leistung mit SWE-Agent auf SWE-Bench Verified beibehalten wurde. Dies deutet darauf hin, dass die Übertragung zwischen verschiedenen Harnesses ohne Leistungseinbußen erreicht werden kann.

Es wurde festgestellt, dass eine ausreichende Variation in den verschiedenen Harnesses entscheidend ist, um das Modell dazu zu bringen, die Verbindung zwischen Anweisungen und Verhaltensweisen korrekt herzustellen, anstatt lediglich eine feste Vorlage ohne Verständnis zu reproduzieren.

Asynchrones RL für agentische Programmierung

Für das agentische Programmieren wurden lange und variable Rollouts eingesetzt. Ein asynchroner RL-Loop wurde implementiert, um die Abhängigkeit des Trainers von der Generierung von Trials zu entkoppeln. Ein Trainer läuft parallel zu einem vLLM-Sidecar, das kontinuierlich Rollouts bereitstellt. Die Policy-Gewichte werden alle paar Schritte in vLLM exportiert, sodass der Sampler jederzeit nur geringfügig von der Policy abweicht. Dieser Restfehler wird auf der Verlustebene korrigiert.

Um den Lernprozess von der Wartezeit auf die längsten Rollouts zu entlasten und gleichzeitig eine Fehlverteilung der Daten über die Aufgaben hinweg zu vermeiden, wurde eine "Windowed First-in-First-Out" (FIFO)-Warteschlange verwendet. Diese Methode ermöglichte es, die meisten Vorteile eines Completion-Order-Schemas zu nutzen, ohne die Trainingsstabilität wesentlich zu beeinträchtigen.

Das Training erfolgte mit CISPO, einem Log-Likelihood-Ziel mit token-level Importance-Sampling-Korrektur. CISPO unterscheidet sich von PPO und GRPO dadurch, dass das Importance-Gewicht ein Log-Likelihood und nicht ein Wahrscheinlichkeitsverhältnis multipliziert und RLOO mit stärkerer Regularisierung erweitert. Der Gradientensignal wird auf Token-Ebene aggregiert, sodass er mit der Trajektorienlänge skaliert.

Ein einziger Multi-Environment-RL-Trainingslauf wurde über zwei Aufgabenbereiche durchgeführt: Terminal-basierte Aufgaben und Software-Engineering-Aufgaben. Jede Trainingscharge bestand aus 512 Rollouts. Binäre Belohnungen wurden aus einem Unit-Test-basierten Verifizierer abgeleitet, und das Modell erhielt eine Belohnung von 0 für die Generierung ungültiger Tool-Aufrufe oder nicht parstbarer Ausgaben.

Interne menschliche Evaluierung

Zusätzlich zu den bestehenden Code-Benchmarks wurde eine interne Benchmark-Suite entwickelt, um die Modellleistung bei Out-of-Distribution-Problemen in paarweisen Evaluierungen mit menschlichen Annotatoren zu messen. Die Evaluierungen umfassten vier Funktionalitäten:

Code-Erklärung: Modelle wurden gebeten, technische Aspekte eines Code-Repositories zu erläutern.
Code-Bearbeitung: Modelle sollten eine Funktion basierend auf einer bestehenden Codebasis implementieren.
Datenvisualisierung: Modelle sollten Visualisierungen mit einem bestimmten Framework erstellen, basierend auf gegebenen Daten.
Implementierung von Grund auf: Modelle sollten ein Projekt von Grund auf erstellen, basierend auf Designspezifikationen und zu verwendenden Paketen.

Die Evaluatoren verwendeten rubrikbasierte Bewertungsfragen und bewerteten individuelle Versuche, bevor sie eine finale Präferenz zwischen den beiden Modelltrajektorien abgaben. Die Evaluierungen zeigten, dass RLVR insbesondere die Modellleistung bei Code-Bearbeitungsaufgaben verbesserte, was zu einer aggregierten Gewinnrate von 66,1 % für das finale Modell gegenüber seinem SFT-only-Pendant führte.

Verfügbarkeit

"North Mini Code" ist in OpenCode, der Cohere API und auf HuggingFace mit BF16- und FP8-Gewichten (quantisiert) verfügbar.

Bibliographie

- Cohere. (2026, 9. Juni). North Mini Code: Agentic Coding Model for Developers. Cohere Blog. - CohereLabs. (2026, 9. Juni). CohereLabs/North-Mini-Code-1.0. Hugging Face. - CohereLabs. (2026, 9. Juni). Introducing North Mini Code: Cohere's First Model For Developers. Hugging Face Blog. - AI Weekly. (2026, 9. Juni). Cohere Releases North Mini Code, Beats 120B Models. - Cryptobriefing.com. (2026, 9. Juni). Cohere releases North Mini Code, a 30B parameter open-source coding model built for enterprise developers. - Digg. (2026, 9. Juni). Cohere co-founder Nick Frosst releases North-Mini-Code-1.0, an open-source coding model with 3 billion active parameters. - LinkedIn. (2026, 9. Juni). North Mini Code: Cohere's small coding-focused MoE model. - LinkedIn. (2026, 9. Juni). North Mini Code: Agentic Coding Model for Developers | Cohere | Yannis Flet-Berliac. - LinkedIn. (2026, 9. Juni). Josh Netto-Rosen - Agentic Coding Model for Developers.