Hugging Face stellt ml-intern vor: Automatisierung des Post-Training-Workflows für große Sprachmodelle

Kategorien:

No items found.

Freigegeben:

May 1, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face hat "ml-intern" veröffentlicht, einen Open-Source-KI-Agenten, der den Post-Training-Workflow für große Sprachmodelle (LLMs) automatisiert.
Der Agent führt autonome Aufgaben wie Literaturrecherche, Datensatz-Entdeckung, Ausführung von Trainingsskripten und iterative Evaluierung durch.
"ml-intern" zeigte in Benchmarks eine signifikante Leistungssteigerung, beispielsweise eine Verbesserung von 10 % auf 32 % auf dem GPQA-Benchmark für wissenschaftliches Denken mit einem Qwen3-1.7B-Modell innerhalb von 10 Stunden.
Der Agent übertraf dabei die Leistung von Claude Code (22,99 %) in diesem spezifischen Szenario.
Die Architektur von "ml-intern" umfasst eine agentische Schleife mit bis zu 300 Iterationen, einen Kontextmanager, einen Tool-Router und einen "Doom Loop Detector".
Hugging Face unterstützt frühe Nutzer mit GPU-Ressourcen und Anthropic-Credits, um die Adoption des Tools zu fördern.

Hugging Face präsentiert "ml-intern": Ein KI-Agent, der den Post-Training-Workflow für LLMs automatisiert

Hugging Face hat kürzlich "ml-intern" vorgestellt, einen Open-Source-KI-Agenten, der darauf ausgelegt ist, den Post-Training-Workflow für große Sprachmodelle (LLMs) zu automatisieren. Dieses Tool zielt darauf ab, den Prozess der Forschung, Entwicklung und Bereitstellung von ML-Modellen zu optimieren, indem es Aufgaben übernimmt, die traditionell erhebliche manuelle Eingriffe erforderten.

Funktionsweise und Architektur von "ml-intern"

"ml-intern" ist als ein KI-Agent konzipiert, der autonom ML-bezogenen Code recherchiert, schreibt und implementiert. Er nutzt das Hugging Face-Ökosystem und hat Zugriff auf eine Vielzahl von Dokumentationen, wissenschaftlichen Arbeiten, Datensätzen und Cloud-Computing-Ressourcen. Die Funktionsweise ähnelt dem iterativen Ansatz eines menschlichen ML-Forschers.

Die Architektur des Agenten basiert auf einer sogenannten "agentischen Schleife", die bis zu 300 Iterationen umfassen kann. Innerhalb dieser Schleife interagiert der Agent mit verschiedenen Komponenten:

ContextManager: Verwaltet die Nachrichtenhistorie und führt eine automatische Komprimierung des Kontextes durch, um die Effizienz zu gewährleisten.
ToolRouter: Ermöglicht den Zugriff auf eine breite Palette von Ressourcen, darunter Hugging Face-Dokumentationen, Forschungsartikel, Repositories, Datensätze und Jobs. Darüber hinaus integriert er GitHub-Codesuche und Sandbox-Umgebungen für lokale Tools.
Doom Loop Detector: Eine wichtige Komponente, die wiederholte Muster in der Tool-Nutzung erkennt und korrigierende Prompts injiziert, um Endlosschleifen zu vermeiden.

Der Workflow des Agenten beginnt mit der Verarbeitung von Benutzereingaben, die dann dem ContextManager hinzugefügt werden. In der Iterationsschleife ruft der Agent Nachrichten und Tool-Spezifikationen ab, führt LLM-Aufrufe durch und analysiert die daraus resultierenden Tool-Aufrufe. Bei Bedarf erfolgt eine Genehmigungsprüfung für sensible Operationen, bevor die Tools über den ToolRouter ausgeführt und die Ergebnisse dem ContextManager hinzugefügt werden. Dieser Prozess wiederholt sich, solange Tool-Aufrufe vorhanden sind.

Leistungsfähigkeit und Anwendungsbereiche

In ersten Evaluierungen zeigte "ml-intern" vielversprechende Ergebnisse. Im Rahmen des PostTrainBench-Benchmarks, der die Fähigkeit eines Agenten testet, ein Basismodell innerhalb eines Zeitfensters von 10 Stunden auf einer einzelnen H100 GPU nachzutrainieren, erzielte "ml-intern" eine bemerkenswerte Leistungssteigerung. Ein Qwen3-1.7B-Basismodell, das ursprünglich eine GPQA-Punktzahl von etwa 10 % erreichte, konnte durch "ml-intern" in unter 10 Stunden auf 32 % verbessert werden. Diese Leistung übertraf die von Claude Code, das in derselben Aufgabe 22,99 % erreichte.

Die Anwendungsbereiche von "ml-intern" sind vielfältig und umfassen:

Autonome Literaturrecherche: Der Agent kann wissenschaftliche Arbeiten auf Plattformen wie arXiv durchsuchen, Methodikabschnitte lesen und Zitationsgraphen durchlaufen, um relevante Datensätze und Techniken zu identifizieren.
Datensatz-Management: Er ist in der Lage, Datensätze auf dem Hugging Face Hub zu finden, deren Qualität zu überprüfen und sie für das Training zu reformattieren.
Trainingsausführung: Bei fehlender lokaler Rechenleistung kann der Agent Trainingsjobs über Hugging Face Jobs starten.
Iterative Evaluierung und Fehlerdiagnose: Nach jedem Trainingslauf liest er Evaluierungsergebnisse, diagnostiziert Fehler (z.B. Reward Collapse in RLHF-Pipelines) und führt erneute Trainings durch, bis die Benchmark-Leistung verbessert ist.

Zudem demonstrierte "ml-intern" fortgeschrittene Trainingsstrategien, wie die Generierung synthetischer Daten für Randfälle und die Implementierung komplexer Techniken wie Group Relative Policy Optimization (GRPO) zur Optimierung mathematischer Leistungen.

Integration in das Hugging Face-Ökosystem und zukünftige Entwicklung

"ml-intern" ist auf dem smolagents-Framework von Hugging Face aufgebaut und integriert sich nahtlos in das Hugging Face-Ökosystem. Dies umfasst die Nutzung von Hugging Face Jobs für Rechenressourcen und Trackio für das Experiment-Tracking. Hugging Face bietet zudem $1.000 an GPU-Ressourcen und Anthropic-Credits für frühe Nutzer an, um die breite Anwendung und weitere Entwicklung des Tools zu fördern.

Das Projekt ist als Open-Source-Lösung verfügbar und kann über die Kommandozeile (CLI) oder als Web-App genutzt werden. Es unterstützt verschiedene Inferenzanbieter und Modelle, wobei die Standardkonfiguration auf Anthropic's Claude-Modelle verweist. Die Möglichkeit, eigene Tools und MCP-Server hinzuzufügen, unterstreicht die Flexibilität und Erweiterbarkeit des Systems.

Die Veröffentlichung von "ml-intern" durch Hugging Face stellt einen Schritt in Richtung einer stärker automatisierten und effizienteren Entwicklung von KI-Modellen dar. Die Fähigkeit des Agenten, den gesamten Forschungs- und Entwicklungszyklus autonom zu durchlaufen, könnte die Produktivität im ML-Bereich steigern und möglicherweise neue Wege für die Entwicklung von LLMs eröffnen.

Bibliographie

huggingface/ml-intern. (2025-10-30). Abgerufen von https://github.com/huggingface/ml-intern/
MarkTechPost. (2026-04-22). Hugging Face Releases ml-intern: An Open-Source AI Agent that Automates the LLM Post-Training Workflow. Abgerufen von https://www.marktechpost.com/2026/04/21/hugging-face-releases-ml-intern-an-open-source-ai-agent-that-automates-the-llm-post-training-workflow/
EdTech Innovation Hub. (2026-04-23). Hugging Face launches ML Intern, AI agent that beats Claude Code on reasoning. Abgerufen von https://www.edtechinnovationhub.com/news/hugging-face-releases-ml-intern-the-ai-agent-teaching-itself-to-beat-claude-code-on-scientific-reasoning
aalok-p/ml-intern. (2026-04-26). Abgerufen von https://github.com/aalok-p/ml-intern
Crownelius/Opus-4.5-3000x · Datasets at Hugging Face. Abgerufen von https://hf.co/datasets/Crownelius/Opus-4.5-3000x
datajuicer (Data-Juicer). Abgerufen von https://hf.co/datajuicer
ankuramlabs/ml-intern. (2026-04-25). Abgerufen von https://github.com/ankuramlabs/ml-intern
Akinendra/ml-intern. (2026-04-23). Abgerufen von https://github.com/Akinendra/ml-intern
kalharatennakoon/ml-intern. (2026-04-25). Abgerufen von https://github.com/kalharatennakoon/ml-intern
shahxadxultan/ml-intern. (2026-04-24). Abgerufen von https://github.com/shahxadxultan/ml-intern