Hugging Face präsentiert ml-intern einen neuen Open-Source KI-Agenten zur Automatisierung der ML-Modellentwicklung

Kategorien:

No items found.

Freigegeben:

May 1, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face hat "ml-intern" veröffentlicht, einen Open-Source-KI-Agenten, der die Entwicklung von Machine Learning (ML)-Modellen automatisiert.
"ml-intern" kann eigenständig Forschungsarbeiten durchführen, Datensätze erstellen und ML-Modelle trainieren und implementieren.
Der Agent zeichnet sich durch seine Fähigkeit aus, den gesamten Post-Training-Workflow für große Sprachmodelle (LLMs) zu automatisieren.
Er übertrifft in bestimmten Benchmarks wie GPQA andere Modelle wie Claude Code und OpenAI Codex in wissenschaftlichem Denken und medizinischer Evaluation.
"ml-intern" integriert sich nahtlos in das Hugging Face Ökosystem und nutzt dessen Ressourcen für Rechenleistung und Experiment-Tracking.
Das Projekt bietet Entwicklern und Forschenden die Möglichkeit, komplexe ML-Aufgaben effizienter zu gestalten und die Daten-Effizienz zu erhöhen.

Die Landschaft der Künstlichen Intelligenz (KI) wird kontinuierlich durch neue Entwicklungen und Werkzeuge geformt. Eine aktuelle Veröffentlichung von Hugging Face, bekannt für seine umfassende Plattform für Machine Learning, hat in der Fachwelt Aufmerksamkeit erregt: der Open-Source-KI-Agent namens "ml-intern". Dieses Tool zielt darauf ab, den gesamten Workflow der ML-Modellentwicklung zu automatisieren, von der Forschung über das Training bis zur Implementierung.

Die Funktionsweise von "ml-intern"

"ml-intern" wird als ein autonomer ML-Ingenieur beschrieben, der in der Lage ist, Fachartikel zu lesen, Modelle zu trainieren und ML-Modelle zu versenden. Es integriert sich tief in das Hugging Face Ökosystem, wodurch es Zugriff auf Dokumentationen, Forschungsarbeiten, Datensätze und Cloud-Computing-Ressourcen erhält. Die Funktionalität des Agenten umfasst mehrere Kernbereiche:

Automatisierte Forschung: Der Agent kann wissenschaftliche Artikel auf Plattformen wie arXiv durchsuchen, Zitiergraphen analysieren und relevante Datensätze sowie Techniken identifizieren.
Datensatzgenerierung und -aufbereitung: "ml-intern" ist in der Lage, Datensätze zu finden, deren Qualität zu überprüfen und sie für das Training zu reformieren. Bei Bedarf kann der Agent auch synthetische Daten generieren, um spezifische Anwendungsfälle abzudecken oder Datenmängel auszugleichen.
Modelltraining und -evaluation: Der Agent kann Trainingsskripte ausführen, Modelle trainieren und die Ergebnisse iterativ evaluieren. Dabei ist er in der Lage, Fehler zu diagnostizieren und das Training bei Bedarf anzupassen, bis die gewünschte Leistung erreicht ist.
Implementierung: Nach erfolgreichem Training kann "ml-intern" die entwickelten Modelle in die Produktion überführen.

Die Architektur von "ml-intern" basiert auf einer "Agentic Loop", die bis zu 300 Iterationen pro Aufgabe durchführen kann. Ein integrierter ContextManager verwaltet die Nachrichtenhistorie und führt eine automatische Komprimierung durch. Ein ToolRouter ermöglicht den Zugriff auf verschiedene Ressourcen wie Hugging Face Dokumente, Repositories, Datensätze und GitHub-Code-Suchen. Zudem verfügt der Agent über einen "Doom Loop Detector", der wiederholte Tool-Muster erkennt und korrigierende Prompts injiziert.

Benchmark-Ergebnisse und Leistungsvergleich

Die Leistungsfähigkeit von "ml-intern" wurde in verschiedenen Benchmarks evaluiert. Ein signifikanter Vergleich erfolgte mit dem PostTrainBench, einem Benchmark, der die Fähigkeit eines Agenten testet, ein Basismodell innerhalb eines Zeitfensters von zehn Stunden auf einer einzelnen H100 GPU nachzutrainieren.

Im Rahmen einer offiziellen Demonstration konnte "ml-intern" das Qwen3-1.7B-Basismodell, das initial eine GPQA-Punktzahl von etwa 10 % erreichte, in weniger als zehn Stunden auf 32 % verbessern. Dies verdeutlicht eine bemerkenswerte "Daten-Effizienz", die manuelle Forschende in so kurzer Zeit oft nur schwer replizieren können. Interessanterweise übertraf der Agent in dieser spezifischen Aufgabe auch Claude Code, das bei 22,99 % lag.

In einem weiteren Test im Gesundheitsbereich konnte "ml-intern" durch die Generierung von 1.100 synthetischen Datenpunkten, die Notfall-, Kunden- und mehrsprachige Kommunikationsszenarien abdeckten, OpenAI Codex auf dem HealthBench um 60 % übertreffen.

Diese Ergebnisse deuten darauf hin, dass "ml-intern" in der Lage ist, komplexe Probleme im Bereich des wissenschaftlichen Denkens und der medizinischen Evaluation effektiv zu lösen. Die Fähigkeit zur autonomen Generierung hochwertiger synthetischer Daten für Randfälle und die Implementierung komplexer Techniken wie Group Relative Policy Optimization (GRPO) zur Optimierung der mathematischen Leistung unterstreichen die fortschrittlichen Trainingsstrategien des Agenten.

Technische Ansätze und Integration

Zwei technische Strategien, die "ml-intern" in veröffentlichten Demos demonstrierte, sind besonders hervorzuheben:

Generierung synthetischer Daten: In einem Test im Gesundheitsbereich beurteilte der Agent vorhandene medizinische Datensätze, stellte fest, dass deren Qualität für ein zuverlässiges Fine-Tuning unzureichend war, und schrieb ein Skript zur Generierung synthetischer Trainingsbeispiele, die sich auf Randfälle wie medizinische Hecke-Sprache und mehrsprachige Notfallreaktionsszenarien konzentrierten.
Autonome RLHF mittels GRPO: In einem mathematischen Test implementierte der Agent ein GRPO-Trainingsskript, eine Technik, die Reinforcement Learning from Human Feedback (RLHF) mit geringerem Speicherbedarf als Standard-PPO durchführt.

"ml-intern" ist auf dem smolagents-Framework aufgebaut und integriert sich nativ mit Hugging Face Jobs für die Rechenleistung. Für das Experiment-Tracking wird Trackio verwendet, eine Hub-native Lösung, die als Open-Source-Alternative zu Tools wie Weights & Biases positioniert ist.

Zugänglichkeit und Entwicklung

Der "ml-intern" ist sowohl über eine Kommandozeilenschnittstelle (CLI) als auch über eine mobile und Desktop-Webanwendung zugänglich. Hugging Face hat zudem Anreize für frühe Nutzer geschaffen, indem GPU-Ressourcen und Anthropic-Guthaben zur Verfügung gestellt wurden.

Die Möglichkeit, den Agenten im interaktiven oder Headless-Modus zu verwenden, bietet Flexibilität für verschiedene Anwendungsfälle. Entwickler können eigene Tools hinzufügen oder MCP-Server integrieren, um die Funktionalität des Agenten zu erweitern.

Die Veröffentlichung von "ml-intern" stellt einen Schritt in Richtung einer stärker automatisierten und effizienteren ML-Entwicklung dar. Die Fähigkeit des Agenten, komplexe Aufgaben autonom zu bewältigen und dabei in verschiedenen Benchmarks überzeugende Ergebnisse zu liefern, könnte die Arbeitsweise von ML-Forschenden und -Ingenieuren maßgeblich beeinflussen.

Bedeutung für B2B-Kunden

Für Unternehmen im B2B-Bereich, insbesondere solche, die auf die Entwicklung und den Einsatz von KI-Modellen angewiesen sind, bietet "ml-intern" mehrere potenzielle Vorteile:

Effizienzsteigerung: Die Automatisierung von Forschungs-, Datenaufbereitungs- und Trainingsprozessen kann die Entwicklungszeit erheblich verkürzen und Ressourcen sparen.
Qualitätsverbesserung: Durch die iterative Evaluation und die Fähigkeit, synthetische Daten zu generieren, kann die Qualität der trainierten Modelle verbessert werden, insbesondere in Bereichen, in denen reale Daten knapp oder unzureichend sind.
Innovation: Die Möglichkeit, komplexe ML-Techniken und -Strategien autonom zu implementieren, eröffnet neue Wege für Innovationen und die Entwicklung spezialisierter KI-Lösungen.
Skalierbarkeit: Die Integration in das Hugging Face Ökosystem ermöglicht eine skalierbare Nutzung von Rechenressourcen und eine effiziente Verwaltung von ML-Workflows.

Die "ml-intern"-Lösung von Hugging Face signalisiert eine Entwicklung, in der KI-Agenten zunehmend in der Lage sind, komplexe Aspekte der KI-Entwicklung selbstständig zu übernehmen. Dies könnte die Art und Weise, wie Unternehmen KI-Projekte angehen, grundlegend verändern und die Tür für eine breitere Anwendung von fortschrittlicher KI-Technologie öffnen.

Bibliographie

- huggingface/ml-intern. (2025). Abgerufen von https://github.com/huggingface/ml-intern/ - Hugging Face Releases ml-intern: An Open-Source AI Agent that Automates the LLM Post-Training Workflow. (2026). Abgerufen von https://www.marktechpost.com/2026/04/21/hugging-face-releases-ml-intern-an-open-source-ai-agent-that-automates-the-llm-post-training-workflow/ - Hugging Face launches ML Intern, AI agent that beats Claude Code on reasoning. (2026). Abgerufen von https://www.edtechinnovationhub.com/news/hugging-face-releases-ml-intern-the-ai-agent-teaching-itself-to-beat-claude-code-on-scientific-reasoning - aalok-p/ml-intern. (2026). Abgerufen von https://github.com/aalok-p/ml-intern - Malmahrouqi3/ml-intern. (2026). Abgerufen von https://github.com/Malmahrouqi3/ml-intern - Synthetic Data Flywheel: A Closed-Loop Pipeline for Instruction-Tuning Data. (2026). Abgerufen von https://dev.to/nilofer_tweets/synthetic-data-flywheel-a-closed-loop-pipeline-for-instruction-tuning-data-c85 - GitHub - AryamanPandit/ml-intern: 🤗 ml-intern: an open-source ML engineer that reads papers, trains models, and ships ML models. (2026). Abgerufen von https://github.com/AryamanPandit/ml-intern - Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning. (2025). Abgerufen von https://aclanthology.org/2025.findings-acl.256 - rscald/ml-intern. (2026). Abgerufen von https://github.com/rscald/ml-intern - GitHub - rbh0524/ml-intern: 🤗 ml-intern: an open-source ML engineer that reads papers, trains models, and ships ML models. (2026). Abgerufen von https://github.com/rbh0524/ml-intern