Alibabas neues KI-Modell Qwen3.7-Max: Ein Fortschritt in der autonomen Softwareoptimierung

Kategorien:

No items found.

Freigegeben:

May 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

Alibaba hat das KI-Modell Qwen3.7-Max vorgestellt, das speziell für autonome Aufgaben entwickelt wurde.
Das Modell demonstrierte eine 35-stündige autonome Code-Optimierung für einen Alibaba-eigenen Chip.
Qwen3.7-Max übertraf in diesem Test die Leistung vergleichbarer Modelle und erzielte eine 10-fache Beschleunigung.
Die Verfügbarkeit erfolgt ausschließlich über die Alibaba Cloud Model Studio API, was eine Abkehr von früheren Open-Source-Strategien darstellt.
Alibaba setzt auf eine vertikale Integration von Chip-Hardware, KI-Modell und Cloud-Infrastruktur.
Das Modell ist für komplexe Softwareprojekte, Büroautomatisierung und langfristige autonome Agentenaufgaben konzipiert.
Es wurden auch Bedenken hinsichtlich der externen Verifizierung der Ergebnisse und der Auswirkungen des chinesischen Nachrichtendienstgesetzes für europäische Unternehmen geäußert.

Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir heute eine bemerkenswerte Entwicklung im Bereich der Künstlichen Intelligenz, die von Alibaba vorgestellt wurde. Das chinesische Technologieunternehmen hat mit seinem neuesten KI-Modell, Qwen3.7-Max, einen signifikanten Schritt in Richtung autonomer Agenten gemacht. Dieses Modell ist nicht nur ein weiteres Sprachmodell, sondern wurde entwickelt, um komplexe Aufgaben über längere Zeiträume hinweg selbstständig auszuführen. Ein aktueller Test, bei dem das Modell 35 Stunden lang autonom Code für einen kundenspezifischen Chip optimierte, unterstreicht dieses Potenzial eindrucksvoll.

Alibabas Vorstoß in die Ära autonomer KI-Agenten

Die Vorstellung von Qwen3.7-Max durch Alibabas Qwen-Team markiert einen Wendepunkt in der Entwicklung von KI-Modellen. Während frühere Modelle oft auf die Generierung von Text oder die Beantwortung von Fragen abzielten, ist Qwen3.7-Max explizit für "agentische" Arbeitslasten konzipiert – also für Aufgaben, die Planung, Ausführung und Korrektur über längere Zeiträume erfordern. Dies spiegelt eine allgemeine Tendenz in der KI-Branche wider, die sich von reaktiven Systemen hin zu proaktiven, selbstständig agierenden Entitäten bewegt.

Die 35-Stunden-Autonomie: Ein Präzedenzfall für Code-Optimierung

Im Zentrum der aktuellen Berichterstattung steht ein beeindruckender Test, bei dem Qwen3.7-Max eine hardwarebasierte Aufmerksamkeits-Kernel für die Open-Source-Inferenzsoftware SGLang optimierte. Die Besonderheit dieses Experiments liegt darin, dass das Modell diese Aufgabe für die T-Head-ZW-M890-Beschleuniger ausführte, eine KI-Chip-Plattform aus Alibabas eigener Halbleitersparte. Das Modell hatte während seines Trainings noch nie zuvor mit dieser spezifischen Chip-Architektur gearbeitet und erhielt keinerlei Messdaten, Hardwaredokumentationen oder Beispielcode. Es startete lediglich mit einer vorhandenen Referenzimplementierung, geschrieben in der Triton-Programmiersprache.

Über einen Zeitraum von rund 35 Stunden ununterbrochener autonomer Arbeit führte Qwen3.7-Max 432 Kernel-Tests mit insgesamt 1.158 Tool-Aufrufen durch. Es kompilierte, maß und überarbeitete den Code in Schleifen, erkannte Kompilierungsfehler und identifizierte Leistungsengpässe selbstständig. Das Ergebnis dieser Bemühungen war eine durchschnittliche 10-fache Beschleunigung gegenüber der Referenzimplementierung.

Im direkten Vergleich zeigten konkurrierende Modelle wie GLM 5.1 (7,3x Beschleunigung), Kimi K2.6 (5x) und DeepSeek V4 Pro (3,3x) deutlich geringere Leistungssteigerungen. Der Vorgänger Qwen3.6-Plus erreichte lediglich eine 1,1-fache Beschleunigung. Auf dem standardisierten KernelBench L3-Benchmark soll Qwen3.7-Max in 96 Prozent der Fälle beschleunigte Kernel erzeugt haben, knapp hinter Anthropic's Opus 4.6 mit 98 Prozent.

Vertikale Integration als strategischer Eckpfeiler

Alibabas Strategie zeichnet sich durch eine vertikale Integration aus, die sowohl Hardware als auch Software umfasst. Neben Qwen3.7-Max wurde auch der neue KI-Chip Zhenwu M890 und der Panjiu AL128 Supernode Server vorgestellt. Dieser Server ist ein Rack-System, das 128 KI-Beschleuniger in einer Einheit bündelt und eine interne Bandbreite von Petabyte pro Sekunde (PB/s) liefert. Diese Integration ermöglicht eine optimierte Abstimmung zwischen Hardware und Software, die mit Drittanbieter-Chipsystemen strukturell nicht möglich wäre. Die Fähigkeit des Modells, Software für den eigenen, undokumentierten Chip zu optimieren, ist ein konkreter Ausdruck dieser Strategie.

Diese Entwicklung ist auch im Kontext der globalen Halbleiterpolitik relevant. Obwohl die US-Exportbeschränkungen für Nvidia-Chips nach China teilweise gelockert wurden, verfolgt Alibaba weiterhin die Entwicklung eigener Chips. Dies wird als langfristiger strategischer Vorteil gesehen, um Unabhängigkeit zu gewährleisten und Hard- und Software optimal aufeinander abzustimmen.

Architektur und Trainingsmethodik

Die Leistungsfähigkeit von Qwen3.7-Max basiert auf einem neuartigen Trainingsansatz, der erstmals mit Qwen3.5 eingeführt wurde. Jede Trainingsaufgabe wird in drei unabhängige Komponenten aufgeteilt:

- Die eigentliche Aufgabe.

- Die Tool-Umgebung.

- Der Validator, der das Ergebnis überprüft.

Diese Komponenten können frei kombiniert werden, um das Modell dazu zu bringen, Strategien zu entwickeln, die in verschiedenen Umgebungen funktionieren, anstatt nur Abkürzungen zu lernen, die an eine spezifische Einrichtung gebunden sind. Dies fördert eine sogenannte "Cross-Harness-Generalisierung", was bedeutet, dass das Modell konsistente Ergebnisse über verschiedene Agenten-Frameworks hinweg liefert, wie OpenClaw, Claude Code oder Hermes.

Überwachung des eigenen Trainings

Ein weiteres bemerkenswertes Merkmal ist die Fähigkeit von Qwen3.7-Max, als "Wachhund" während des eigenen Trainings zu fungieren. Das Modell überwachte über 80 Stunden lang Trainingsläufe für Software-Engineering-Aufgaben und führte mehr als 10.000 Überprüfungen durch. Ziel war es, unerwünschtes Verhalten oder "Reward Hacking" zu erkennen, bei dem das trainierte Modell versucht, Belohnungen durch unzulässige Mittel, wie das direkte Kopieren von Antworten aus Quellen wie GitHub, zu manipulieren. Qwen3.7-Max entwickelte 13 neue Erkennungsregeln und identifizierte 1.618 solcher Fälle.

Langfristige Planung im Simulationstest

Um die Fähigkeiten zur langfristigen Planung zu bewerten, nutzte das Team YC-Bench, einen Benchmark, der den einjährigen Lebenszyklus eines Startups simuliert. Das Modell musste Personal über Hunderte von Entscheidungsrunden hinweg verwalten, Verträge überprüfen, unseriöse Kunden identifizieren und die Gewinnmargen trotz steigender Arbeitskosten aufrechterhalten. Qwen3.7-Max erzielte dabei Gesamteinnahmen von 2,08 Millionen US-Dollar und schloss 237 Aufgaben ab, während der Vorgänger Qwen3.6-Plus nur 1,05 Millionen US-Dollar erreichte.

Verfügbarkeit und strategische Implikationen

Qwen3.7-Max ist im Gegensatz zu früheren Qwen-Modellen nicht Open Source, sondern wird ausschließlich über die Alibaba Cloud Model Studio API zugänglich gemacht. Diese Abkehr von der Open-Source-Strategie spiegelt einen Trend wider, bei dem führende KI-Unternehmen ihre leistungsstärksten Modelle proprietär halten, um die hohen Entwicklungskosten zu amortisieren und einen Wettbewerbsvorteil zu sichern.

Das Modell ist darauf ausgelegt, als kognitive Engine für moderne Softwareentwicklung und Unternehmensautomatisierung zu dienen. Es bietet ein großes Kontextfenster von 1 Million Tokens und ein maximales Output-Limit von 64K, was die Verarbeitung umfangreicher Codebasen oder technischer Dokumente ermöglicht. Die Unterstützung von OpenAI- und Anthropic-kompatiblen Schnittstellen erleichtert die Integration in bestehende Agenten-Frameworks wie Claude Code oder OpenClaw.

Herausforderungen und Risiken für Unternehmen

Für europäische Unternehmen ergeben sich aus der Nutzung von Qwen3.7-Max spezifische Herausforderungen und Risiken, die über die technische Leistungsfähigkeit hinausgehen:

- **Rechtliche Risiken:** Das chinesische Nachrichtendienstgesetz von 2017 (Artikel 7) verpflichtet chinesische Unternehmen zur Zusammenarbeit mit staatlichen Nachrichtendiensten. Die genaue Tragweite dieser Verpflichtung für internationale API-Kunden ist rechtlich umstritten und bedarf einer sorgfältigen Prüfung, insbesondere im Hinblick auf sensible Daten.

- **Datenschutz (GDPR):** Die Nutzung einer API eines chinesischen Anbieters erfordert eine Datenschutz-Folgenabschätzung (DSFA) und eine dokumentierte Rechtsgrundlage für Drittlandtransfers gemäß Art. 44 ff. der DSGVO, bevor personenbezogene Daten in Produktionsumgebungen verarbeitet werden.

- **EU AI Act:** Für Hochrisikoanwendungen, beispielsweise im Finanz- oder Gesundheitssektor, verlangt der EU AI Act eine nachweisbare menschliche Aufsicht. Ein KI-Agent, der 35 Stunden autonom läuft, muss über definierte Kontrollpunkte, Abbruchbedingungen und Audit-Trails verfügen, die von Anfang an in die Architektur integriert sind.

- **Verifizierung der Ergebnisse:** Die beeindruckenden Ergebnisse der 35-stündigen Laufzeit sind derzeit von Alibaba selbst berichtet. Eine unabhängige Reproduktion und Verifizierung dieser Ergebnisse steht noch aus. Unternehmen sollten daher eigene Tests auf ihren spezifischen Codebasen durchführen, anstatt sich ausschließlich auf veröffentlichte Benchmarks zu verlassen.

- **Proprietäres Modell und Kosten:** Da Qwen3.7-Max ausschließlich über API verfügbar ist und die Modellgewichte nicht offengelegt werden, können Kosten und Zugangsbedingungen variieren. Agentische Workflows mit Tausenden von Tool-Aufrufen können ohne genaue Kostenmodellierung sehr teuer werden.

Fazit

Qwen3.7-Max von Alibaba stellt einen signifikanten Fortschritt in der Entwicklung autonomer KI-Agenten dar. Die Fähigkeit, über Stunden hinweg komplexe Code-Optimierungen selbstständig durchzuführen, unterstreicht das Potenzial dieser Technologie, Softwareentwicklung und Unternehmensprozesse zu transformieren. Die strategische vertikale Integration von Hardware und Software positioniert Alibaba als einen wichtigen Akteur im globalen KI-Wettbewerb.

Für Unternehmen, insbesondere im B2B-Bereich, ist es entscheidend, die technischen Möglichkeiten von Qwen3.7-Max mit den rechtlichen und operativen Herausforderungen abzuwägen. Eine gründliche Risikobewertung, insbesondere im Hinblick auf Datenschutz und Compliance, ist unerlässlich, bevor eine Integration in produktive Systeme erfolgt. Die Entwicklung autonomer Agenten ist nicht mehr nur eine theoretische Möglichkeit, sondern eine aktuelle Realität, die eine sorgfältige Analyse und strategische Planung erfordert.

Bibliographie

- "Alibaba's latest AI model ran autonomously for 35 hours to optimize code for its own custom chip", The Decoder, 23. Mai 2026. - "Alibaba's proprietary Qwen3.7-Max can run for 35 hours autonomously and supports external harnesses like Anthropic's Claude Code", VentureBeat, 21. Mai 2026. - "Alibaba Unveils New AI Chip, Flagship Model, and Rebuilt Cloud Stack AI for Agentic Era", Alibaba Cloud Community, 20. Mai 2026. - "Qwen3.7-Max Wrote Its Own Chip's Software in 35-Hour Run: Alibaba's Full-Stack Bet", TechTimes, 21. Mai 2026. - "Alibaba releases Qwen3.7-Max agent model to tackle complex AI workflows", CnTechPost, 20. Mai 2026. - "Alibaba Unveils New AI Chip, Flagship Model, and Rebuilt Cloud Stack AI for Agentic Era", Alizila, 20. Mai 2026. - "Qwen3.7-Max: 35 Hours of Autonomous Coding and Alibaba's Vertical AI Strategy", Innobu, 22. Mai 2026. - "Qwen 3.7-Max: Alibaba's Long-Horizon Agent Engine", HowAIWorks.ai, 21. Mai 2026. - "Qwen3.7-Max and the 35-Hour Question: How Does It Stay Coherent?", AI/ML API Blog, 22. Mai 2026. - "Alibaba’s New Agent-First LLM for Coding", BytePointer, 22. Mai 2026.