Alibabas neues KI-Modell Qwen3.7-Plus: Fortschritte in der autonomen App-Entwicklung

Kategorien:

No items found.

Freigegeben:

June 7, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Alibaba hat mit Qwen3.7-Plus ein neues KI-Modell vorgestellt, das visuelles Verständnis mit Agentenfunktionen kombiniert.
Das Modell ist in der Lage, grafische Benutzeroberflächen und Anwendungen autonom zu bedienen.
In Tests zeigte Qwen3.7-Plus die Fähigkeit, Desktop-Anwendungen nachzubilden und eine vollständige App mit 10.000 Zeilen Code autonom zu programmieren.
Qwen3.7-Plus übertrifft Konkurrenten bei der Bedienung von Benutzeroberflächen, weist jedoch bei reinen Logik-Benchmarks Einschränkungen auf.
Das Modell ist als proprietäre und kostengünstige Option über die Alibaba Cloud verfügbar.

Alibabas Qwen3.7-Plus: Ein Schritt zur autonomen multimodalen KI

Alibabas Qwen-Team hat mit Qwen3.7-Plus ein multimodales Modell veröffentlicht, das auf dem textbasierten Qwen3.7 aufbaut. Es integriert visuelle Wahrnehmung mit klassischen Agentenfunktionen wie Kodierung und Werkzeugnutzung. Dieses Modell wird als "multimodaler interaktiver Hybrid-Agent" positioniert und ist darauf ausgelegt, reale Szenen zu erkennen, Bildschirminhalte zu lesen, grafische Schnittstellen zu bedienen, Code aus visuellen Vorlagen zu generieren und mobile Anwendungen end-to-end zu navigieren. Die Interaktion erfolgt dabei über GUI-Klicks und Befehlszeilenanweisungen innerhalb desselben Agenten-Loops.

Autonome App-Entwicklung in elf Stunden

Das Qwen-Team demonstrierte die Fähigkeiten von Qwen3.7-Plus, indem es ein hybrides Agentensystem eine englische Vokabel-Lern-App entwickeln ließ. Der Agent agierte über elf Stunden autonom und generierte dabei mehr als 10.000 Zeilen Code über 1.000 Agentenaufrufe hinweg. Dieser Prozess umfasste die Dokumentation der Anforderungen, die automatisierte Codegenerierung, Installation, Erstellung von Testfällen, GUI-basiertes Testen, parallele Testszenarien und unabhängiges Versionsmanagement.

Eine weitere Demonstration zeigte, wie der Agent native macOS-Aktien-Apps nachbildete. Dies geschah durch autonome Bedienung der App, Analyse der UI-Struktur und Generierung von SwiftUI-Code. Anschließend wurde eine externe API für Echtzeit-Aktienkurse angebunden, die App kompiliert und zehn Funktionstests eigenständig durchgeführt, darunter Preissuchen und Suchfilter.

Ein dritter Anwendungsfall betraf einen Browser-Agenten über die "Qwen for Chrome"-Sidebar-Erweiterung. Nach Benutzererlaubnis wechselte das Modell in den Agentenmodus und führte Aufgaben in einer Cloud-Konsole aus, beispielsweise den Kauf der günstigsten verfügbaren virtuellen Serverinstanz, einschließlich der Konfiguration von Image, Speicher und Sicherheitsgruppen. In einer Folgeaufgabe übernahm der Agent auch Skalierung und Wartung.

Stärken in GUI-Aufgaben, Herausforderungen bei komplexer Logik

Die veröffentlichten Benchmarks von Qwen zeigen, dass das Modell besonders gut in der Bedienung grafischer Benutzeroberflächen ist. Auf AndroidWorld und ScreenSpot Pro übertrifft Qwen3.7-Plus Modelle wie GPT-5.4 (xhigh), Opus 4.6 Max und Gemini 3.1 Pro deutlich. Es führt auch bei agentenorientierter Terminalarbeit und der Planung langfristiger Aufgaben.

Bei klassischen multimodalen Denkaufgaben sind die Ergebnisse gemischt. Qwen3.7-Plus erzielt gute Ergebnisse in einigen visuellen Denktests, bleibt jedoch bei anspruchsvolleren wissenschaftlichen Aufgaben wie MedXpertQA-MM hinter Gemini 3.1 Pro und GPT-5.4 zurück. Im Textbereich wird die Leistung als vergleichbar mit Max-Tier-Modellen beschrieben, ohne diese jedoch durchweg zu übertreffen.

Framework-übergreifende Kompatibilität und Kostenstruktur

Qwen3.7-Plus unterstützt das Anthropic API-Protokoll und ist direkt mit Claude Code, OpenClaw und Alibabas eigenem Qwen Code kompatibel. Die API bietet zudem eine Funktion namens preserve_thinking, die Denkprozesse aus früheren Konversationsrunden beibehält. Diese Einstellung wird vom Qwen-Team explizit für agentische Aufgaben empfohlen.

Neben der Bildverarbeitung deckt das Modell auch das Verständnis von Videos und die Analyse von Fahrszenen ab, was es als Grundlage für eingebettete Systeme und autonomes Fahren positioniert.

Qwen3.7-Plus ist über das Alibaba Cloud Model Studio verfügbar und, ähnlich seinem textbasierten Pendant Qwen3.7-Max, ein proprietäres Angebot ohne offene Gewichte. Alibaba positioniert die Plus-Version preislich deutlich unter der Max-Version: Qwen3.7-Plus kostet 0,40 US-Dollar pro Million Input-Tokens und 2,40 US-Dollar pro Million Output-Tokens, verglichen mit 2,50 US-Dollar und 7,50 US-Dollar für Qwen3.7-Max. Dies macht Plus etwa sechsmal günstiger bei den Input-Kosten und dreimal günstiger bei den Output-Kosten und liegt damit deutlich unter den Listenpreisen westlicher Frontier-Modelle.

Bibliografie

- The Decoder. (2026, 6. Juni). Qwen3.7-Plus is Alibaba's bid to turn multimodal AI into a full-blown autonomous agent. Abgerufen von https://the-decoder.com/qwen3-7-plus-is-alibabas-bid-to-turn-multimodal-ai-into-a-full-blown-autonomous-agent/ - Qwen Cloud. (n.d.). Qwen3.7-Plus. Abgerufen von https://www.qwencloud.com/models/qwen3.7-plus - VentureBeat. (2026, 2. Juni). Alibaba's Qwen3.7-Plus supports text, video and imagery inputs at low cost of $0.4/$1.6 per 1M token — but it's proprietary. Abgerufen von https://venturebeat.com/technology/alibabas-qwen3-7-plus-supports-text-video-and-imagery-inputs-at-low-cost-of-0-4-1-6-per-1m-token-but-its-proprietary/ - MarkTechPost. (2026, 2. Juni). Alibaba's Qwen Team Launches Qwen3.7-Plus, Adding Vision, Deep Reasoning, Tool Invocation, and Autonomous Iteration on the Bailian Platform. Abgerufen von https://www.marktechpost.com/2026/06/02/alibabas-qwen-team-launches-qwen3-7-plus-adding-vision-deep-reasoning-tool-invocation-and-autonomous-iteration-on-the-bailian-platform/ - Build with Abdallah. (n.d.). Alibaba Qwen3.7-Plus: The Multimodal Agent That Built a 10,000-Line App in 11 Hours. Abgerufen von https://buildwithabdallah.com/tutorials/alibaba-qwen3-7-plus-multimodal-agent-coding-ai - ai-blogs.org. (2026, 3. Juni). Alibaba's Qwen3.7-Plus brings vision and GUI control to a 60%-cheaper tier. Abgerufen von https://ai-blogs.org/news/2026-06-03-qwen-3-7-plus-gui-agent-pm.html - Mervin Praison. (2026, 5. Juni). Qwen3.7-Plus: Multimodal Agent API for GUI, CLI, and 1M-Token Vision Workflows. Abgerufen von https://mer.vin/2026/06/qwen3-7-plus-multimodal-agent-api-for-gui-cli-and-1m-token-vision-workflows/ - BuildFastWithAI. (2026, 2. Juni). Qwen3.7-Plus Review: Alibaba's GUI Agent, Tested. Abgerufen von https://www.buildfastwithai.com/blogs/qwen-3-7-plus-multimodal-agent-review-2026 - DEV Community. (2026, 3. Juni). Qwen3.7-Plus Is Out: How Developers Should Test It. Abgerufen von https://dev.to/kevin_wong/qwen37-plus-is-out-how-developers-should-test-it-55fh - Franklin AI Team. (2026, 3. Juni). Alibaba Launches Qwen3.7-Plus: Multimodal Agentic AI on Bailian. Abgerufen von https://franklineh.com/news/iGcNpqL2T1BvwojETEVq