Das Wichtigste in Kürze
- Anthropic hat Claude Opus 4.8 veröffentlicht, ein neues Sprachmodell, das in den meisten Benchmarks besser abschneidet als GPT-5.5 und seine Unsicherheiten transparenter kommuniziert.
- Das Modell führt dynamische Workflows ein, die die Planung von Aufgaben und das Starten paralleler Sub-Agenten ermöglichen.
- Eine neue "Aufwandssteuerung" erlaubt Nutzern, den Denkaufwand des KI-Modells anzupassen.
- Die API-Preise bleiben unverändert, während der "Fast Mode" günstiger wird.
- Claude Opus 4.8 könnte in der Praxis geringere Betriebskosten verursachen als sein Vorgänger Opus 4.7.
Anthropic präsentiert Claude Opus 4.8: Eine detaillierte Analyse der Leistungsverbesserungen und neuen Funktionen
Anthropic hat kürzlich Claude Opus 4.8 vorgestellt, die neueste Iteration seines Flaggschiff-KI-Modells. Die Einführung dieses Modells wird von Anthropic selbst als eine "bescheidene, aber spürbare Verbesserung" beschrieben. Diese neue Version verspricht nicht nur eine Steigerung der Leistungsfähigkeit, sondern auch innovative Funktionen, die insbesondere für Unternehmen und Entwickler von Relevanz sein könnten. Im Folgenden werden die wichtigsten Aspekte von Claude Opus 4.8 detailliert beleuchtet.
Leistungsbenchmarks und Vergleich mit Wettbewerbern
Laut internen Bewertungen von Anthropic übertrifft Claude Opus 4.8 sowohl seinen Vorgänger Opus 4.7 als auch Konkurrenzmodelle wie OpenAI's GPT-5.5 und Google's Gemini 3.1 Pro in den meisten getesteten Kategorien.
*
Agentisches Coding (SWE-Bench Pro): Claude Opus 4.8 erreicht hier eine Rate von 69,2 %, was eine Steigerung gegenüber Opus 4.7 (64,3 %) und GPT-5.5 (58,6 %) darstellt. Dies deutet auf eine verbesserte Fähigkeit hin, komplexe Programmieraufgaben autonom zu lösen.
*
Multidisziplinäres Denken (Humanity's Last Exam): Das Modell erzielt ohne Tools 49,8 % und mit Tools 57,9 %, was die höchsten Werte in diesem Bereich sind. Dies unterstreicht die Stärke des Modells in anspruchsvollen Denkprozessen über verschiedene Fachgebiete hinweg.
*
Wissensarbeit (GDPval-AA): Bei diesem Benchmark erreicht Opus 4.8 1890 Punkte, was 137 Punkte über Opus 4.7 und 121 Punkte über GPT-5.5 liegt. Dies lässt auf eine höhere Qualität der Ergebnisse bei wissensintensiven Aufgaben schließen.
Es ist jedoch anzumerken, dass GPT-5.5 in terminal- und CLI-basierten Coding-Workflows Berichten zufolge weiterhin vorne liegt. Für spezifische Anwendungsfälle, die stark auf solche Schnittstellen angewiesen sind, könnte dies ein relevanter Faktor bleiben.
Verbesserte "Ehrlichkeit" und Transparenz
Ein von Anthropic hervorgehobener Aspekt von Opus 4.8 ist die verbesserte "Ehrlichkeit" des Modells. Künstliche Intelligenzmodelle neigen dazu, voreilige Schlussfolgerungen zu ziehen und Fortschritte zu behaupten, die bei genauerer Betrachtung nicht haltbar sind. Opus 4.8 soll hier eine signifikante Verbesserung aufweisen.
*
Offenlegung von Unsicherheiten: Frühe Tester berichten, dass Opus 4.8 Unsicherheiten in seiner Arbeit proaktiver kennzeichnet und weniger dazu neigt, unbegründete Behauptungen aufzustellen.
*
Fehlererkennung im Code: In den Coding-Evaluierungen von Anthropic zeigt sich, dass das Modell Fehler im von ihm erstellten Code etwa viermal seltener unkommentiert lässt als Opus 4.7.
*
Prosoziale Eigenschaften: Das Modell erreicht neue Höchstwerte bei prosozialen Eigenschaften wie der Unterstützung der Nutzerautonomie und dem Handeln im besten Interesse des Nutzers. Das Verhalten bezüglich Täuschung oder missbräuchlicher Kooperation soll dem Niveau des "Claude Mythos Preview"-Modells entsprechen.
Diese "Ehrlichkeit"-Verbesserungen könnten das Vertrauen in die KI-generierten Outputs erhöhen und die Zusammenarbeit mit dem Modell effizienter gestalten, da Nutzer weniger Zeit für die Verifizierung von potenziell fehlerhaften oder überzogenen Aussagen aufwenden müssen.
Dynamische Workflows und Aufwandssteuerung
Neben den reinen Leistungsverbesserungen führt Anthropic zwei wesentliche neue Funktionen ein, die als mindestens ebenso bedeutsam wie das Modell-Update selbst erachtet werden:
*
Dynamische Workflows: Diese Funktion ermöglicht es dem Modell, eine Aufgabe zu planen und anschließend Hunderte von parallelen Sub-Agenten in einer einzigen Sitzung zu starten. Für Claude Code mit Opus 4.8 bedeutet dies, dass es in der Lage ist, codebase-weite Migrationen über Hunderttausende von Codezeilen hinweg von der Planung bis zur Zusammenführung zu bewältigen. Diese Funktion ist für Enterprise-, Team- und Max-Pläne verfügbar und zielt darauf ab, die Skalierbarkeit und Automatisierung komplexer Entwicklungsprojekte zu verbessern.
*
Aufwandssteuerung (Effort Control): Auf claude.ai und in Cowork können Nutzer nun über einen Regler den "Denkaufwand" steuern, den Claude für eine Antwort aufwendet. Eine höhere Einstellung führt zu tieferem Nachdenken und potenziell besseren Ergebnissen, während eine niedrigere Einstellung schnellere Antworten bei geringerem Verbrauch des Ratenlimits ermöglicht. Opus 4.8 verwendet standardmäßig die Einstellung "hoch". Für sehr anspruchsvolle Aufgaben empfiehlt Anthropic die Einstellungen "extra" (in Claude Code als "xhigh" bezeichnet) oder "max". Obwohl diese Modi mehr Token verbrauchen, sollen höhere Ratenlimits für Claude Code-Nutzer dies ausgleichen.
Diese Funktionen bieten den Nutzern eine größere Kontrolle über die Interaktion mit dem Modell und ermöglichen eine Anpassung an spezifische Anforderungen in Bezug auf Geschwindigkeit, Qualität und Komplexität der Aufgaben.
Preisgestaltung und Wirtschaftlichkeit
Die Preisgestaltung für die Standardnutzung von Claude Opus 4.8 bleibt unverändert gegenüber Opus 4.7: 5 US-Dollar pro Million Input-Token und 25 US-Dollar pro Million Output-Token. Eine bemerkenswerte Änderung gibt es jedoch beim "Fast Mode".
*
Günstigerer Fast Mode: Der Fast Mode, der Opus 4.8 mit 2,5-facher Geschwindigkeit betreibt, ist nun dreimal günstiger als bei früheren Modellen. Die Kosten belaufen sich auf 10 US-Dollar pro Million Input-Token und 50 US-Dollar pro Million Output-Token. Dies macht die Nutzung des leistungsstärksten Opus-Modells für latenzsensible, interaktive Workflows wirtschaftlicher.
*
Potenziell geringere Gesamtkosten: Obwohl Opus 4.7 auf dem Papier die gleichen Preise wie sein Vorgänger hatte, führte es in der Praxis oft zu höheren Kosten, da es mehr Token verbrauchte, ohne immer spürbare Leistungssteigerungen zu liefern. Laut Artificial Analysis könnte Opus 4.8 hier eine Trendwende einleiten. Das Modell benötigt auf dem GDPval-AA-Benchmark 15 % weniger Durchläufe pro Aufgabe und 35 % weniger Output-Token als Opus 4.7. Dies könnte in der realen Anwendung zu spürbar niedrigeren Betriebskosten führen. Allerdings verbraucht Opus 4.8 immer noch etwa 30 % mehr Durchläufe als GPT-5.5, das als zweitplatziertes Modell gilt.
Ausblick und zukünftige Entwicklungen
Anthropic plant, in den kommenden Wochen "Mythos-Klasse"-Modelle für alle Kunden freizugeben, sobald alle Sicherheitsvorkehrungen getroffen sind. Dies deutet auf weitere Fortschritte in der KI-Entwicklung hin und könnte die Landschaft der verfügbaren Modelle erneut verändern. Die kontinuierliche Weiterentwicklung und Verfeinerung der Modelle, gepaart mit einem Fokus auf praktische Anwendbarkeit und Kosteneffizienz, bleibt ein zentraler Aspekt im Wettbewerb der KI-Anbieter.
Zusammenfassend lässt sich festhalten, dass Claude Opus 4.8 eine Evolution im Bereich der KI-Modelle darstellt, die durch Leistungssteigerungen, verbesserte Transparenz und neue, nutzerorientierte Funktionen gekennzeichnet ist. Die Anpassungen in der Preisgestaltung und die potenziell höhere Effizienz könnten das Modell für eine breitere Palette von B2B-Anwendungen attraktiv machen.
***
Bibliographie
- Introducing Claude Opus 4.8 | Anthropic (2026, 28. Mai). Verfügbar unter: https://www.anthropic.com/news/claude-opus-4-8
- Anthropic Releases Claude Opus 4.8, Beats Opus 4.7, GPT-5.5 On Many Benchmarks (2026, 28. Mai). Verfügbar unter: https://officechai.com/ai/claude-opus-4-8-benchmarks/
- Claude Opus 4.8 | Anthropic (o. D.). Verfügbar unter: https://www.anthropic.com/claude/opus
- Claude Opus 4.8 Benchmarks Explained - Vellum (2026, 28. Mai). Verfügbar unter: https://www.vellum.ai/blog/claude-opus-4-8-benchmarks-explained
- Claude Opus 4.8 Is Out: What It Means for AI-Native Development Teams - DEV Community (2026, 28. Mai). Verfügbar unter: https://dev.to/tonyspiro/claude-opus-48-is-out-what-it-means-for-ai-native-development-teams-3j8h
- Claude Opus 4.8: What Changed, and How I'll Test It (o. D.). Verfügbar unter: https://karozieminski.substack.com/p/claude-opus-4-8
- Claude Opus 4.8 - Hacker News (2026, 28. Mai). Verfügbar unter: https://news.ycombinator.com/item?id=48311647
- Claude Opus 4.8 for Coding Agents - Verdent AI (2026, 29. Mai). Verfügbar unter: https://www.verdent.ai/zh-Hant/guides/claude-opus-4-8-coding-agents