Claude Opus 4.8: Ehrlicher beim Code, hundert Agents parallel

Claude Opus 4.8 ist da: viermal seltener übersehene Code-Fehler, hunderte parallele Subagents in Claude Code, Effort-Regler im Produkt. Was sich in der Praxis ändert.

28. Mai 20268 min LesezeitKI

Claude Opus 4.8: Ehrlicher beim Code, hundert Agents parallel

Artikel anhören0:00

Was Anthropic mit Opus 4.8 vorlegt

Anthropic hat Claude Opus 4.8 am 28. Mai 2026 veröffentlicht, sechs Wochen nach dem 4.7-Release, das vor allem ein Coding-Sprung mit versteckter Tokenizer-Preiserhöhung war. Das neue Release nennt Anthropic selbst „a modest but tangible improvement", also kein Quantensprung, sondern ein Punkt-Update mit zwei klaren Schwerpunkten. Erstens: Das Modell soll seltener eigene Fehler unter den Tisch fallen lassen, also „ehrlicher" werden. Zweitens: Es soll längere agentische Läufe durchhalten, ohne den Faden zu verlieren. Begleitet wird das Release von „Dynamic Workflows" in Claude Code, einer Research-Preview, die hunderte Subagents parallel ansteuert. Das offizielle Release-Announcement steht bei Anthropic.

Wir haben uns angeschaut, was davon Marketing und was Substanz ist, mit der Frage, was solche Releases im Maschinenraum tatsächlich ändern und was nicht. Spannend an 4.8 ist weniger die Höhe der Benchmark-Sprünge als die Schwerpunkte: Selbstkontrolle und Ausdauer. Das sind genau die Achsen, an denen agentische Setups bisher reihenweise gescheitert sind.

Vorweg eine Einordnung, die durchläuft: An der Rollenverteilung ändert sich nichts. Opus 4.8 ist ein präziseres Werkzeug, kein autonomer Kollege. Architektur, Codereview und Verantwortung für das, was am Ende im Produktivsystem landet, bleiben beim Menschen. Was sich verschiebt, ist die Geschwindigkeit, in der ein Modell zu einem brauchbaren ersten Entwurf kommt, und in agentischen Setups die Strecke, die man dem Modell überlässt, ohne nervös zu werden.

Ehrlicher beim eigenen Code

Den interessantesten Befund hat Anthropic „Honesty" überschrieben: 4.8 ist nach eigenen Auswertungen „rund viermal seltener" als der Vorgänger bereit, Fehler im selbst geschriebenen Code unkommentiert durchzulassen. Das klingt nach Statistik-Detail, ist im agentischen Kontext aber der zentrale Hebel. Wer Claude ein Ticket abarbeiten lässt, will, dass das Modell den eigenen Code prüft, bevor es ihn als „erledigt" zurückgibt. Genau diese Stelle war bisher die häufigste, an der Agenten stillschweigend versagt haben. Code lief durch, Tests waren grün, die kaputte Annahme blieb im Diff.

Anthropic zitiert dazu Tom Pritchard von Shopify mit einer Beobachtung, die das beschriebene Verhalten greifbar macht: 4.8 stelle „die richtigen Fragen, fange eigene Fehler ab und pushe zurück, wenn ein Plan nicht stimmig ist". Übersetzt heißt das: Das Modell ruft öfter zurück, statt den Task als done zu deklarieren und auf das nächste Ticket zu hüpfen. Klingt nach Kleinigkeit, ändert in autonomen Sessions aber sofort, wieviel Strecke man einem Modell zutraut.

Daran hängt auch die zweite große Erzählung des Releases: Anthropic verspricht, dass Claude Code mit 4.8 „codebase-skalierte Migrationen über hunderttausende Codezeilen" von Kickoff bis Merge durchführen kann, mit der vorhandenen Testsuite als Maßstab. Im Demo-Video läuft eine Pages-Router-zu-App-Router-Migration über elf Stunden ohne Unterbrechung durch. Solche Versprechen sind im Newsroom leicht gesagt; ob sie in echten Repos halten, klärt sich erst in den nächsten Wochen. Aber dass Anthropic die Latte so hoch hängt, ist eine Aussage über die eigene Selbstkontroll-Verbesserung, ohne die wäre das Versprechen sofort eingefangen.

Am Rand erwähnenswert: Auf Anthropics interner „Misaligned behavior"-Messung liegt 4.8 deutlich unter 4.7 und auf demselben Niveau wie das hauseigene Best-Aligned-Modell Claude Mythos Preview. Für den Alltag eines Webentwicklers ist das selten relevant; für Setups in regulierten Branchen ist es ein Punkt, der in der Modell-Auswahl Gewicht bekommt.

Was die Benchmarks zeigen

Die Benchmark-Tabelle, die Anthropic veröffentlicht, ist diesmal interessanter wegen ihrer Schwankungen als wegen ihrer Höhen. Auf SWE-Bench Pro, dem agentischen Coding-Benchmark, kommt 4.8 auf 69,2 Prozent, plus 4,9 Punkte gegenüber 4.7 (64,3) und deutlich vor GPT-5.5 (58,6) und Gemini 3.1 Pro (54,2). Auf OSWorld-Verified, das Agenten in echten Desktop-Umgebungen prüft, kommt 4.8 auf 83,4 Prozent (4.7: 82,8): Marginalsprung, aber weiter Spitze. Auf Humanity's Last Exam mit Tools liegt 4.8 bei 57,9 Prozent (4.7: 54,7) und führt das Feld klar an. Auf GDPval-AA, einem Benchmark für praktische Wissensarbeit, kommt 4.8 auf 1890 Punkte gegenüber 1753 beim Vorgänger.

Balkendiagramm: Opus 4.8 vor Opus 4.7, GPT-5.5 und Gemini 3.1 Pro auf SWE-Bench Pro (69,2 zu 64,3 zu 58,6 zu 54,2 Prozent), OSWorld-Verified (83,4 zu 82,8 zu 78,7 zu 76,2 Prozent) und Humanity's Last Exam mit Tools (57,9 zu 54,7 zu 52,2 zu 51,4 Prozent). — Opus 4.7, Opus 4.8, GPT-5.5 und Gemini 3.1 Pro auf drei Benchmarks aus dem Opus-4.8-Announcement. Daten: Anthropic (28. Mai 2026). Visualisierung: Pixzl.

Was uns als Agentur an der Tabelle gefällt: Anthropic listet auch die Benchmarks, bei denen sie nicht erstplatziert sind. Auf Terminal-Bench 2.1 führt GPT-5.5 mit 78,2 Prozent (gemessen über den Codex CLI), 4.8 liegt bei 74,6. Auf Finance Agent v2 vermerkt die Fußnote, dass Gemini 3.5 Flash mit 57,9 Prozent über Opus 4.8 (53,9) liegt. Solche Eingeständnisse sind in Modell-Announcements selten und sprechen für Vertrauen ins eigene Gesamtbild, das genau jenes ist, das Anthropic als „modest but tangible" beschreibt.

Spannender als die offizielle Tabelle ist ein Anthropic-internes „Super-Agent"-Benchmark. Kay Zhu, CTO eines Early-Tester-Unternehmens, beschreibt 4.8 dort als das einzige Modell, das „jeden Fall end-to-end abschließt und prior Opus-Modelle sowie GPT-5.5 bei vergleichbaren Kosten schlägt". Eine vollständige Beschreibung des Benchmarks veröffentlicht Anthropic nicht. Für Teams, die agentische Workflows mit echten Geschäftslogik-Schritten bauen, ist die Aussage trotzdem das relevanteste Stück Information im ganzen Release.

Dynamic Workflows in Claude Code

Das praxisrelevanteste neue Feature steckt nicht im Modell, sondern in der Umgebung. Claude Code bekommt eine Research-Preview namens „Dynamic Workflows": Aus einem laufenden Auftrag heraus stellt Claude einen Plan auf, wirft hunderte Subagents parallel an, jeweils mit eigenem Kontext, und verifiziert die Teil-Outputs, bevor das Gesamtergebnis zurückgeht. Das öffnet eine Klasse von Aufgaben, die vorher schlicht zu langsam war.

Drei typische Szenarien, in denen das sofort Sinn ergibt: einen Monorepo nach derselben Sicherheitslücke in fünfzig Modulen parallel durchsuchen lassen, statt sequenziell von Datei zu Datei zu wandern. Eine technische Recherche mit zwanzig externen Quellen, von denen jede einzeln gelesen, geprüft und zusammengefasst wird, bevor ein Synthese-Agent das Ergebnis konsolidiert. Und, das ist die Klasse, die Anthropic selbst betont, Migrationen über mehrere zehntausend Codezeilen, in denen jede einzelne Aufruf-Stelle in einem eigenen Worktree umgebaut und am Ende zu einem sauberen Diff zusammengeführt wird.

Wichtig zu wissen: Dynamic Workflows ist in der Preview-Phase nur in den Plänen Claude Code for Enterprise, Team und Max verfügbar. Wer auf dem normalen Pro-Tarif hängt, sieht das Feature noch nicht. Und: Hunderte parallele Subagents heißen auch hunderte parallele Token-Verbräuche. Anthropic hat dafür den Effort-Regler ins Produkt geholt (dazu gleich mehr), aber wer ohne Augenmaß auf „max" geht, sieht in einer einzigen Aktion schnell vierstellige Beträge. Es ist ein Knopf, vor dem man kurz nachdenkt, bevor man ihn auf Anschlag dreht.

Effort-Steuerung in claude.ai und Claude Code

Mit Opus 4.8 zieht der Effort-Regler aus der API ins Produkt: Direkt neben dem Modell-Selector in claude.ai und in Claude Cowork lässt sich pro Antwort wählen, wie viel Aufwand Claude in den Task stecken soll. Default ist „high", nach Anthropics Angabe ähnlich teuer wie der 4.7-Default, aber mit besserer Performance. Wer Tiefe braucht, schaltet auf „extra" (im Claude-Code-Slang xhigh) oder „max"; wer Geschwindigkeit will, bleibt auf dem Default oder einer niedrigeren Stufe. Anthropic hat parallel die Rate Limits in Claude Code angehoben, damit die höheren Stufen praktikabel bleiben. Der Regler ist auf allen Plänen verfügbar, nicht nur in den Enterprise-Tarifen.

Das ist die wirklich praktische Neuerung. Im Alltag spürt man sie deutlich häufiger als die Benchmark-Sprünge. Wer bisher zwischen „schnellem Brainstorm" und „gründlichem Implementations-Lauf" entweder das Modell gewechselt oder mit Prompt-Tricks experimentiert hat, hat jetzt einen sichtbaren Regler dafür. Erste vorsichtige Empfehlung: „extra" ist die naheliegende Stufe für längere Coding-Sessions, „max" lohnt sich nur bei Aufgaben, in denen die Antwort wirklich gegen Echtkosten gerechnet werden kann.

Was sich an der API ändert

Der Punkt, der für Developer wichtiger ist: Die Messages API akzeptiert ab sofort System-Entries innerhalb des messages-Arrays, nicht mehr nur am Anfang. Praktisch heißt das: Während ein Agent läuft, lassen sich Tool-Permissions, Token-Budgets oder Kontext-Snippets nachschieben, ohne dass der Prompt Cache invalidiert oder ein neuer User-Turn vorgespielt werden muss. Wer Agenten-Frameworks ernst betreibt, sollte seine Bibliotheken durchgehen und prüfen, an welchen Stellen jetzt geringere Kosten anfallen.

Der Effort-Regler ist genauso per API steuerbar, was vor allem für Anwendungen interessant ist, in denen schnelle Antworten und gründliche Antworten in derselben Pipeline laufen und unterschiedlich abgerechnet werden sollen.

Preis und Verfügbarkeit

Die Listenpreise bleiben gegenüber 4.7 unverändert: fünf Dollar pro Million Input-Token, fünfundzwanzig Dollar pro Million Output-Token. Im Fast Mode zehn beziehungsweise fünfzig Dollar, und der Fast Mode läuft mit 4.8 jetzt bei 2,5-facher Geschwindigkeit gegenüber dem Standard-Tempo und ist gleichzeitig dreimal günstiger als der Fast Mode vorheriger Modelle. Wer Claude bisher wegen Latenz-Sorgen nur im Standard-Modus eingesetzt hat, sollte den Fast Mode mit 4.8 frisch evaluieren. Die Rechnung kann sich gedreht haben.

Verfügbar ist claude-opus-4-8 laut Anthropic „everywhere today": in der Claude-API, in claude.ai und in Claude Code. Die Hyperscaler-Kanäle, Google Cloud Vertex AI, Amazon Bedrock, Microsoft Foundry, sind im offiziellen Produkt-Footer als Verteilungswege gelistet. Wer eigene Agenten-Stacks fährt, kann den Modell-String entsprechend setzen.

Was das für Projekte heißt

Aus unserer Sicht ist 4.8 ein Release, das vor allem in agentischen Setups einen großen Unterschied macht. Wer Claude in einem Tool stecken hat, das mehr ist als ein Chat, ein Recherche-Agent, ein autonomer Refactorer, ein langer Coding-Lauf, profitiert sofort. Bessere Selbstkontrolle, längere konsistente Sessions, Dynamic Workflows in Claude Code, sauberes Caching in der API. Das amortisiert den Aufwand des Umstiegs in den meisten Fällen innerhalb weniger Wochen.

Wer Claude rein interaktiv im Editor oder im Browser nutzt, sieht den Unterschied subtiler. Die Antworten sind ein Stück präziser, die Reviews ein Stück ehrlicher. Es lohnt sich, das Update mitzunehmen, aber es ist kein Pflichttermin wie 4.7 mit seinem deutlichen Coding-Sprung war. Anthropic selbst spricht von „modest but tangible", erfrischend nüchtern in einer Branche, die jedes Punkt-Update als Generationssprung verkauft.

Spannend wird die Frage, was Dynamic Workflows im Alltag ändert. Auf dem Papier ist das die größte Erweiterung von Claude Code seit dem Auto Mode. Wenn das Feature die Stabilität hat, die eine Research-Preview verspricht, lassen sich damit Aufgabenklassen automatisieren, für die bisher eigene Tooling-Projekte angesetzt werden mussten. Wir beobachten die Preview in den nächsten Wochen genau und werden berichten, sobald sich abzeichnet, ob das Feature in echten Codebases auch unter Last hält, was die Demo verspricht.

Wenn bei euch gerade die Frage aufkommt, an welchen Stellen im eigenen Stack ein agentisches Modell den nächsten Sprung freischaltet, von Coding-Assistenten bis zu spezialisierten Recherche-Agenten, sprecht uns gerne an. Wir beraten Unternehmen, die diese Entscheidungen mit klarem Kopf treffen wollen statt mit Vendor-Slides.

#Claude #Anthropic #KI #Coding

Beitrag teilen

Autor

Dominik Rieken

Gründer & Geschäftsführer, Pixzl