Claude Opus 4.7: Ein Coding-Sprung mit Nebenkosten

Anthropic hat Claude Opus 4.7 veröffentlicht: deutliche Coding-Fortschritte, ein neuer Tokenizer mit versteckter Preiserhöhung und gezielt gedrosselte Cyber-Fähigkeiten. Was das Release in der Praxis bedeutet.

16. April 20268 min LesezeitKI

Artikel anhören0:00

Was Anthropic mit Opus 4.7 vorlegt

Anthropic hat Claude Opus 4.7 am 16. April 2026 veröffentlicht – und das Release ist in mehrerlei Hinsicht interessanter als das übliche Punkt-Update. Beim eigenständigen Bearbeiten von Coding-Aufgaben legt das Modell deutlich zu, gleichzeitig schraubt Anthropic gezielt an den Cyber-Fähigkeiten, und im Hintergrund sortiert ein überarbeiteter Tokenizer die Kostenstruktur neu: je nach Texttyp zählt derselbe Input jetzt zwischen exakt gleich viel und rund 35 Prozent mehr Tokens, bei unveränderten Listenpreisen. Wer täglich mit Claude Code, der API oder einem integrierten Agenten arbeitet, sollte sich das genauer anschauen – die Effekte sind nicht nur theoretisch. Das offizielle Release-Announcement steht bei Anthropic.

Wir haben uns die Benchmarks, die Nebenbedingungen und die Praxisfolgen angesehen. Nicht als Marketing-Abbild, sondern aus Sicht einer Agentur, die das Modell in eigenen Projekten einsetzt und auch bei Kunden implementiert.

Vorweg eine Einordnung, die im ganzen Text mitläuft: Opus 4.7 ist ein Werkzeug, kein Ersatz für Entwicklerinnen und Entwickler. Was das Modell besser kann, ist Beschleunigung – Boilerplate wegschreiben, Dokumente durchsuchen, Refactoring-Schritte vorschlagen, Tests entwerfen. Architekturentscheidungen, fachliche Einordnung, Abwägungen im Zielkonflikt und die Verantwortung für das, was am Ende ins Produktivsystem geht, liegen weiterhin bei den Menschen am Rechner. Das wird sich auch mit 4.7 nicht ändern – es wird nur deutlicher, wo genau die Grenze zwischen Hilfestellung und Fachentscheidung liegt.

Coding: der eigentliche Grund zum Updaten

Den klarsten Befund liefert Anthropic auf Rakuten-SWE-Bench, einem Benchmark aus echten Production-Tickets mit Tests, Dependencies und Legacy-Kontext – also nicht Spielzeug-Aufgaben, sondern die Art von Aufgaben, die in realen Projekten tatsächlich auf dem Board stehen. Dort schließt Opus 4.7 laut Anthropic dreimal so viele Tasks wie Opus 4.6 – nicht drei Prozentpunkte mehr, sondern das Dreifache der erfolgreich abgeschlossenen Tickets. Auf CursorBench, das Editor-Integrationen mit realistischem Projektkontext bewertet, klettert die Erfolgsrate von 58 auf 70 Prozent.

Diese Zahlen heißen allerdings nicht, dass der entsprechende Anteil der Entwicklerarbeit wegautomatisiert ist. Ein Ticket zu schließen ist selten der schwierige Teil – die Arbeit steckt davor (das Problem sauber verstehen, mit Stakeholdern klären, Trade-offs abwägen) und danach (Review, Testdisziplin, Betriebsfolgen im Auge behalten). Der Benchmark misst nur das mittlere Stück. Was die besseren Zahlen in der Praxis bedeuten, ist konkret: In mehr Fällen als vorher liefert das Modell einen brauchbaren ersten Entwurf, den ein Mensch in weniger Zeit mergefertig bekommt. Das ist ein echter Produktivitätsgewinn, kein Stellenabbau-Argument.

Zweite relevante Kennzahl: Databricks OfficeQA Pro, das „Document Reasoning" misst – also wie gut ein Modell sich durch große Dokumente, Tabellen und kontextuelle Referenzen arbeitet. Dort klettert der Wert von 76,7 auf 81,3 Prozent, was Anthropic als rund 21 Prozent weniger Fehler framet. Für Anwendungen, in denen Agenten sich durch Angebote, PDFs oder Spezifikationen arbeiten müssen, ist das ein substanzieller Sprung. In Projekten, in denen wir Claude intern als „Dokumenten-Analyst" einsetzen, fällt der Unterschied schon nach zwanzig Minuten auf.

Balkendiagramm: Claude Opus 4.6 vs. 4.7 auf CursorBench (58 gegen 70 Prozent) und Databricks OfficeQA Pro (76,7 gegen 81,3 Prozent) — Claude Opus 4.6 gegen 4.7 auf zwei Benchmarks im direkten Vergleich. Daten: Anthropic (Announcement vom 16. April 2026). Visualisierung: Pixzl.

Auf ScreenSpot-Pro, dem Benchmark für visuelle Bedienschritte am Desktop, liegen die Zuwächse ebenfalls deutlich. Anthropic beschreibt das Modell als „präziser und wörtlicher" in der Instruktionsbefolgung – und genau das ist in unseren ersten Tests spürbar. Prompts, die bei Opus 4.6 noch etwas kreativ interpretiert wurden, werden jetzt sehr genau so ausgeführt, wie sie geschrieben sind. Das ist meistens gut, gelegentlich überraschend: Wer seine Prompts mit eingebauter Ungenauigkeit gefahren hat, weil die erst beim Modell „rund" wurden, merkt jetzt, dass der neue Opus nichts mehr glattbügelt.

Die versteckte Preiserhöhung

Der offizielle Preis bleibt gleich: 5 Dollar pro Million Input-Tokens, 25 Dollar pro Million Output-Tokens. Das ist exakt die gleiche Zahl wie bei Opus 4.6. Wer nur auf die Pricing-Seite schaut, denkt: keine Veränderung.

In der Praxis sieht das anders aus. Anthropic hat den Tokenizer überarbeitet, und nach eigener Angabe mappt er denselben Text jetzt je nach Inhaltstyp zwischen 1,0- und 1,35-mal so vielen Tokens wie bisher. Das heißt konkret: Dieselbe Konversation, dieselbe Datei, dasselbe Prompt – und in vielen Fällen fließt mehr Geld. Für Nutzerinnen und Nutzer der API, die auf Massendurchsatz optimiert arbeiten, ist das eine faktische Preiserhöhung, auch wenn sie nirgendwo offiziell so kommuniziert wird.

Was wir Kunden raten: Wer Claude über die API einsetzt, sollte vor dem Wechsel auf 4.7 einmal einen repräsentativen Workload messen – Input- und Output-Tokens beider Modelle für denselben Text. Das dauert eine halbe Stunde und spart unter Umständen vierstellige Beträge im Monat. Für reine Chat- und Coding-Nutzer in Claude Pro oder Claude Max ändert sich nichts, weil der Abopreis pauschal ist. Wer also hauptsächlich in Claude Code arbeitet, kann die Tokenizer-Diskussion ignorieren – wer ein Produkt gebaut hat, das API-Kosten pro Nutzer abrechnet, nicht.

Cyber-Fähigkeiten: gezielt zurückgefahren

Der zweite markante Punkt im Release ist politisch-technisch. Im Rahmen einer AI-Sicherheitsinitiative, die bei Anthropic unter dem Namen Glasswing läuft, wurden die Cyber-Fähigkeiten des Modells gezielt beschnitten – Anthropic selbst spricht dabei von einem „differenziellen" Training. Konkret heißt das: Fordert ein Prompt das Modell sichtbar zu missbräuchlichen oder besonders gefährlichen Zwecken im Sicherheitskontext auf, wird die Antwort automatisch verweigert.

Die Begründung ist nachvollziehbar: Leistungsstarke Sprachmodelle sind inzwischen gut genug, um bei offensiven Sicherheitsaufgaben nicht mehr nur Einstiegshilfe zu leisten. Anthropic nimmt sich damit freiwillig aus einem Markt heraus, der ohnehin zunehmend reguliert wird.

Die Kehrseite: Solche Schutzfilter blockieren gelegentlich auch legitime Anfragen mit. Anthropic gibt an, dass 4.7 Anfragen aus seriöser Sicherheitsforschung deutlich häufiger unterstützt als 4.6 – im direkten Vergleich ist das neue Modell also klar kooperativer, ohne in eine komplette Öffnung zu kippen. Wer professionell Pentesting, CTFs oder interne Security-Reviews betreibt, wird trotzdem Momente haben, in denen das Modell aussteigt.

Für diese Gruppe hat Anthropic ein Cyber Verification Program aufgesetzt: Sicherheitsforscher können sich verifizieren lassen und bekommen dann einen weniger restriktiven Zugang. Ob das in der Praxis sauber funktioniert, wird sich zeigen – die Erfahrungen mit ähnlichen Programmen anderer Anbieter sind gemischt, vor allem, was Freischaltungsgeschwindigkeit und Zugriffsgrenzen angeht.

Halluzinationen: bessere Zahlen mit Einschränkungen

Laut eigener Modellkarte hat Opus 4.7 die „niedrigste Halluzinationsrate aller getesteten Modelle" bei Input-Halluzinationen – also dann, wenn das Modell ohne verfügbare Werkzeuge antworten muss. Bei Halluzinationen aufgrund falscher Prämissen (also: der Nutzer stellt eine Frage, die eine unzutreffende Annahme enthält) liegt das Modell auf dem Niveau von 4.6. Kein Sprung nach vorne, aber auch kein Rückschritt.

Für Agenten-Architekturen ist diese Unterscheidung wichtig. Wer sein Modell mit Tools ausstattet – Websuche, Datenbank-Queries, File-Reads – profitiert von der niedrigeren Input-Halluzinationsrate nur begrenzt, weil in solchen Setups die Tools das Halluzinieren ohnehin einfangen. Wer dagegen reine Chat-Antworten generiert (Support-Assistenten, interne Dokumentation), sieht den Fortschritt direkt.

Was für Entwicklerinnen und Entwickler konkret neu ist

Neben den Benchmark-Werten bringt das Release drei praxisrelevante Features.

Bildverarbeitung mit dreifacher Auflösung. Das Modell akzeptiert jetzt Bilder bis 2.576 Pixel Kantenlänge (rund 3,75 Megapixel) – dreimal so viel wie vorher. Für Vision-Workflows mit Screenshots, Mockups oder Dokumenten-Scans heißt das, dass feine Details wie kleine Schriften, UI-Labels oder Tabellenzellen endlich erkannt werden, ohne dass man die Eingabe vorskalieren muss.

/ultrareview in Claude Code. Der Slash-Befehl /ultrareview startet einen besonders tief gehenden Code-Review, bei dem das Modell nicht nur offensichtliche Fehler sucht, sondern auch architektonische Schwächen, unerwartete Nebenwirkungen und Stellen, an denen Tests fehlen. In unseren ersten Läufen produziert er deutlich längere, aber auch substantielle Reviews – gut für die Merge-Vorbereitung größerer Features, weniger sinnvoll, wenn man schnell über einen Hot-Fix drüberschauen will.

Neues Effort-Level „xhigh". Bisher gab es die Abstufungen „low", „medium", „high" und „max". Dazwischen hat Anthropic jetzt ein „xhigh" eingeschoben – eine Stufe, die mehr Rechenzeit erlaubt als „high", aber nicht den vollen Overhead von „max" zieht. Für längere agentische Sessions ist das ein sinnvoller Mittelwert; wer mit „max" arbeitet, weil „high" zu oft daneben lag, kann hier einen günstigeren Kompromiss finden.

Der erweiterte Auto Mode in Claude Code ist zusätzlich für Max-Nutzerinnen und Nutzer freigeschaltet. Er erlaubt längere autonome Läufe, ohne dass man als Mensch jeden Schritt bestätigt – nicht für jedes Projekt sinnvoll, aber ein echter Zeitgewinn bei strukturierten Refactorings oder Migrationen, in denen die Schritte vorhersehbar sind. Wichtig dabei: Das Ergebnis gehört vor dem Merge durch einen menschlichen Review, gerade wenn Schnittstellen, Datenmodelle oder öffentlicher API-Code berührt werden. „Autonom" heißt hier „braucht keine Zwischenbestätigungen", nicht „braucht keine Kontrolle".

Verfügbarkeit

Opus 4.7 läuft ab sofort direkt in der Claude-API. Darüber hinaus ist das Modell auf allen großen Hyperscaler-Plattformen abrufbar – also bei Googles Vertex AI, bei Amazons Bedrock und in Microsofts Foundry. In der Claude-App und in Claude Code steht es Pro- und Max-Nutzerinnen und -Nutzern ebenfalls sofort zur Verfügung. Wer eigene Agenten-Stacks auf Claude laufen hat, kann den Modellparameter auf claude-opus-4-7 umstellen.

Eine kurze Warnung dazu: Die Tokenizer-Änderung kann dazu führen, dass Prompts, die bislang knapp unter einem Kontext-Limit lagen, jetzt darüber liegen. In produktiven Agenten mit festen Context-Window-Konfigurationen lohnt sich eine Testphase, bevor man das ganze Team umschwenkt.

Was das für Projekte heißt

Aus unserer Sicht ist Opus 4.7 das bisher wichtigste Coding-Release des Jahres. Für reine Developer-Produktivität – also Entwicklerinnen und Entwickler, die mit Claude Code in einer Agentur oder einem Produktteam arbeiten – lohnt sich das Update definitiv. Die Fortschritte im Instruction-Following sparen in jedem mittelgroßen Feature-Zyklus mehrere Revisionen ein – das amortisiert die Tokenizer-Kosten meistens schon alleine.

Für Produkte, in denen Claude in der API steckt und Nutzeranfragen beantwortet, ist die Frage differenzierter. Die Kosten pro Anfrage steigen, die Qualität der Antworten auch – und ob das Verhältnis stimmt, hängt vom konkreten Use-Case ab. In unseren Kundenprojekten gehen wir das wie beim Tokenizer-Test an: kleine A/B-Messung über einen realistischen Workload, dann entscheiden.

Und für Security-nahe Szenarien – Pentesting-Hilfsassistenten, interne Red-Team-Tools, Threat-Modeling-Agenten – ist der Blick auf das Verifizierungsprogramm Pflicht, bevor man sich auf 4.7 festlegt. Wer bei seriösen Security-Prompts jetzt trotzdem noch zu oft abgebügelt wird, bleibt vorerst auf 4.6 oder wechselt auf eine Alternative, die diese Fähigkeiten nicht gedrosselt hat.

Wenn bei euch gerade die Frage aufkommt, wo sich welche KI-Modelle im eigenen Stack wie rechnen – von reinen Coding-Assistenten bis zu agentischen Workflows, die echten Umsatz generieren – sprecht uns gerne an. Wir beraten Unternehmen, die diese Entscheidungen mit klarem Kopf treffen wollen statt mit Vendor-Slides.

#Claude #Anthropic #KI #Coding

Beitrag teilen

Über den Autor

Dominik Rieken

Founder, Pixzl

Ich bin Gründer von Pixzl, einer Digitalagentur mit Software-Fokus aus dem Münsterland. Wir bauen eigene Apps und entwickeln für Kunden. Hier schreibe ich über die Praxis dahinter.

Linkedin Threads