Mit GPT-5.5 baut OpenAI den Agenten, nicht den Allwissenden

OpenAI hat GPT-5.5 vorgestellt, das stärkste Agentenmodell der GPT-Reihe bisher, mit 1-Mio-Tokens-Kontext, neuer Pro-Stufe und klarer Ausrichtung auf Coding, Computer-Use und mehrtägige Wissensarbeit. Was wirklich neu ist und für wen sich der Wechsel lohnt.

25. April 20265 min LesezeitKI

Mit GPT-5.5 baut OpenAI den Agenten, nicht den Allwissenden

Artikel anhören0:00

OpenAI hat am 23. April 2026 GPT-5.5 vorgestellt, laut Eigenwerbung „a new class of intelligence for real work“. Hinter dem Marketing steckt der erste vollständig neu trainierte Basismodell-Sprung seit GPT-4.5, mit klarem Fokus auf Agenten-Workflows statt auf reine Wissensabfrage. Einen Tag später, am 24. April, kamen GPT-5.5 und GPT-5.5 Pro auch in der API an.

Was wirklich neu ist

Drei Dinge fallen auf, wenn man die Ankündigung gegen die Punkt-Releases der letzten Monate (GPT-5.1 bis 5.4) hält:

Agentic-First-Design. OpenAI bewirbt GPT-5.5 explizit nicht mehr als „besseren Chatbot“, sondern als Modell, dem man eine vielschichtige, unsaubere Aufgabe geben kann, „plan, use tools, check its work, navigate through ambiguity, and keep going“. Das spiegelt sich in den Benchmarks, auf die optimiert wurde: Terminal-Bench 2.0, GDPval, OSWorld-Verified, BrowseComp, Tau2-bench Telecom. Allesamt Agenten-Tests, kein Trivia-Quiz.
1 Million Tokens Kontext in der Standard-API (400 K im Codex-Coding-Modus). Damit zieht OpenAI mit Gemini 3.x gleich. Auf den Long-Context-Benchmarks, etwa OpenAI MRCR v2 mit 8 Needles im 512K-1M-Bereich, liegt GPT-5.5 mit 74,0 % weit vor GPT-5.4 (36,6 %) und Claude Opus 4.7 (32,2 %). Das ist die Stelle, an der OpenAI gerade davonzieht.
Neue Tier-Struktur: GPT-5.5 (Standard, „Thinking“) und GPT-5.5 Pro. Pro ist der höhere Accuracy-Tier, deutlich teurer, primär für Aufgaben, bei denen ein Fehler echtes Geld kostet: Recht, Finance, Forschung.

Bemerkenswert auch die Hardware-Story dahinter: Das Modell wurde „co-designed for, trained with, and served on NVIDIA GB200 and GB300 NVL72 systems“. OpenAI-eigene Optimierungen (über GPT-5.5 in Codex iteriert) brachten über 20 % schnellere Token-Generierung auf der Inferenz-Seite.

Benchmarks, wo GPT-5.5 führt und wo nicht

Hier wird's interessant, weil die Story nuancierter ist, als die Pressemitteilung suggeriert. Alle Zahlen aus der OpenAI-Ankündigung selbst:

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0 (CLI-Agent)	82,7 %	75,1 %	69,4 %	68,5 %
Expert-SWE (intern, Long-Horizon)	73,1 %	68,5 %	–	–
GDPval (Generalist Agent)	84,9 %	83,0 %	80,3 %	67,3 %
OSWorld-Verified (Computer-Use)	78,7 %	75,0 %	78,0 %	–
BrowseComp	84,4 %	82,7 %	79,3 %	85,9 %
Tau2-bench Telecom	98,0 %	92,8 %	–	–
FrontierMath Tier 1-3	51,7 %	47,6 %	43,8 %	36,9 %
FrontierMath Tier 4	35,4 %	27,1 %	22,9 %	16,7 %
ARC-AGI-2 (Verified)	85,0 %	73,3 %	75,8 %	77,1 %
SWE-Bench Pro (echte GitHub-Bugs)	58,6 %	57,7 %	64,3 %	54,2 %
Humanity’s Last Exam (no tools)	41,4 %	39,8 %	46,9 %	44,4 %
ARC-AGI-1 (Verified)	95,0 %	93,7 %	93,5 %	98,0 %

GPT-5.5 dominiert dort, wo es um agentisches Werkzeug-Können geht: Terminal-Workflows, Generalist-Aufgaben, Long-Horizon-Coding, Computer-Use, mathematische Forschungsarbeit. Verliert aber gegen Opus 4.7 auf SWE-Bench Pro (echtes Repository-Refactoring) und auf Humanity’s Last Exam ohne Tools (reines Wissen). Gemini 3.1 Pro hält bei BrowseComp und ARC-AGI-1 dagegen.

In der Praxis: GPT-5.5 ist die richtige Wahl, wenn der Agent Tools nutzt. Für reines „weiß das Modell aus dem Kopf?“ ist Opus 4.7 in unseren Tests weiter die ehrlichere Antwort.

Stimmen aus dem Early-Access

OpenAI hat ein paar zitierfähige Praxisrückmeldungen mitgeliefert, die wir uns angesehen haben:

„The first coding model I’ve used that has serious conceptual clarity.“ Dan Shipper, Founder & CEO, Every

Pietro Schirano (CEO MagicPath) berichtet von einem Branch-Merge mit hunderten Frontend- und Refactor-Änderungen, den GPT-5.5 in einem Schritt in ca. 20 Minuten löste. Ein NVIDIA-Engineer, der frühen Zugang hatte, formuliert es nüchterner: „Losing access to GPT-5.5 feels like I’ve had a limb amputated.“

Wissenschaftlich am bemerkenswertesten: Eine interne Variante von GPT-5.5 fand einen neuen asymptotischen Beweis zu off-diagonalen Ramsey-Zahlen, der anschließend in Lean verifiziert wurde. Das ist nicht mehr „Modell wiederholt bekannte Mathematik“, sondern „Modell trägt zu offener Forschung bei“, wenn auch in einer Nische.

Preis und Verfügbarkeit

OpenAI hat für GPT-5.5 zwei API-Tiers eingeführt:

GPT-5.5 (Standard / Thinking): 5 $ pro 1 M Input-Token, 30 $ pro 1 M Output-Token, 1-M-Kontext.
GPT-5.5 Pro: 30 $ pro 1 M Input-Token, 180 $ pro 1 M Output-Token. Sechsfache Output-Kosten gegenüber dem Standard-Tier.
Batch / Flex Pricing: 50 % der Standardrate.
Priority Processing: 2,5× Standardrate.

In ChatGPT verteilt sich das wie folgt:

Tier	GPT-5.5 Thinking	GPT-5.5 Pro
Plus	✓	–
Pro	✓	✓
Business	✓	✓
Enterprise	✓	✓
Edu / Go	nur in Codex	–

In Codex ist GPT-5.5 für alle Bezahltarife verfügbar, mit 400 K-Kontextfenster und einem optionalen Fast Mode, der 1,5× schneller generiert, dafür 2,5× kostet.

Was das für Agenturarbeit bedeutet

Wir nutzen sowohl Claude Opus 4.7 als auch die GPT-Reihe in Kundenprojekten. Der Use-Case entscheidet, nicht die Markenpräferenz. Mit GPT-5.5 verschiebt sich die Zuordnung in unseren Werkstattnotizen:

Agentic Coding, Repo-Refactoring mit Tool-Use, Computer-Use-Workflows, Long-Context-Aufgaben über 256 K: GPT-5.5 ist erste Wahl. Terminal-Bench 2.0 mit 82,7 % und MRCR v2 mit 74 % im 512K-1M-Bereich sind eine andere Liga.
Echte Repository-Refactorings auf SWE-Bench-Pro-Niveau, präzise Wissensarbeit ohne Tools, juristische Argumentation: Opus 4.7 bleibt unser Default. Niedrigere Halluzinationsneigung, stärker auf HLE.
Kostensensitive Hochvolumen-Pipelines: GPT-5 Mini, Claude Haiku 4.5 oder Gemini Flash, GPT-5.5 ist hier overpowered.
Forschung & Datenanalyse, multi-step: GPT-5.5 Pro auf BixBench mit 80,5 %, FrontierMath Tier 4 mit 39,6 %: Das ist erstmals ein Modell, dem man eine Forschungsfrage über mehrere Tage geben kann, ohne dass es zwischendurch driftet.

Die strategisch interessante Frage ist nicht „wer ist besser“, sondern: OpenAI baut explizit auf agentische Werkzeug-Kompetenz, Anthropic auf Reasoning-Verlässlichkeit, Google auf Multimodalität und Skala. Das sind drei verschiedene Wetten auf die nächsten 18 Monate. Wir haben keine Eile, eine zu spät auf Bord zu sein, also nutzen wir alle drei dort, wo sie führen.

Bottom Line

GPT-5.5 ist nicht das Modell, das man als Allzweck-LLM blind gegen den Vorgänger tauschen sollte: Opus 4.7 schlägt es noch auf SWE-Bench Pro und HLE ohne Tools. Es ist ein Werkzeug für Agenten-Workflows, das in seiner Kategorie state-of-the-art ist und einen Preis aufruft, der genau das signalisiert.

Wer jetzt einen Coding-Agent, einen Computer-Use-Bot oder eine Multi-Tool-Pipeline produktiv setzen möchte, kommt an GPT-5.5 nicht vorbei, sollte aber kalkulieren, ob der gewünschte Output die Pro-Kosten rechtfertigt. Für interne Toolings reichen oft auch das Standard-Tier, GPT-5 Mini oder Claude Haiku 4.5.

Falls ihr gerade zwischen Modellen wählt oder eure bestehende KI-Pipeline auf Kosten/Qualität neu bewerten wollt: Wir machen das regelmäßig für Kunden, meldet euch.

#OpenAI #GPT-5.5 #KI #Coding #Agenten

Beitrag teilen

Autor

Dominik Rieken

Gründer & Geschäftsführer, Pixzl