Claude Opus 4.7: Was es Neues gibt und wie es sich im Vergleich zu Opus 4.6 schlägt

Anthropic hat gerade Claude Opus 4.7 veröffentlicht – ihr neuestes und leistungsstärkstes, allgemein verfügbares Modell. Wenn du Opus 4.6 zum Programmieren, für die Forschung oder zur Entwicklung von KI-gestützten Produkten verwendet hast, erfährst du hier alles, was sich geändert hat und was die neuen Fähigkeiten in der Praxis bedeuten.

Die wichtigsten Spezifikationen auf einen Blick

Spezifikation	Opus 4.7	Opus 4.6
Preis	5 $ / Mio. Input, 25 $ / Mio. Output	5 $ / Mio. Input, 25 $ / Mio. Output
Context window	1 Mio. Tokens (~555.000 Wörter)	200K Tokens
Max output	128K Tokens	64K Tokens
Wissensstichtag	Januar 2026	August 2025
Thinking mode	Adaptive Thinking	Extended Thinking
API model ID	`claude-opus-4-7`	`claude-opus-4-6-20260205`
Verfügbarkeit	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

Gleicher Preis, größeres Context Window, doppelte Output-Länge und fünf Monate aktuelleres Wissen. Auf dem Papier ist es ein unkompliziertes Upgrade. Schauen wir uns genauer an, was sich unter der Haube wirklich verbessert hat.

1. Agentic Coding: Die wichtigste Verbesserung

Hier glänzt Opus 4.7 am meisten. Anthropic beschreibt es als „eine bemerkenswerte Verbesserung im fortgeschrittenen Software Engineering, mit besonderen Zuwächsen bei den schwierigsten Aufgaben.“

Was bedeutet das konkret? Drei Dinge:

Self-verification. Opus 4.7 schreibt nicht nur Code und gibt ihn zurück – es entwickelt Methoden, um seine eigenen Ausgaben zu überprüfen, bevor es die Fertigstellung meldet. Wenn du jemals erlebt hast, dass ein KI-Agent „Fertig!“ sagt, obwohl der Code nicht kompiliert, weißt du, warum das wichtig ist.

Konsistenz bei langlaufenden Aufgaben (long-running tasks). Das Modell bewältigt komplexe, mehrstufige Aufgaben „mit Strenge und Konsistenz“. Frühere Modelle neigten dazu, bei längeren Sitzungen an Kohärenz zu verlieren. Opus 4.7 bleibt auf Kurs.

Strikte Befolgung von Anweisungen (instruction following). Es achtet „präzise auf Anweisungen“ – das bedeutet weniger Fälle, in denen das Modell deine Vorgaben ignoriert oder vom Thema abweicht.

Die Benchmark-Zahlen

Die Leistungssteigerungen sind nicht unerheblich. In realen Coding-Benchmarks von führenden KI-Unternehmen zeigt Opus 4.7 zweistellige Verbesserungen und löst Probleme, die bisher unerreichbar waren:

CursorBench: 70 % Auflösung (vs. Opus 4.6 mit 58 %) – ein Anstieg um 12 Punkte. Cursor nennt es „einen bedeutsamen Sprung in den Fähigkeiten, insbesondere bei seiner Autonomie und dem kreativeren logischen Denken.“
Augment's 93-task coding benchmark: +13 % Auflösung gegenüber Opus 4.6, einschließlich 4 Aufgaben, die weder Opus 4.6 noch Sonnet 4.6 lösen konnten. Kombiniert mit schnellerer medianer Latenz und striktem instruction following.
Notion Agent: +14 % gegenüber Opus 4.6 bei weniger Tokens und einem Drittel der Tool-Fehler. „Das erste Modell, das unsere Tests für implizite Anforderungen besteht, und es führt seine Aufgaben auch bei Tool-Fehlern weiter aus, die Opus früher kaltgestellt hätten.“
Rakuten-SWE-Bench: 3x mehr Produktivaufgaben gelöst als Opus 4.6, mit zweistelligen Zuwächsen bei Code-Qualität und Test-Qualität.
Warp Terminal Bench: Bestand Aufgaben, an denen frühere Claude-Modelle gescheitert waren, einschließlich eines kniffligen Concurrency-Bugs, den Opus 4.6 nicht knacken konnte.
CodeRabbit code review: Recall um über 10 % verbessert, wodurch schwer zu findende Bugs in komplexen PRs aufgedeckt wurden, während die Precision stabil blieb. „Etwas schneller als GPT-5.4 xhigh auf unserem Testsystem.“
Genspark Super Agent: Höchstes gemessenes Verhältnis von Qualität pro tool call. Beste loop resistance (ein Modell, das bei 1 von 18 Anfragen endlos schleift, verschwendet Rechenleistung und blockiert Benutzer), geringste Varianz und beste graceful error recovery.

Dies sind keine synthetischen Benchmarks – es handelt sich um produktive Workloads von Unternehmen, die echte Produkte ausliefern. Das Muster ist konsistent: Opus 4.7 erledigt mehr Arbeit, macht weniger Fehler und erholt sich besser, wenn etwas schiefgeht.

2. Vision: Bildverständnis mit höherer Auflösung

Opus 4.7 hat eine „wesentlich bessere Vision“ mit Unterstützung für Bilder mit höherer Auflösung. Dabei geht es nicht nur darum, Bilder klarer zu sehen – es eröffnet auch praktische Anwendungsfälle:

Solve Intelligence berichtet von „erheblichen Verbesserungen im multimodal understanding, vom Lesen chemischer Strukturen bis zur Interpretation komplexer technischer Diagramme.“ Sie nutzen es für Patent-Workflows in den Life Sciences, einschließlich Entwurf, Verfolgung, Verletzungserkennung und Nichtigkeitsfeststellung.
Für Entwickler, die Tools zur Verarbeitung von Screenshots, Diagrammen oder UI-Mockups erstellen, bedeutet die höhere Auflösung weniger falsch gelesene Beschriftungen, ein besseres Layout-Verständnis und genauere OCR-like capabilities.

3. Kreative und professionelle Ergebnisse

Anthropic sagt, Opus 4.7 sei „geschmackvoller und kreativer bei der Erledigung professioneller Aufgaben und produziere hochwertigere Interfaces, Folien und Dokumente.“

Die enthusiastischste Befürwortung kommt von einem Tester, der es als „das beste Modell der Welt für die Erstellung von Dashboards und datenreichen Interfaces“ bezeichnete. „Der Designgeschmack ist wirklich überraschend – es trifft Entscheidungen, die ich tatsächlich veröffentlichen würde. Es ist jetzt mein Standardwerkzeug für den täglichen Gebrauch.“

Wenn du Claude zur Erzeugung von UI-Komponenten, Präsentationsfolien oder Dokumentenlayouts verwendest, ist dies eine spürbare Verbesserung der Lebensqualität.

4. Adaptive Thinking (ersetzt Extended Thinking)

Opus 4.6 verwendete Extended Thinking – einen Modus, in dem das Modell seine Gedankenkette explizit anzeigt. Opus 4.7 wechselt zu Adaptive Thinking, das die Tiefe des Denkprozesses automatisch an die Komplexität der Aufgabe anpasst.

Der praktische Unterschied: Du musst die Denkmodi nicht manuell umschalten. Das Modell entscheidet, wie viel Denkaufwand eine Aufgabe erfordert, und teilt die Ressourcen entsprechend zu. Einfache Fragen erhalten schnelle Antworten; komplexe Probleme eine tiefere Analyse.

Hinweis: Sonnet 4.6 unterstützt weiterhin Extended Thinking. Wenn du speziell sichtbare Gedankengänge benötigst, bleibt Sonnet die richtige Option.

5. Context Window: 5x größer, neuer Tokenizer

Der Sprung von 200K auf 1 Mio. Tokens ist auf dem Papier gewaltig. Das sind ungefähr 555.000 Wörter – genug, um ganze Codebasen, lange Dokumentsammlungen oder ausgedehnte Gesprächsverläufe unterzubringen.

Es gibt jedoch ein wichtiges Detail: Opus 4.7 verwendet einen neuen Tokenizer. Derselbe Text erzeugt mehr Tokens als mit dem Tokenizer von Opus 4.6. Anthropic merkt an, dass das 1-Mio.-Fenster etwa 555.000 Wörtern entspricht, verglichen mit den typischen ~750.000 Wörtern pro Million Tokens mit dem alten Tokenizer. In der Praxis könnte ein Prompt, der dich mit Opus 4.6 1.000 Tokens gekostet hat, jetzt mit Opus 4.7 etwa 1.300 Tokens kosten. Der Preis pro Token hat sich nicht geändert, aber deine effektiven Kosten pro Konversation steigen um etwa 30 %. Das solltest du in dein Budget einplanen, wenn du ein intensiver API-Nutzer bist.

Was das in der Praxis bedeutet:

Deine Prompts werden mehr Tokens verbrauchen als zuvor
Die effektive „Textkapazität“ des 1-Mio.-Fensters entspricht ungefähr ~740K Tokens des alten Tokenizers
Immer noch ein signifikantes Upgrade gegenüber den 200K von Opus 4.6, aber für die Kostenschätzung wissenswert

6. Max Output: Auf 128K verdoppelt

Opus 4.6 begrenzte den Output auf 64K Tokens. Opus 4.7 verdoppelt diesen Wert auf 128K. Das ist wichtig für:

Die Erstellung langer Dokumente oder Berichte in einem einzigen Durchgang
Komplexe Code-Erstellung, die sich über mehrere Dateien erstreckt
Detaillierte Analyseaufgaben, bei denen das Modell seine Antwort bisher kürzen musste

Für agentic workflows, bei denen das Modell umfangreiche diffs oder Änderungen an mehreren Dateien erstellen muss, ist ein Output von 128K eine praktische Verbesserung.

7. Project Glasswing und Cyber-Schutzmaßnahmen

Opus 4.7 ist das erste Modell, das im Rahmen von Anthropics Project Glasswing veröffentlicht wird. Letzte Woche hat Anthropic sowohl die Risiken als auch die Vorteile von KI-Modellen für die cybersecurity beleuchtet und sich verpflichtet, neue Schutzmaßnahmen an weniger leistungsfähigen Modellen zu testen, bevor sie ihr leistungsstärkstes Modell, Claude Mythos Preview, breit veröffentlichen.

Was das für Opus 4.7 bedeutet:

Reduzierte Cyber-Fähigkeiten: Während des Trainings hat Anthropic mit „Anstrengungen zur differenziellen Reduzierung“ der cybersecurity-Fähigkeiten im Vergleich zu Mythos Preview experimentiert.
Automatische Schutzmaßnahmen: Das Modell enthält eine integrierte Erkennung, die Anfragen blockiert, die auf „verbotene oder hochriskante cybersecurity-Nutzungen“ hindeuten.
Cyber Verification Program: Sicherheitsexperten, die legitime Arbeit leisten (vulnerability research, pentesting, red-teaming), können über das Cyber Verification Program Zugang beantragen.

Dies ist Anthropics erster Praxistest von differential capability controls – bei dem ein Modell absichtlich in bestimmten Bereichen weniger fähig gemacht wird, während es in anderen verbessert wird. Was sie aus dem Einsatz von Opus 4.7 lernen, wird beeinflussen, wie (und wann) sie Modelle der Mythos-Klasse breiter veröffentlichen.

8. Verfügbarkeit und Integration

Opus 4.7 ist vom ersten Tag an auf allen wichtigen Plattformen verfügbar:

Claude API – direkter Zugriff über claude-opus-4-7
Amazon Bedrock – anthropic.claude-opus-4-7 (Research Preview)
Google Cloud Vertex AI – claude-opus-4-7
Microsoft Foundry – neu zur Plattform hinzugefügt

Die Aufnahme von Microsoft Foundry ist bemerkenswert – es ist das erste Mal, dass ein Claude-Opus-Modell zum Start auf der Plattform von Microsoft verfügbar ist.

Was die frühen Tester sagen

Über die Benchmark-Zahlen hinaus zeigt das qualitative Feedback von Enterprise-Testern konsistente Themen:

Zur Zuverlässigkeit:

Hex: „Das stärkste Modell, das Hex evaluiert hat. Es meldet korrekt, wenn Daten fehlen, anstatt plausible, aber falsche Ausweichlösungen anzubieten, und es widersteht dissonanten Datenfallen, auf die sogar Opus 4.6 hereinfällt.“
Devin: „Hebt die long-horizon autonomy auf ein neues Level. Es arbeitet stundenlang kohärent und kämpft sich durch schwierige Probleme, anstatt aufzugeben.“

Zur Effizienz:

Replit: „Eine einfache Upgrade-Entscheidung. Gleiche Qualität zu geringeren Kosten – effizienter und präziser bei Aufgaben wie der Analyse von Logs und Traces, dem Finden von Fehlern und dem Vorschlagen von Korrekturen.“
Hex: „Opus 4.7 mit geringem Aufwand entspricht in etwa Opus 4.6 mit mittlerem Aufwand.“ – das bedeutet, dass du mit weniger prompt engineering die gleiche Ergebnisqualität erzielst.

Zum logischen Denken:

Harvey (Rechts-KI): „90,9 % inhaltliche Genauigkeit auf dem BigLaw Bench bei hohem Aufwand mit besserer Kalibrierung des logischen Denkens. Es unterscheidet korrekt zwischen Abtretungsklauseln und Klauseln zur Kontrolländerung, eine Aufgabe, die frontier models historisch vor Herausforderungen gestellt hat.“
Quantium: „Die größten Zuwächse zeigten sich dort, wo sie am wichtigsten sind: bei der Tiefe des logischen Denkens, der strukturierten Problemformulierung und bei komplexer technischer Arbeit.“

Zur Persönlichkeit:

Replit: „Ich liebe es, wie es in technischen Diskussionen Widerworte gibt, um mir zu helfen, bessere Entscheidungen zu treffen. Es fühlt sich wirklich wie ein besserer Kollege an.“
Anthropics eigene Beschreibung: Das Modell bringt „eine meinungsstärkere Perspektive ein, anstatt dem Benutzer einfach nur zuzustimmen.“

9. Wer es bereits nutzt – und was sie damit bauen

Die Liste der Early-Access-Tester liest sich wie ein Who-is-Who der KI-gestützten Entwickler-Tools. Hier ist ein kurzer Überblick, wie verschiedene Unternehmen Opus 4.7 einsetzen:

Coding-Agenten und IDEs: Cursor, Replit, Warp und Devin integrieren alle Opus 4.7 als ihr primäres oder Top-Tier-Modell für autonome Programmieraufgaben. Devin hebt besonders die „long-horizon autonomy“ hervor – das Modell arbeitet stundenlang kohärent an tiefgehenden Untersuchungsaufgaben, die zuvor nicht zuverlässig möglich waren.

Code review: CodeRabbit plant Opus 4.7 für ihre „anspruchsvollsten Review-Aufgaben zum Launch“ ein und verweist auf eine Verbesserung des recall um mehr als 10 % bei schwer zu findenden Bugs in komplexen Pull Requests.

Enterprise-KI-Plattformen: Hebbia verzeichnete zweistellige Sprünge bei der Genauigkeit von tool calls und der Planung für Orchestrator-Agenten, die retrieval, Folienerstellung und Dokumentengenerierung übernehmen. Genspark meldet das höchste Verhältnis von Qualität pro tool call, das sie je bei einem Modell gemessen haben.

Recht und Finanzen: Harvey meldet 90,9 % inhaltliche Genauigkeit auf dem BigLaw Bench. Hex nennt es „das stärkste Modell, das Hex evaluiert hat“ – es meldet korrekt fehlende Daten, anstatt plausible Ausweichlösungen zu halluzinieren, und widersteht Datenfallen, auf die sogar Opus 4.6 hereinfiel. Ein Fintech-Tester beschreibt, wie es „seine eigenen logischen Fehler während der Planungsphase“ erkennt.

Life Sciences: Solve Intelligence nutzt die verbesserten Vision-Fähigkeiten für Patent-Workflows – das Lesen chemischer Strukturen, die Interpretation technischer Diagramme und die Abwicklung von allem, vom Entwurf bis zur Verletzungserkennung.

Data Visualization: Ein Tester nannte es „das beste Modell der Welt für die Erstellung von Dashboards und datenreichen Interfaces“ und merkte an, dass „der Designgeschmack wirklich überraschend ist – es trifft Entscheidungen, die ich tatsächlich veröffentlichen würde.“

Die Breite der Akzeptanz ist bemerkenswert. Dies ist nicht nur ein Coding-Modell – es wird in den Bereichen Recht, Finanzen, Life Sciences und Unternehmensautomatisierung eingesetzt. Der rote Faden: Aufgaben, die anhaltendes logisches Denken, präzisen Werkzeugeinsatz und zuverlässige Ergebnisse über lange Sitzungen erfordern.

Opus 4.7 vs. Opus 4.6: Zusammenfassung

Fähigkeit	Opus 4.6	Opus 4.7	Veränderung
Agentic coding	Stark	Deutlich stärker	+12–14 % bei wichtigen Benchmarks
Self-verification	Begrenzt	Integriert	Neue Fähigkeit
Vision	Standard	Höhere Auflösung	Wesentliche Verbesserung
Kreativer Output	Gut	„Geschmackvoller“	Qualitätsverbesserung
Context window	200K	1 Mio.	5x größer
Max output	64K	128K	2x größer
Thinking mode	Extended	Adaptive	Selbstjustierende Tiefe
Wissensstichtag	Aug 2025	Jan 2026	5 Monate aktueller
Tool error recovery	Stoppt bei Fehlern	Arbeitet weiter	Großer Zuverlässigkeitsgewinn
Cyber-Schutzmaßnahmen	Keine	Project Glasswing	Neues Sicherheits-Framework
Preis	5 $/25 $ pro Mio. Tokens	5 $/25 $ pro Mio. Tokens	Unverändert

Fazit

Claude Opus 4.7 ist ein gezieltes Upgrade, das die Stärken von Opus – komplexe, autonome Programmierarbeit – weiter ausbaut und gleichzeitig sinnvolle Verbesserungen bei Vision, Ausgabelänge und Kontextkapazität hinzufügt.

Die größten Gewinne liegen in der agentic reliability: self-verification, tool error recovery und long-running task consistency. Wenn du KI-gestützte Entwicklungstools erstellst oder Claude Code für deine tägliche Programmierarbeit nutzt, führen diese Verbesserungen direkt zu weniger fehlgeschlagenen Aufgaben und weniger Beaufsichtigung.

Der neue Tokenizer und die Project Glasswing Cyber-Schutzmaßnahmen sind wichtig zu verstehen, da sie sowohl die Kostenkalkulation als auch das Verhalten des Modells bei sicherheitsrelevanten Aufgaben beeinflussen.

Für Entwickler, die bereits Opus 4.6 verwenden, ist der Upgrade-Pfad einfach: Tausche claude-opus-4-6 in deinen API-Aufrufen gegen claude-opus-4-7 aus. Gleicher Preis, mehr Leistung.

Links:

Anthropic-Ankündigung: anthropic.com/research/claude-opus-4-7
API-Doku: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7: Was ist neu und wie schneidet es im Vergleich zu Opus 4.6 ab