Claude Opus 4.7 : les nouveautés et la comparaison avec Opus 4.6

Anthropic vient de sortir Claude Opus 4.7 — son dernier modèle le plus performant disponible pour tous. Si tu utilises Opus 4.6 pour le codage, la recherche ou la création de produits basés sur l'IA, voici tout ce qui a changé et ce que les nouvelles capacités signifient réellement en pratique.

Les caractéristiques clés en un coup d'œil

Caractéristique	Opus 4.7	Opus 4.6
Tarifs	5 $ / M entrée, 25 $ / M sortie	5 $ / M entrée, 25 $ / M sortie
Fenêtre de contexte	1 M de tokens (~555K mots)	200K de tokens
Sortie maximale	128K de tokens	64K de tokens
Date limite des connaissances	Janvier 2026	Août 2025
Mode de pensée	Adaptive Thinking	Extended Thinking
ID du modèle API	`claude-opus-4-7`	`claude-opus-4-6-20260205`
Disponibilité	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

Même prix, contexte plus grand, longueur de sortie doublée et cinq mois de connaissances plus récentes. Sur le papier, c'est une mise à niveau simple. Regardons de plus près ce qui a réellement été amélioré sous le capot.

1. Agentic Coding : l'amélioration principale

C'est là qu'Opus 4.7 brille le plus. Anthropic le décrit comme « une amélioration notable en ingénierie logicielle avancée, avec des gains particuliers sur les tâches les plus difficiles. »

Concrètement, qu'est-ce que cela signifie ? Trois choses :

Self-verification. Opus 4.7 n'écrit pas seulement du code pour te le donner — il conçoit des moyens de vérifier ses propres sorties avant de signaler que la tâche est terminée. Si tu as déjà eu un agent IA te dire "c'est fait !" alors que le code ne compile même pas, tu comprends pourquoi c'est important.

Long-running task consistency. Le modèle gère des tâches complexes et multi-étapes « avec rigueur et cohérence ». Les modèles précédents avaient tendance à perdre en cohérence lors de sessions plus longues. Opus 4.7 garde le cap.

Strict instruction following. Il porte une « attention précise aux instructions » — ce qui signifie moins de cas où le modèle ignore tes contraintes ou part dans des digressions.

Les chiffres des benchmarks

Les gains de performance ne sont pas marginaux. Sur des benchmarks de codage réels provenant des meilleures entreprises d'IA, Opus 4.7 affiche des améliorations à deux chiffres et résout des problèmes qui étaient auparavant hors de portée :

CursorBench : 70 % de résolution (contre 58 % pour Opus 4.6) — un bond de 12 points. Cursor parle d'« un saut significatif en termes de capacités, en particulier pour son autonomie et son raisonnement plus créatif. »
Benchmark de codage de 93 tâches d'Augment : +13 % de résolution par rapport à Opus 4.6, incluant 4 tâches que ni Opus 4.6 ni Sonnet 4.6 ne pouvaient résoudre. Combiné à une latency médiane plus rapide et un strict instruction following.
Notion Agent : +14 % par rapport à Opus 4.6 avec moins de tokens et un tiers des erreurs d'outils. « Le premier modèle à réussir nos tests de besoins implicites, et il continue de s'exécuter malgré des échecs d'outils qui arrêtaient net Opus auparavant. »
Rakuten-SWE-Bench : 3 fois plus de tâches de production résolues qu'Opus 4.6, avec des gains à deux chiffres en Code Quality et Test Quality.
Warp Terminal Bench : A réussi des tâches que les modèles Claude précédents avaient échouées, y compris un bug de concurrence délicat qu'Opus 4.6 n'avait pas pu résoudre.
CodeRabbit code review : Le recall s'est amélioré de plus de 10 %, révélant des bugs difficiles à détecter dans des PR complexes tandis que la précision est restée stable. « Un peu plus rapide que GPT-5.4 xhigh sur notre harness. »
Genspark Super Agent : Le plus haut ratio qualité-par-tool-call mesuré. Meilleure loop resistance (un modèle qui boucle indéfiniment sur 1 requête sur 18 gaspille du calcul et bloque les utilisateurs), variance la plus faible, et meilleure graceful error recovery.

Ce ne sont pas des benchmarks synthétiques — ce sont des charges de travail de production d'entreprises qui livrent de vrais produits. Le schéma est cohérent : Opus 4.7 accomplit plus de travail, fait moins d'erreurs et se rétablit mieux lorsque les choses tournent mal.

2. Vision : compréhension d'images à plus haute résolution

Opus 4.7 dispose d'une « vision substantiellement meilleure » avec la prise en charge d'images à plus haute résolution. Il ne s'agit pas seulement de voir les images plus clairement — cela ouvre des cas d'usage pratiques :

Solve Intelligence signale des « améliorations majeures dans la multimodal understanding, de la lecture de structures chimiques à l'interprétation de schémas techniques complexes ». Ils l'utilisent pour des workflows de brevets en sciences de la vie, y compris la rédaction, le suivi des procédures, la détection de contrefaçon et l'établissement de tableaux d'invalidité.
Pour les développeurs qui créent des outils traitant des captures d'écran, des schémas ou des maquettes d'interface utilisateur, la résolution plus élevée signifie moins d'étiquettes mal lues, une meilleure compréhension de la mise en page et des capacités de type OCR-like plus précises.

3. Sortie créative et professionnelle

Anthropic affirme qu'Opus 4.7 est « plus raffiné et créatif lors de l'exécution de tâches professionnelles, produisant des interfaces, des diapositives et des documents de meilleure qualité. »

Le témoignage le plus enthousiaste vient d'un testeur qui l'a qualifié de « meilleur modèle au monde pour créer des tableaux de bord et des interfaces riches en données. Le goût en matière de design est vraiment surprenant — il fait des choix que j'utiliserais réellement en production. C'est maintenant mon outil par défaut au quotidien. »

Si tu utilises Claude pour générer des composants d'interface utilisateur, des présentations de diapositives ou des mises en page de documents, il s'agit d'une amélioration significative de la qualité de vie.

4. Adaptive Thinking (remplace l'Extended Thinking)

Opus 4.6 utilisait l'Extended Thinking — un mode où le modèle montre explicitement sa chaîne de raisonnement. Opus 4.7 passe à l'Adaptive Thinking, qui ajuste automatiquement la profondeur du raisonnement en fonction de la complexité de la tâche.

La différence pratique : tu n'as pas besoin de basculer manuellement entre les modes de pensée. Le modèle décide du niveau de raisonnement nécessaire pour une tâche et alloue les ressources en conséquence. Les questions simples obtiennent des réponses rapides ; les problèmes complexes bénéficient d'une analyse plus approfondie.

Note : Sonnet 4.6 prend toujours en charge l'Extended Thinking. Si tu as spécifiquement besoin de chaînes de raisonnement visibles, Sonnet reste l'option à privilégier.

5. Fenêtre de contexte : 5x plus grande, nouveau tokenizer

Le saut de 200K à 1M de tokens est énorme sur le papier. C'est environ 555 000 mots — assez pour contenir des bases de code entières, de longues collections de documents ou des historiques de conversation étendus.

Cependant, il y a un détail important : Opus 4.7 utilise un nouveau tokenizer. Le même texte produit plus de tokens qu'avec le tokenizer d'Opus 4.6. Anthropic note que la fenêtre de 1M correspond à environ 555K mots, comparé aux ~750K mots habituels par million de tokens avec l'ancien tokenizer. En pratique, un prompt qui te coûtait 1 000 tokens avec Opus 4.6 pourrait maintenant coûter environ 1 300 tokens avec Opus 4.7. Le prix par token n'a pas changé, mais ton coût effectif par conversation augmente d'environ 30 %. Il est bon d'en tenir compte dans ton budget si tu es un grand utilisateur de l'API.

Ce que cela signifie en pratique :

Tes prompts consommeront plus de tokens qu'auparavant
La « capacité en texte » effective de la fenêtre de 1M est à peu près équivalente à ~740K tokens sur l'ancien tokenizer
C'est toujours une amélioration significative par rapport aux 200K d'Opus 4.6, mais il faut en être conscient pour l'estimation des coûts

6. Sortie maximale : doublée à 128K

Opus 4.6 limitait la sortie à 64K tokens. Opus 4.7 double cette limite à 128K. C'est important pour :

Générer de longs documents ou rapports en une seule fois
La génération de code complexe qui s'étend sur plusieurs fichiers
Des tâches d'analyse détaillées où le modèle devait auparavant tronquer sa réponse

Pour les workflows agentiques où le modèle doit produire des diffs étendus ou des modifications multi-fichiers, une sortie de 128K est une amélioration pratique.

7. Project Glasswing et les protections cyber

Opus 4.7 est le premier modèle publié dans le cadre du framework Project Glasswing d'Anthropic. La semaine dernière, Anthropic a souligné à la fois les risques et les avantages des modèles d'IA pour la cybersécurité, et s'est engagé à tester de nouvelles protections sur des modèles moins performants avant de diffuser largement leur modèle le plus puissant, Claude Mythos Preview.

Ce que cela signifie pour Opus 4.7 :

Capacités cyber réduites : Pendant l'entraînement, Anthropic a « expérimenté des efforts pour réduire de manière différentielle » les capacités en cybersécurité par rapport à Mythos Preview.
Protections automatiques : Le modèle inclut une détection intégrée qui bloque les requêtes indiquant des « utilisations de cybersécurité interdites ou à haut risque. »
Cyber Verification Program : Les professionnels de la sécurité effectuant un travail légitime (recherche de vulnérabilités, pentesting, red-teaming) peuvent demander l'accès via le Cyber Verification Program.

C'est le premier test en conditions réelles par Anthropic des contrôles de capacités différentielles — rendant intentionnellement un modèle moins capable dans des domaines spécifiques tout en l'améliorant dans d'autres. Ce qu'ils apprendront du déploiement d'Opus 4.7 façonnera comment (et quand) ils publieront plus largement les modèles de la classe Mythos.

8. Disponibilité et intégration

Opus 4.7 est disponible sur toutes les plateformes majeures dès le premier jour :

Claude API — accès direct via claude-opus-4-7
Amazon Bedrock — anthropic.claude-opus-4-7 (research preview)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — nouvel ajout à la plateforme

L'ajout de Microsoft Foundry est notable — c'est la première fois qu'un modèle Claude Opus est disponible sur la plateforme de Microsoft à son lancement.

Ce qu'en disent les premiers testeurs

Au-delà des chiffres des benchmarks, les retours qualitatifs des testeurs en entreprise révèlent des thèmes récurrents :

Sur la fiabilité :

Hex : « Le modèle le plus robuste qu'Hex ait évalué. Il signale correctement quand des données sont manquantes au lieu de fournir des solutions de repli plausibles mais incorrectes, et il résiste aux pièges de données dissonantes dans lesquels même Opus 4.6 tombe. »
Devin : « Porte l'autonomie à long terme à un nouveau niveau. Il travaille de manière cohérente pendant des heures, persévère face à des problèmes difficiles plutôt que d'abandonner. »

Sur l'efficacité :

Replit : « Une décision de mise à niveau facile. La même qualité à un coût inférieur — plus efficace et précis pour des tâches comme l'analyse des logs et des traces, la recherche de bugs et la proposition de correctifs. »
Hex : « Un effort faible avec Opus 4.7 équivaut à peu près à un effort moyen avec Opus 4.6. » — ce qui signifie que tu obtiens la même qualité de sortie avec moins de prompt engineering.

Sur le raisonnement :

Harvey (IA juridique) : « Précision de fond de 90,9 % sur BigLaw Bench à effort élevé avec une meilleure calibration du raisonnement. Il distingue correctement les clauses de cession des clauses de changement de contrôle, une tâche qui a historiquement posé problème aux modèles de pointe. »
Quantium : « Les plus grands gains sont apparus là où ils comptent le plus : profondeur du raisonnement, structuration des problèmes et travail technique complexe. »

Sur la personnalité :

Replit : « J'adore la façon dont il me contredit lors des discussions techniques pour m'aider à prendre de meilleures décisions. J'ai vraiment l'impression d'avoir un meilleur collègue. »
Description d'Anthropic : Le modèle apporte « une perspective plus affirmée, plutôt que de simplement être d'accord avec l'utilisateur. »

9. Qui l'utilise déjà — et ce qu'ils construisent

La liste des premiers testeurs se lit comme un who's who des outils de développement basés sur l'IA. Voici un aperçu rapide de la manière dont différentes entreprises mettent Opus 4.7 à profit :

Agents de codage et IDEs : Cursor, Replit, Warp et Devin intègrent tous Opus 4.7 comme leur modèle principal ou de premier plan pour les tâches de codage autonomes. Devin met particulièrement en avant « l'autonomie à long terme » — le modèle travaille de manière cohérente pendant des heures sur des travaux d'investigation approfondis qui n'étaient pas possibles de manière fiable auparavant.

Revue de code : CodeRabbit déploie Opus 4.7 pour son « travail de revue le plus lourd dès le lancement », citant une amélioration de plus de 10 % du recall sur les bugs difficiles à détecter dans les pull requests complexes.

Plateformes d'IA d'entreprise : Hebbia a constaté des bonds à deux chiffres dans la précision des tool calls et dans la planification pour les agents orchestrateurs gérant le retrieval, la création de diapositives et la génération de documents. Genspark rapporte le plus haut ratio qualité-par-tool-call qu'ils aient mesuré sur n'importe quel modèle.

Juridique et finance : Harvey rapporte une précision de fond de 90,9 % sur BigLaw Bench. Hex le qualifie de « modèle le plus robuste qu'Hex ait évalué » — il signale correctement les données manquantes au lieu d'halluciner des solutions de repli plausibles, et résiste aux pièges de données auxquels même Opus 4.6 succombait. Un testeur du secteur fintech le décrit comme attrapant « ses propres failles logiques pendant la phase de planification. »

Sciences de la vie : Solve Intelligence utilise les capacités de vision améliorées pour les workflows de brevets — lecture de structures chimiques, interprétation de schémas techniques et gestion de tout, de la rédaction à la détection de contrefaçon.

Visualisation de données : Un testeur l'a qualifié de « meilleur modèle au monde pour construire des tableaux de bord et des interfaces riches en données », notant que « le goût en matière de design est vraiment surprenant — il fait des choix que j'utiliserais réellement en production. »

L'ampleur de l'adoption est notable. Ce n'est pas seulement un modèle pour le codage — il est déployé dans les secteurs juridique, financier, des sciences de la vie et de l'automatisation d'entreprise. Le fil conducteur : des tâches qui nécessitent un raisonnement soutenu, une utilisation précise des outils et une sortie fiable sur de longues sessions.

Opus 4.7 vs Opus 4.6 : résumé

Capacité	Opus 4.6	Opus 4.7	Changement
Agentic coding	Fort	Nettement plus fort	+12-14 % sur les benchmarks majeurs
Self-verification	Limité	Intégré	Nouvelle capacité
Vision	Standard	Haute résolution	Amélioration substantielle
Sortie créative	Bonne	« Plus raffinée »	Amélioration de la qualité
Fenêtre de contexte	200K	1M	5x plus grande
Sortie maximale	64K	128K	2x plus grande
Mode de pensée	Extended	Adaptive	Profondeur auto-ajustée
Date limite des connaissances	Août 2025	Janvier 2026	5 mois plus récent
Tool error recovery	S'arrête en cas d'échec	Persévère	Gain de fiabilité majeur
Protections cyber	Aucune	Project Glasswing	Nouveau framework de sécurité
Tarifs	5 $/25 $ par M de tokens	5 $/25 $ par M de tokens	Inchangé

Conclusion

Claude Opus 4.7 est une mise à niveau ciblée qui renforce ce pour quoi Opus était déjà doué — le travail de codage autonome complexe — tout en ajoutant des améliorations significatives à la vision, à la longueur de sortie et à la capacité de contexte.

Les plus grands gains se situent au niveau de la fiabilité agentique : self-verification, tool error recovery, et long-running task consistency. Si tu développes des outils de développement basés sur l'IA ou si tu utilises Claude pour tes tâches de codage quotidiennes, ces améliorations se traduisent directement par moins de tâches échouées et moins de babysitting.

Le nouveau tokenizer et les protections cyber de Project Glasswing méritent d'être compris, car ils affectent à la fois les calculs de coûts et le comportement du modèle sur les tâches liées à la sécurité.

Pour les développeurs déjà sur Opus 4.6, le chemin de mise à niveau est simple — remplace claude-opus-4-6 par claude-opus-4-7 dans tes API calls. Même prix, plus de capacités.

Liens :

Annonce d'Anthropic : anthropic.com/research/claude-opus-4-7
Documentation de l'API : platform.claude.com/docs
Project Glasswing : anthropic.com/glasswing
Cyber Verification Program : claude.com/form/cyber-use-case

Claude Opus 4.7 : Quoi de neuf et comparaison avec Opus 4.6