Claude Opus 4.7: O que há de novo e como ele se compara ao Opus 4.6

A Anthropic acaba de lançar o Claude Opus 4.7 — seu modelo mais recente e capaz disponível ao público. Se você tem usado o Opus 4.6 para programação, pesquisa ou para criar produtos com IA, aqui está tudo o que mudou e o que as novas capacidades realmente significam na prática.

As principais especificações em resumo

Especificação	Opus 4.7	Opus 4.6
Preço	$5 / M input, $25 / M output	$5 / M input, $25 / M output
Janela de contexto	1M tokens (~555K palavras)	200K tokens
Saída máxima	128K tokens	64K tokens
Conhecimento até	Janeiro de 2026	Agosto de 2025
Modo de pensamento	Adaptive Thinking	Extended Thinking
ID do modelo na API	`claude-opus-4-7`	`claude-opus-4-6-20260205`
Disponibilidade	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

Mesmo preço, contexto maior, o dobro do comprimento de saída e cinco meses de conhecimento mais recente. Na teoria, é uma atualização direta. Vamos analisar o que realmente melhorou por baixo dos panos.

1. Agentic Coding: A principal melhoria

É aqui que o Opus 4.7 mais se destaca. A Anthropic o descreve como "uma melhoria notável em engenharia de software avançada, com ganhos particulares nas tarefas mais difíceis."

O que isso significa concretamente? Três coisas:

Self-verification. O Opus 4.7 não apenas escreve código e o entrega — ele elabora maneiras de verificar suas próprias saídas antes de relatar a conclusão. Se você já teve um agente de IA dizendo "pronto!" quando o código nem compila, você sabe por que isso é importante.

Consistência em tarefas de longa duração. O modelo lida com tarefas complexas e de várias etapas "com rigor e consistência". Modelos anteriores tendiam a perder a coerência em sessões mais longas. O Opus 4.7 mantém o foco.

Seguimento estrito de instruções. Ele presta "atenção precisa às instruções" — o que significa menos casos em que o modelo ignora suas restrições ou se desvia do assunto.

Os números de Benchmark

Os ganhos de desempenho não são marginais. Em benchmarks de programação do mundo real das principais empresas de IA, o Opus 4.7 está mostrando melhorias de dois dígitos e resolvendo problemas que antes estavam fora de alcance:

CursorBench: 70% de resolução (vs 58% do Opus 4.6) — um salto de 12 pontos. A Cursor chama isso de "um salto significativo em capacidades, particularmente em sua autonomia e raciocínio mais criativo."
Benchmark de programação de 93 tarefas da Augment: +13% de resolução em relação ao Opus 4.6, incluindo 4 tarefas que nem o Opus 4.6 nem o Sonnet 4.6 conseguiram resolver. Combinado com menor latência mediana e seguimento estrito de instruções.
Notion Agent: +14% em relação ao Opus 4.6 com menos tokens e um terço dos erros de ferramenta. "O primeiro modelo a passar em nossos testes de necessidade implícita, e ele continua executando mesmo após falhas de ferramenta que antes paralisavam o Opus."
Rakuten-SWE-Bench: 3x mais tarefas de produção resolvidas que o Opus 4.6, com ganhos de dois dígitos em Code Quality e Test Quality.
Warp Terminal Bench: Passou em tarefas nas quais os modelos Claude anteriores haviam falhado, incluindo um bug de concorrência complicado que o Opus 4.6 não conseguiu resolver.
CodeRabbit code review: O recall melhorou em mais de 10%, revelando bugs difíceis de detectar em PRs complexos, enquanto a precisão permaneceu estável. "Um pouco mais rápido que o GPT-5.4 xhigh em nosso harness."
Genspark Super Agent: A maior taxa de qualidade por chamada de ferramenta medida. Melhor resistência a loops (um modelo que entra em loop indefinidamente em 1 a cada 18 consultas desperdiça computação e bloqueia usuários), menor variância e melhor recuperação de erros.

Esses não são benchmarks sintéticos — são cargas de trabalho de produção de empresas que enviam produtos reais. O padrão é consistente: o Opus 4.7 faz mais trabalho, comete menos erros e se recupera melhor quando as coisas dão errado.

2. Vision: Compreensão de imagem em maior resolução

O Opus 4.7 tem uma "visão substancialmente melhor" com suporte a imagens de maior resolução. Isso não se trata apenas de ver imagens com mais clareza — abre casos de uso práticos:

Solve Intelligence relata "grandes melhorias na compreensão multimodal, desde a leitura de estruturas químicas até a interpretação de diagramas técnicos complexos." Eles o estão usando para fluxos de trabalho de patentes em ciências da vida, incluindo redação, tramitação, detecção de infração e mapeamento de invalidez.
Para desenvolvedores que criam ferramentas que processam capturas de tela, diagramas ou mockups de UI, a resolução mais alta significa menos rótulos mal lidos, melhor compreensão do layout e capacidades semelhantes a OCR mais precisas.

3. Saída Criativa e Profissional

A Anthropic diz que o Opus 4.7 é "mais refinado e criativo ao completar tarefas profissionais, produzindo interfaces, slides e documentos de maior qualidade."

O endosso mais entusiasmado vem de um testador que o chamou de "o melhor modelo do mundo para criar dashboards e interfaces ricas em dados. O gosto pelo design é genuinamente surpreendente — ele faz escolhas que eu realmente lançaria em produção. Agora é meu padrão para o dia a dia."

Se você usa o Claude para gerar componentes de UI, apresentações de slides ou layouts de documentos, esta é uma melhoria significativa na qualidade de vida.

4. Adaptive Thinking (Substitui o Extended Thinking)

O Opus 4.6 usava o Extended Thinking — um modo em que o modelo mostra explicitamente sua cadeia de raciocínio. O Opus 4.7 muda para o Adaptive Thinking, que ajusta a profundidade do raciocínio com base na complexidade da tarefa automaticamente.

A diferença prática: você não precisa alternar manualmente os modos de pensamento. O modelo decide quanto raciocínio uma tarefa precisa e aloca recursos de acordo. Perguntas simples recebem respostas rápidas; problemas complexos recebem uma análise mais profunda.

Nota: O Sonnet 4.6 ainda suporta o Extended Thinking. Se você precisa especificamente de cadeias de raciocínio visíveis, o Sonnet continua sendo a opção.

5. Janela de Contexto: 5x maior, novo Tokenizer

O salto de 200K para 1M de tokens é enorme no papel. Isso é aproximadamente 555.000 palavras — o suficiente para caber bases de código inteiras, grandes coleções de documentos ou históricos de conversas extensos.

No entanto, há um detalhe importante: o Opus 4.7 usa um novo tokenizer. O mesmo texto produz mais tokens do que produzia com o tokenizer do Opus 4.6. A Anthropic observa que a janela de 1M corresponde a aproximadamente 555 mil palavras, em comparação com as típicas ~750 mil palavras por milhão de tokens com o tokenizer antigo. Na prática, um prompt que custava 1.000 tokens com o Opus 4.6 pode agora custar cerca de 1.300 tokens com o Opus 4.7. O preço por token não mudou, mas seu custo efetivo por conversa aumenta cerca de 30%. Vale a pena considerar em seu orçamento se você é um usuário pesado da API.

O que isso significa na prática:

Seus prompts consumirão mais tokens do que antes
A "capacidade de texto" efetiva da janela de 1M é aproximadamente equivalente a ~740K tokens no tokenizer antigo
Ainda é uma melhoria significativa em relação aos 200K do Opus 4.6, mas vale a pena estar ciente para estimativas de custo

6. Saída Máxima: Dobrada para 128K

O Opus 4.6 limitava a saída a 64K tokens. O Opus 4.7 dobra isso para 128K. Isso importa para:

Gerar documentos ou relatórios longos em uma única passagem
Geração de código complexo que abrange vários arquivos
Tarefas de análise detalhada onde o modelo anteriormente tinha que truncar sua resposta

Para fluxos de trabalho agênticos onde o modelo precisa produzir diffs extensos ou alterações em múltiplos arquivos, uma saída de 128K é uma melhoria prática.

7. Project Glasswing e Salvaguardas Cibernéticas

O Opus 4.7 é o primeiro modelo lançado sob a estrutura do Project Glasswing da Anthropic. Na semana passada, a Anthropic destacou tanto os riscos quanto os benefícios dos modelos de IA para a cibersegurança e se comprometeu a testar novas salvaguardas em modelos menos capazes antes de lançar amplamente seu modelo mais poderoso, o Claude Mythos Preview.

O que isso significa para o Opus 4.7:

Capacidades cibernéticas reduzidas: Durante o treinamento, a Anthropic "experimentou esforços para reduzir diferencialmente" as capacidades de cibersegurança em comparação com o Mythos Preview.
Salvaguardas automáticas: O modelo inclui detecção integrada que bloqueia solicitações que indicam "usos de cibersegurança proibidos ou de alto risco".
Cyber Verification Program: Profissionais de segurança que realizam trabalho legítimo (pesquisa de vulnerabilidades, pentesting, red-teaming) podem solicitar acesso através do Cyber Verification Program.

Este é o primeiro teste real da Anthropic de controles de capacidade diferencial — tornando intencionalmente um modelo menos capaz em domínios específicos enquanto o melhora em outros. O que eles aprenderem com a implantação do Opus 4.7 moldará como (e quando) eles lançarão modelos da classe Mythos de forma mais ampla.

8. Disponibilidade e Integração

O Opus 4.7 está disponível em todas as principais plataformas desde o primeiro dia:

Claude API — acesso direto via claude-opus-4-7
Amazon Bedrock — anthropic.claude-opus-4-7 (research preview)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — nova adição à plataforma

A adição do Microsoft Foundry é notável — é a primeira vez que um modelo Claude Opus está disponível na plataforma da Microsoft no lançamento.

O que os primeiros testadores dizem

Além dos números de benchmark, o feedback qualitativo de testadores empresariais revela temas consistentes:

Sobre confiabilidade:

Hex: "O modelo mais forte que a Hex já avaliou. Ele relata corretamente quando os dados estão faltando em vez de fornecer alternativas plausíveis, mas incorretas, e resiste a armadilhas de dados dissonantes nas quais até o Opus 4.6 cai."
Devin: "Leva a autonomia de longo prazo a um novo nível. Ele trabalha de forma coerente por horas, avança em problemas difíceis em vez de desistir."

Sobre eficiência:

Replit: "Uma decisão de upgrade fácil. Mesma qualidade a um custo menor — mais eficiente e preciso em tarefas como analisar logs e traces, encontrar bugs e propor correções."
Hex: "O Opus 4.7 de baixo esforço é aproximadamente equivalente ao Opus 4.6 de médio esforço." — o que significa que você obtém a mesma qualidade de saída com menos engenharia de prompt.

Sobre raciocínio:

Harvey (IA jurídica): "90,9% de precisão substantiva no BigLaw Bench com alto esforço e melhor calibração de raciocínio. Ele distingue corretamente cláusulas de cessão de cláusulas de mudança de controle, uma tarefa que historicamente desafiou os modelos de fronteira."
Quantium: "Os maiores ganhos apareceram onde mais importam: profundidade de raciocínio, enquadramento estruturado de problemas e trabalho técnico complexo."

Sobre personalidade:

Replit: "Adoro como ele rebate durante discussões técnicas para me ajudar a tomar decisões melhores. Realmente parece um colega de trabalho melhor."
Descrição da própria Anthropic: O modelo traz "uma perspectiva mais opinativa, em vez de simplesmente concordar com o usuário."

9. Quem já está usando — E o que eles estão construindo

A lista de testadores de acesso antecipado parece um quem é quem das ferramentas de desenvolvimento com IA. Aqui está uma rápida olhada em como diferentes empresas estão colocando o Opus 4.7 para trabalhar:

Agentes de programação e IDEs: Cursor, Replit, Warp e Devin estão todos integrando o Opus 4.7 como seu modelo principal ou de primeira linha para tarefas de programação autônoma. Devin destaca especificamente a "autonomia de longo prazo" — o modelo trabalha de forma coerente por horas em trabalhos de investigação profunda que antes não eram possíveis de forma confiável.

Revisão de código: A CodeRabbit está preparando o Opus 4.7 para seu "trabalho de revisão mais pesado no lançamento", citando uma melhoria de mais de 10% no recall de bugs difíceis de detectar em pull requests complexos.

Plataformas de IA empresariais: A Hebbia viu saltos de dois dígitos na precisão das chamadas de ferramentas e no planejamento para agentes orquestradores que lidam com recuperação, criação de slides e geração de documentos. A Genspark relata a maior taxa de qualidade por chamada de ferramenta que já mediram em qualquer modelo.

Jurídico e financeiro: A Harvey relata 90,9% de precisão substantiva no BigLaw Bench. A Hex o chama de "o modelo mais forte que a Hex já avaliou" — ele relata corretamente dados ausentes em vez de alucinar alternativas plausíveis, e resiste a armadilhas de dados nas quais até o Opus 4.6 caía. Um testador de fintech o descreve como pegando "suas próprias falhas lógicas durante a fase de planejamento."

Ciências da vida: A Solve Intelligence está usando as capacidades de visão aprimoradas para fluxos de trabalho de patentes — lendo estruturas químicas, interpretando diagramas técnicos e lidando com tudo, desde a redação até a detecção de infrações.

Visualização de dados: Um testador o chamou de "o melhor modelo do mundo para criar dashboards e interfaces ricas em dados", observando que "o gosto pelo design é genuinamente surpreendente — ele faz escolhas que eu realmente lançaria em produção."

A amplitude da adoção é notável. Este não é apenas um modelo de programação — está sendo implantado nos setores jurídico, financeiro, de ciências da vida e de automação empresarial. O fio condutor: tarefas que exigem raciocínio sustentado, uso preciso de ferramentas e saída confiável em sessões longas.

Opus 4.7 vs Opus 4.6: Resumo

Capacidade	Opus 4.6	Opus 4.7	Mudança
Agentic coding	Forte	Significativamente mais forte	+12-14% nos principais benchmarks
Self-verification	Limitada	Integrada	Nova capacidade
Vision	Padrão	Maior resolução	Melhoria substancial
Saída criativa	Boa	"Mais refinada"	Melhoria de qualidade
Janela de contexto	200K	1M	5x maior
Saída máxima	64K	128K	2x maior
Modo de pensamento	Extended	Adaptive	Profundidade autoajustável
Conhecimento até	Ago 2025	Jan 2026	5 meses mais recente
Recuperação de erro de ferramenta	Para na falha	Continua	Grande ganho de confiabilidade
Salvaguardas cibernéticas	Nenhuma	Project Glasswing	Nova estrutura de segurança
Preço	$5/$25 por M tokens	$5/$25 por M tokens	Inalterado

Conclusão

O Claude Opus 4.7 é uma atualização focada que reforça ainda mais aquilo em que o Opus já era bom — trabalho de programação complexo e autônomo — ao mesmo tempo que adiciona melhorias significativas à visão, ao comprimento da saída e à capacidade de contexto.

As maiores vitórias estão na confiabilidade agêntica: self-verification, recuperação de erros de ferramentas e consistência em tarefas de longa duração. Se você está construindo ferramentas de desenvolvimento com IA ou usando o Claude para o trabalho diário de programação, essas melhorias se traduzem diretamente em menos tarefas com falha e menos supervisão.

O novo tokenizer e as salvaguardas cibernéticas do Project Glasswing são importantes de se entender, pois afetam tanto os cálculos de custo quanto o comportamento do modelo em tarefas relacionadas à segurança.

Para desenvolvedores que já estão no Opus 4.6, o caminho de atualização é simples — troque claude-opus-4-6 por claude-opus-4-7 em suas chamadas de API. Mesmo preço, mais capacidade.

Links:

Anúncio da Anthropic: anthropic.com/research/claude-opus-4-7
Documentação da API: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7: O que há de novo e como se compara ao Opus 4.6