Claude Opus 4.7: Qué hay de nuevo y cómo se compara con Opus 4.6

Anthropic acaba de lanzar Claude Opus 4.7, su último modelo y el más capaz disponible para el público general. Si has estado usando Opus 4.6 para programar, investigar o crear productos impulsados por IA, aquí tienes todo lo que ha cambiado y lo que estas nuevas capacidades significan en la práctica.

Las especificaciones clave de un vistazo

Especificación	Opus 4.7	Opus 4.6
Precio	$5 / M input, $25 / M output	$5 / M input, $25 / M output
Ventana de contexto	1M tokens (~555K palabras)	200K tokens
Salida máxima	128K tokens	64K tokens
Fecha de corte de conocimiento	Enero de 2026	Agosto de 2025
Modo de pensamiento	Adaptive Thinking	Extended Thinking
ID del modelo de API	`claude-opus-4-7`	`claude-opus-4-6-20260205`
Disponibilidad	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

Mismo precio, contexto más grande, el doble de longitud de salida y cinco meses de conocimiento más reciente. Sobre el papel, es una actualización directa. Profundicemos en lo que realmente ha mejorado internamente.

1. Agentic Coding: La mejora principal

Aquí es donde Opus 4.7 brilla con más fuerza. Anthropic lo describe como "una mejora notable en la ingeniería de software avanzada, con ganancias particulares en las tareas más difíciles".

¿Qué significa eso concretamente? Tres cosas:

Self-verification. Opus 4.7 no solo escribe código y te lo entrega, sino que idea formas de verificar sus propias salidas antes de dar la tarea por completada. Si alguna vez un agente de IA te ha dicho "¡listo!" cuando el código en realidad no compila, sabes por qué esto es importante.

Long-running task consistency. El modelo maneja tareas complejas y de múltiples pasos "con rigor y consistencia". Los modelos anteriores tendían a perder coherencia en sesiones más largas. Opus 4.7 se mantiene en el camino correcto.

Strict instruction following. Presta "atención precisa a las instrucciones", lo que significa menos casos en los que el modelo ignora tus restricciones o se desvía del tema.

Las cifras de los benchmarks

Las ganancias de rendimiento no son marginales. En benchmarks de programación del mundo real de las principales compañías de IA, Opus 4.7 está mostrando mejoras de dos dígitos y resolviendo problemas que antes estaban fuera de su alcance:

CursorBench: 70% de resolución (frente al 58% de Opus 4.6): un salto de 12 puntos. Cursor lo llama "un salto significativo en capacidades, particularmente por su autonomía y razonamiento más creativo".
Benchmark de programación de 93 tareas de Augment: +13% de resolución sobre Opus 4.6, incluyendo 4 tareas que ni Opus 4.6 ni Sonnet 4.6 pudieron resolver. Combinado con una latency media más rápida y un strict instruction following.
Notion Agent: +14% sobre Opus 4.6 con menos tokens y un tercio de los errores de herramientas. "El primer modelo en pasar nuestras pruebas de necesidad implícita, y sigue ejecutando a pesar de fallos de herramientas que antes detenían a Opus en seco".
Rakuten-SWE-Bench: 3 veces más tareas de producción resueltas que Opus 4.6, con ganancias de dos dígitos en Calidad de Código y Calidad de Pruebas.
Warp Terminal Bench: Superó tareas que los modelos anteriores de Claude habían fallado, incluyendo un complicado bug de concurrencia que Opus 4.6 no pudo resolver.
Revisión de código de CodeRabbit: El recall mejoró en más de un 10%, sacando a la luz bugs difíciles de detectar en PRs complejos, mientras que la precision se mantuvo estable. "Un poco más rápido que GPT-5.4 xhigh en nuestro harness".
Genspark Super Agent: El ratio de calidad por llamada de herramienta más alto medido. La mejor resistencia a los bucles (loop resistance) (un modelo que entra en bucle indefinidamente en 1 de cada 18 consultas desperdicia cómputo y bloquea a los usuarios), la varianza más baja y la mejor recuperación elegante de errores.

Estos no son benchmarks sintéticos, son cargas de trabajo de producción de empresas que lanzan productos reales. El patrón es consistente: Opus 4.7 hace más trabajo, comete menos errores y se recupera mejor cuando las cosas van mal.

2. Visión: Comprensión de imágenes en mayor resolución

Opus 4.7 tiene "una visión sustancialmente mejor" con soporte para imágenes de mayor resolución. Esto no es solo para ver imágenes más claras, sino que abre casos de uso prácticos:

Solve Intelligence informa "mejoras importantes en la comprensión multimodal, desde la lectura de estructuras químicas hasta la interpretación de diagramas técnicos complejos". Lo están utilizando para flujos de trabajo de patentes en ciencias de la vida, incluyendo la redacción, tramitación, detección de infracciones y elaboración de tablas de invalidez.
Para los desarrolladores que crean herramientas que procesan capturas de pantalla, diagramas o mockups de UI, la mayor resolución significa menos etiquetas mal leídas, una mejor comprensión del diseño y capacidades más precisas similares al OCR.

3. Salida creativa y profesional

Anthropic dice que Opus 4.7 es "más refinado y creativo al completar tareas profesionales, produciendo interfaces, diapositivas y documentos de mayor calidad".

El respaldo más entusiasta proviene de un probador que lo llamó "el mejor modelo del mundo para crear dashboards e interfaces ricas en datos. El gusto por el diseño es genuinamente sorprendente: toma decisiones que yo realmente publicaría en producción. Ahora es mi herramienta por defecto para el día a día".

Si usas Claude para generar componentes de UI, presentaciones de diapositivas o diseños de documentos, esta es una mejora significativa en la calidad de vida.

4. Adaptive Thinking (Reemplaza a Extended Thinking)

Opus 4.6 usaba Extended Thinking, un modo en el que el modelo muestra explícitamente su cadena de razonamiento. Opus 4.7 cambia a Adaptive Thinking, que ajusta automáticamente la profundidad del razonamiento según la complejidad de la tarea.

La diferencia práctica: no necesitas activar y desactivar manualmente los modos de pensamiento. El modelo decide cuánto razonamiento necesita una tarea y lo asigna en consecuencia. Las preguntas simples obtienen respuestas rápidas; los problemas complejos obtienen un análisis más profundo.

Nota: Sonnet 4.6 todavía es compatible con Extended Thinking. Si necesitas específicamente cadenas de razonamiento visibles, Sonnet sigue siendo la opción.

5. Ventana de contexto: 5 veces más grande, nuevo `tokenizer`

El salto de 200K a 1M de tokens es enorme sobre el papel. Eso equivale a unas 555.000 palabras, suficiente para incluir bases de código enteras, largas colecciones de documentos o historiales de conversación extensos.

Sin embargo, hay un detalle importante: Opus 4.7 usa un nuevo tokenizer. El mismo texto produce más tokens que con el tokenizer de Opus 4.6. Anthropic señala que la ventana de 1M corresponde a aproximadamente 555K palabras, en comparación con las ~750K palabras por millón de tokens con el tokenizer antiguo. En la práctica, un prompt que te costaba 1.000 tokens con Opus 4.6 ahora podría costar alrededor de 1.300 tokens con Opus 4.7. El precio por token no ha cambiado, pero tu coste efectivo por conversación aumenta aproximadamente un 30%. Vale la pena tenerlo en cuenta en tu presupuesto si eres un usuario intensivo de la API.

Lo que esto significa en la práctica:

Tus prompts consumirán más tokens que antes.
La "capacidad de texto" efectiva de la ventana de 1M es aproximadamente equivalente a ~740K tokens con el tokenizer antiguo.
Sigue siendo una mejora significativa respecto a los 200K de Opus 4.6, pero es algo a tener en cuenta para la estimación de costes.

6. Salida máxima: Duplicada a 128K

Opus 4.6 limitaba la salida a 64K tokens. Opus 4.7 duplica esa cifra a 128K. Esto es importante para:

Generar documentos o informes largos en una sola pasada.
Generación de código complejo que abarca múltiples archivos.
Tareas de análisis detallado donde el modelo antes tenía que truncar su respuesta.

Para los flujos de trabajo agénticos donde el modelo necesita producir diffs extensos o cambios en múltiples archivos, una salida de 128K es una mejora práctica.

7. Project Glasswing y salvaguardas cibernéticas

Opus 4.7 es el primer modelo lanzado bajo el marco de Project Glasswing de Anthropic. La semana pasada, Anthropic destacó tanto los riesgos como los beneficios de los modelos de IA para la ciberseguridad, y se comprometió a probar nuevas salvaguardas en modelos menos capaces antes de lanzar ampliamente su modelo más potente, Claude Mythos Preview.

Lo que esto significa para Opus 4.7:

Capacidades cibernéticas reducidas: Durante el entrenamiento, Anthropic "experimentó con esfuerzos para reducir diferencialmente" las capacidades de ciberseguridad en comparación con Mythos Preview.
Salvaguardas automáticas: El modelo incluye una detección integrada que bloquea solicitudes que indican "usos de ciberseguridad prohibidos o de alto riesgo".
Cyber Verification Program: Los profesionales de la seguridad que realizan un trabajo legítimo (vulnerability research, pentesting, red-teaming) pueden solicitar acceso a través del Cyber Verification Program.

Esta es la primera prueba en el mundo real de Anthropic de los controles de capacidad diferencial (differential capability controls), haciendo intencionadamente un modelo menos capaz en dominios específicos mientras se mejora en otros. Lo que aprendan del despliegue de Opus 4.7 dará forma a cómo (y cuándo) lanzarán modelos de la clase Mythos de forma más amplia.

8. Disponibilidad e integración

Opus 4.7 está disponible en todas las principales plataformas desde el primer día:

Claude API — acceso directo a través de claude-opus-4-7
Amazon Bedrock — anthropic.claude-opus-4-7 (research preview)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — nueva adición a la plataforma

La incorporación de Microsoft Foundry es notable: es la primera vez que un modelo Claude Opus está disponible en la plataforma de Microsoft en su lanzamiento.

Lo que dicen los primeros probadores

Más allá de las cifras de los benchmarks, los comentarios cualitativos de los probadores empresariales revelan temas consistentes:

Sobre la fiabilidad:

Hex: "El modelo más sólido que Hex ha evaluado. Informa correctamente cuando faltan datos en lugar de proporcionar alternativas plausibles pero incorrectas, y resiste trampas de datos disonantes en las que incluso Opus 4.6 cae".
Devin: "Lleva la autonomía a largo plazo a un nuevo nivel. Funciona de manera coherente durante horas, supera problemas difíciles en lugar de rendirse".

Sobre la eficiencia:

Replit: "Una decisión de actualización fácil. Misma calidad a menor coste: más eficiente y preciso en tareas como analizar logs y traces, encontrar bugs y proponer correcciones".
Hex: "Opus 4.7 con bajo esfuerzo es aproximadamente equivalente a Opus 4.6 con esfuerzo medio", lo que significa que obtienes la misma calidad de salida con menos ingeniería de prompts.

Sobre el razonamiento:

Harvey (IA legal): "90.9% de precisión sustantiva en BigLaw Bench con alto esfuerzo y mejor calibración del razonamiento. Distingue correctamente las cláusulas de cesión de las cláusulas de cambio de control, una tarea que históricamente ha desafiado a los modelos de frontera".
Quantium: "Las mayores ganancias aparecieron donde más importan: profundidad de razonamiento, estructuración de problemas y trabajo técnico complejo".

Sobre la personalidad:

Replit: "Me encanta cómo debate durante las discusiones técnicas para ayudarme a tomar mejores decisiones. Realmente se siente como un mejor compañero de trabajo".
La propia descripción de Anthropic: El modelo aporta "una perspectiva con más opinión, en lugar de simplemente estar de acuerdo con el usuario".

9. Quién ya lo está usando y qué están construyendo

La lista de probadores de acceso anticipado parece un who's-who de las herramientas de desarrollo impulsadas por IA. Aquí tienes un vistazo rápido de cómo diferentes compañías están poniendo Opus 4.7 a trabajar:

Agentes de programación e IDEs: Cursor, Replit, Warp y Devin están integrando Opus 4.7 como su modelo principal o de primer nivel para tareas de programación autónomas. Devin destaca específicamente la "autonomía a largo plazo": el modelo funciona de manera coherente durante horas en trabajos de investigación profundos que antes no eran posibles de forma fiable.

Revisión de código: CodeRabbit está preparando Opus 4.7 para su "trabajo de revisión más pesado en el lanzamiento", citando una mejora del 10% en el recall en bugs difíciles de detectar en pull requests complejos.

Plataformas de IA empresarial: Hebbia vio saltos de dos dígitos en la precisión de las llamadas a herramientas y en la planificación para agentes orquestadores que gestionan la recuperación, la creación de diapositivas y la generación de documentos. Genspark informa del ratio de calidad por llamada de herramienta más alto que han medido en cualquier modelo.

Legal y finanzas: Harvey informa de un 90.9% de precisión sustantiva en BigLaw Bench. Hex lo llama "el modelo más sólido que Hex ha evaluado": informa correctamente de los datos faltantes en lugar de alucinar alternativas plausibles, y resiste trampas de datos en las que incluso Opus 4.6 caía. Un probador de fintech lo describe como capaz de detectar "sus propios fallos lógicos durante la fase de planificación".

Ciencias de la vida: Solve Intelligence está utilizando las capacidades de visión mejoradas para los flujos de trabajo de patentes: leer estructuras químicas, interpretar diagramas técnicos y manejar todo, desde la redacción hasta la detección de infracciones.

Visualización de datos: Un probador lo llamó "el mejor modelo del mundo para construir dashboards e interfaces ricas en datos", señalando que "el gusto por el diseño es genuinamente sorprendente: toma decisiones que yo realmente publicaría en producción".

La amplitud de la adopción es notable. No es solo un modelo de programación, se está desplegando en los sectores legal, financiero, de ciencias de la vida y de automatización empresarial. El hilo conductor: tareas que requieren un razonamiento sostenido, un uso preciso de herramientas y una salida fiable en sesiones largas.

Opus 4.7 vs Opus 4.6: Resumen

Capacidad	Opus 4.6	Opus 4.7	Cambio
`Agentic coding`	Fuerte	Significativamente más fuerte	+12-14% en `benchmarks` importantes
`Self-verification`	Limitada	Integrada	Nueva capacidad
Visión	Estándar	Mayor resolución	Mejora sustancial
Salida creativa	Buena	"Más refinada"	Mejora de calidad
Ventana de contexto	200K	1M	5 veces más grande
Salida máxima	64K	128K	2 veces más grande
Modo de pensamiento	Extended	Adaptive	Profundidad autoajustable
Fecha de corte de conocimiento	Ago 2025	Ene 2026	5 meses más reciente
Recuperación de error de herramienta	Se detiene ante el fallo	Sigue adelante	Ganancia importante de fiabilidad
Salvaguardas cibernéticas	Ninguna	Project Glasswing	Nuevo marco de seguridad
Precio	$5/$25 por M tokens	$5/$25 por M tokens	Sin cambios

Conclusión

Claude Opus 4.7 es una actualización enfocada que refuerza aquello en lo que Opus ya era bueno —el trabajo de programación complejo y autónomo— mientras añade mejoras significativas a la visión, la longitud de la salida y la capacidad de contexto.

Las mayores victorias están en la fiabilidad agéntica: self-verification, recuperación de errores de herramientas y consistencia en tareas de larga duración. Si estás construyendo herramientas de desarrollo impulsadas por IA o usando Claude para tu trabajo diario de programación, estas mejoras se traducen directamente en menos tareas fallidas y menos necesidad de supervisión.

El nuevo tokenizer y las salvaguardas cibernéticas del Project Glasswing son dignos de comprensión, ya que afectan tanto a los cálculos de costes como al comportamiento del modelo en tareas relacionadas con la seguridad.

Para los desarrolladores que ya están en Opus 4.6, el camino de actualización es simple: cambia claude-opus-4-6 por claude-opus-4-7 en tus llamadas a la API. Mismo precio, más capacidad.

Enlaces:

Anuncio de Anthropic: anthropic.com/research/claude-opus-4-7
Documentación de la API: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7: Qué hay de nuevo y cómo se compara con Opus 4.6

Claude Opus 4.7: Qué hay de nuevo y cómo se compara con Opus 4.6

Las especificaciones clave de un vistazo

1. Agentic Coding: La mejora principal

Las cifras de los benchmarks

2. Visión: Comprensión de imágenes en mayor resolución

3. Salida creativa y profesional

4. Adaptive Thinking (Reemplaza a Extended Thinking)

5. Ventana de contexto: 5 veces más grande, nuevo tokenizer

6. Salida máxima: Duplicada a 128K

7. Project Glasswing y salvaguardas cibernéticas

8. Disponibilidad e integración

Lo que dicen los primeros probadores

9. Quién ya lo está usando y qué están construyendo

Opus 4.7 vs Opus 4.6: Resumen

Conclusión

5. Ventana de contexto: 5 veces más grande, nuevo `tokenizer`