Claude Opus 4.7: Qué hay de nuevo y cómo se compara con Opus 4.6
Claude Opus 4.7: Qué hay de nuevo y cómo se compara con Opus 4.6 Anthropic acaba de lanzar Claude Opus 4.7, su último modelo y el más capaz disponible para el...
4/17/2026

Claude Opus 4.7: Qué hay de nuevo y cómo se compara con Opus 4.6
Anthropic acaba de lanzar Claude Opus 4.7, su último modelo y el más capaz disponible para el público general. Si has estado usando Opus 4.6 para programar, investigar o crear productos impulsados por IA, aquí tienes todo lo que ha cambiado y lo que estas nuevas capacidades significan en la práctica.
Las especificaciones clave de un vistazo
| Especificación | Opus 4.7 | Opus 4.6 |
|---|---|---|
| Precio | $5 / M input, $25 / M output | $5 / M input, $25 / M output |
| Ventana de contexto | 1M tokens (~555K palabras) | 200K tokens |
| Salida máxima | 128K tokens | 64K tokens |
| Fecha de corte de conocimiento | Enero de 2026 | Agosto de 2025 |
| Modo de pensamiento | Adaptive Thinking | Extended Thinking |
| ID del modelo de API | claude-opus-4-7 | claude-opus-4-6-20260205 |
| Disponibilidad | API, Bedrock, Vertex AI, Foundry | API, Bedrock, Vertex AI |
Mismo precio, contexto más grande, el doble de longitud de salida y cinco meses de conocimiento más reciente. Sobre el papel, es una actualización directa. Profundicemos en lo que realmente ha mejorado internamente.
1. Agentic Coding: La mejora principal
Aquí es donde Opus 4.7 brilla con más fuerza. Anthropic lo describe como "una mejora notable en la ingeniería de software avanzada, con ganancias particulares en las tareas más difíciles".
¿Qué significa eso concretamente? Tres cosas:
Self-verification. Opus 4.7 no solo escribe código y te lo entrega, sino que idea formas de verificar sus propias salidas antes de dar la tarea por completada. Si alguna vez un agente de IA te ha dicho "¡listo!" cuando el código en realidad no compila, sabes por qué esto es importante.
Long-running task consistency. El modelo maneja tareas complejas y de múltiples pasos "con rigor y consistencia". Los modelos anteriores tendían a perder coherencia en sesiones más largas. Opus 4.7 se mantiene en el camino correcto.
Strict instruction following. Presta "atención precisa a las instrucciones", lo que significa menos casos en los que el modelo ignora tus restricciones o se desvía del tema.
Las cifras de los benchmarks
Las ganancias de rendimiento no son marginales. En benchmarks de programación del mundo real de las principales compañías de IA, Opus 4.7 está mostrando mejoras de dos dígitos y resolviendo problemas que antes estaban fuera de su alcance:
-
CursorBench: 70% de resolución (frente al 58% de Opus 4.6): un salto de 12 puntos. Cursor lo llama "un salto significativo en capacidades, particularmente por su autonomía y razonamiento más creativo".
-
Benchmark de programación de 93 tareas de Augment: +13% de resolución sobre Opus 4.6, incluyendo 4 tareas que ni Opus 4.6 ni Sonnet 4.6 pudieron resolver. Combinado con una
latencymedia más rápida y unstrict instruction following. -
Notion Agent: +14% sobre Opus 4.6 con menos
tokensy un tercio de los errores de herramientas. "El primer modelo en pasar nuestras pruebas de necesidad implícita, y sigue ejecutando a pesar de fallos de herramientas que antes detenían a Opus en seco". -
Rakuten-SWE-Bench: 3 veces más tareas de producción resueltas que Opus 4.6, con ganancias de dos dígitos en Calidad de Código y Calidad de Pruebas.
-
Warp Terminal Bench: Superó tareas que los modelos anteriores de Claude habían fallado, incluyendo un complicado
bugde concurrencia que Opus 4.6 no pudo resolver. -
Revisión de código de CodeRabbit: El
recallmejoró en más de un 10%, sacando a la luzbugsdifíciles de detectar en PRs complejos, mientras que laprecisionse mantuvo estable. "Un poco más rápido que GPT-5.4 xhigh en nuestroharness". -
Genspark Super Agent: El ratio de calidad por llamada de herramienta más alto medido. La mejor resistencia a los bucles (
loop resistance) (un modelo que entra en bucle indefinidamente en 1 de cada 18 consultas desperdicia cómputo y bloquea a los usuarios), la varianza más baja y la mejor recuperación elegante de errores.
Estos no son benchmarks sintéticos, son cargas de trabajo de producción de empresas que lanzan productos reales. El patrón es consistente: Opus 4.7 hace más trabajo, comete menos errores y se recupera mejor cuando las cosas van mal.
2. Visión: Comprensión de imágenes en mayor resolución
Opus 4.7 tiene "una visión sustancialmente mejor" con soporte para imágenes de mayor resolución. Esto no es solo para ver imágenes más claras, sino que abre casos de uso prácticos:
-
Solve Intelligence informa "mejoras importantes en la comprensión
multimodal, desde la lectura de estructuras químicas hasta la interpretación de diagramas técnicos complejos". Lo están utilizando para flujos de trabajo de patentes en ciencias de la vida, incluyendo la redacción, tramitación, detección de infracciones y elaboración de tablas de invalidez. -
Para los desarrolladores que crean herramientas que procesan capturas de pantalla, diagramas o
mockupsde UI, la mayor resolución significa menos etiquetas mal leídas, una mejor comprensión del diseño y capacidades más precisas similares alOCR.
3. Salida creativa y profesional
Anthropic dice que Opus 4.7 es "más refinado y creativo al completar tareas profesionales, produciendo interfaces, diapositivas y documentos de mayor calidad".
El respaldo más entusiasta proviene de un probador que lo llamó "el mejor modelo del mundo para crear dashboards e interfaces ricas en datos. El gusto por el diseño es genuinamente sorprendente: toma decisiones que yo realmente publicaría en producción. Ahora es mi herramienta por defecto para el día a día".
Si usas Claude para generar componentes de UI, presentaciones de diapositivas o diseños de documentos, esta es una mejora significativa en la calidad de vida.
4. Adaptive Thinking (Reemplaza a Extended Thinking)
Opus 4.6 usaba Extended Thinking, un modo en el que el modelo muestra explícitamente su cadena de razonamiento. Opus 4.7 cambia a Adaptive Thinking, que ajusta automáticamente la profundidad del razonamiento según la complejidad de la tarea.
La diferencia práctica: no necesitas activar y desactivar manualmente los modos de pensamiento. El modelo decide cuánto razonamiento necesita una tarea y lo asigna en consecuencia. Las preguntas simples obtienen respuestas rápidas; los problemas complejos obtienen un análisis más profundo.
Nota: Sonnet 4.6 todavía es compatible con Extended Thinking. Si necesitas específicamente cadenas de razonamiento visibles, Sonnet sigue siendo la opción.
5. Ventana de contexto: 5 veces más grande, nuevo tokenizer
El salto de 200K a 1M de tokens es enorme sobre el papel. Eso equivale a unas 555.000 palabras, suficiente para incluir bases de código enteras, largas colecciones de documentos o historiales de conversación extensos.
Sin embargo, hay un detalle importante: Opus 4.7 usa un nuevo tokenizer. El mismo texto produce más tokens que con el tokenizer de Opus 4.6. Anthropic señala que la ventana de 1M corresponde a aproximadamente 555K palabras, en comparación con las ~750K palabras por millón de tokens con el tokenizer antiguo. En la práctica, un prompt que te costaba 1.000 tokens con Opus 4.6 ahora podría costar alrededor de 1.300 tokens con Opus 4.7. El precio por token no ha cambiado, pero tu coste efectivo por conversación aumenta aproximadamente un 30%. Vale la pena tenerlo en cuenta en tu presupuesto si eres un usuario intensivo de la API.
Lo que esto significa en la práctica:
- Tus
promptsconsumirán mástokensque antes. - La "capacidad de texto" efectiva de la ventana de 1M es aproximadamente equivalente a ~740K
tokenscon eltokenizerantiguo. - Sigue siendo una mejora significativa respecto a los 200K de Opus 4.6, pero es algo a tener en cuenta para la estimación de costes.
6. Salida máxima: Duplicada a 128K
Opus 4.6 limitaba la salida a 64K tokens. Opus 4.7 duplica esa cifra a 128K. Esto es importante para:
- Generar documentos o informes largos en una sola pasada.
- Generación de código complejo que abarca múltiples archivos.
- Tareas de análisis detallado donde el modelo antes tenía que truncar su respuesta.
Para los flujos de trabajo agénticos donde el modelo necesita producir diffs extensos o cambios en múltiples archivos, una salida de 128K es una mejora práctica.
7. Project Glasswing y salvaguardas cibernéticas
Opus 4.7 es el primer modelo lanzado bajo el marco de Project Glasswing de Anthropic. La semana pasada, Anthropic destacó tanto los riesgos como los beneficios de los modelos de IA para la ciberseguridad, y se comprometió a probar nuevas salvaguardas en modelos menos capaces antes de lanzar ampliamente su modelo más potente, Claude Mythos Preview.
Lo que esto significa para Opus 4.7:
- Capacidades cibernéticas reducidas: Durante el entrenamiento, Anthropic "experimentó con esfuerzos para reducir diferencialmente" las capacidades de ciberseguridad en comparación con Mythos Preview.
- Salvaguardas automáticas: El modelo incluye una detección integrada que bloquea solicitudes que indican "usos de ciberseguridad prohibidos o de alto riesgo".
- Cyber Verification Program: Los profesionales de la seguridad que realizan un trabajo legítimo (
vulnerability research,pentesting,red-teaming) pueden solicitar acceso a través del Cyber Verification Program.
Esta es la primera prueba en el mundo real de Anthropic de los controles de capacidad diferencial (differential capability controls), haciendo intencionadamente un modelo menos capaz en dominios específicos mientras se mejora en otros. Lo que aprendan del despliegue de Opus 4.7 dará forma a cómo (y cuándo) lanzarán modelos de la clase Mythos de forma más amplia.
8. Disponibilidad e integración
Opus 4.7 está disponible en todas las principales plataformas desde el primer día:
- Claude API — acceso directo a través de
claude-opus-4-7 - Amazon Bedrock —
anthropic.claude-opus-4-7(research preview) - Google Cloud Vertex AI —
claude-opus-4-7 - Microsoft Foundry — nueva adición a la plataforma
La incorporación de Microsoft Foundry es notable: es la primera vez que un modelo Claude Opus está disponible en la plataforma de Microsoft en su lanzamiento.
Lo que dicen los primeros probadores
Más allá de las cifras de los benchmarks, los comentarios cualitativos de los probadores empresariales revelan temas consistentes:
Sobre la fiabilidad:
- Hex: "El modelo más sólido que Hex ha evaluado. Informa correctamente cuando faltan datos en lugar de proporcionar alternativas plausibles pero incorrectas, y resiste trampas de datos disonantes en las que incluso Opus 4.6 cae".
- Devin: "Lleva la autonomía a largo plazo a un nuevo nivel. Funciona de manera coherente durante horas, supera problemas difíciles en lugar de rendirse".
Sobre la eficiencia:
- Replit: "Una decisión de actualización fácil. Misma calidad a menor coste: más eficiente y preciso en tareas como analizar
logsytraces, encontrarbugsy proponer correcciones". - Hex: "Opus 4.7 con bajo esfuerzo es aproximadamente equivalente a Opus 4.6 con esfuerzo medio", lo que significa que obtienes la misma calidad de salida con menos ingeniería de
prompts.
Sobre el razonamiento:
- Harvey (IA legal): "90.9% de precisión sustantiva en BigLaw Bench con alto esfuerzo y mejor calibración del razonamiento. Distingue correctamente las cláusulas de cesión de las cláusulas de cambio de control, una tarea que históricamente ha desafiado a los modelos de frontera".
- Quantium: "Las mayores ganancias aparecieron donde más importan: profundidad de razonamiento, estructuración de problemas y trabajo técnico complejo".
Sobre la personalidad:
- Replit: "Me encanta cómo debate durante las discusiones técnicas para ayudarme a tomar mejores decisiones. Realmente se siente como un mejor compañero de trabajo".
- La propia descripción de Anthropic: El modelo aporta "una perspectiva con más opinión, en lugar de simplemente estar de acuerdo con el usuario".
9. Quién ya lo está usando y qué están construyendo
La lista de probadores de acceso anticipado parece un who's-who de las herramientas de desarrollo impulsadas por IA. Aquí tienes un vistazo rápido de cómo diferentes compañías están poniendo Opus 4.7 a trabajar:
Agentes de programación e IDEs: Cursor, Replit, Warp y Devin están integrando Opus 4.7 como su modelo principal o de primer nivel para tareas de programación autónomas. Devin destaca específicamente la "autonomía a largo plazo": el modelo funciona de manera coherente durante horas en trabajos de investigación profundos que antes no eran posibles de forma fiable.
Revisión de código: CodeRabbit está preparando Opus 4.7 para su "trabajo de revisión más pesado en el lanzamiento", citando una mejora del 10% en el recall en bugs difíciles de detectar en pull requests complejos.
Plataformas de IA empresarial: Hebbia vio saltos de dos dígitos en la precisión de las llamadas a herramientas y en la planificación para agentes orquestadores que gestionan la recuperación, la creación de diapositivas y la generación de documentos. Genspark informa del ratio de calidad por llamada de herramienta más alto que han medido en cualquier modelo.
Legal y finanzas: Harvey informa de un 90.9% de precisión sustantiva en BigLaw Bench. Hex lo llama "el modelo más sólido que Hex ha evaluado": informa correctamente de los datos faltantes en lugar de alucinar alternativas plausibles, y resiste trampas de datos en las que incluso Opus 4.6 caía. Un probador de fintech lo describe como capaz de detectar "sus propios fallos lógicos durante la fase de planificación".
Ciencias de la vida: Solve Intelligence está utilizando las capacidades de visión mejoradas para los flujos de trabajo de patentes: leer estructuras químicas, interpretar diagramas técnicos y manejar todo, desde la redacción hasta la detección de infracciones.
Visualización de datos: Un probador lo llamó "el mejor modelo del mundo para construir dashboards e interfaces ricas en datos", señalando que "el gusto por el diseño es genuinamente sorprendente: toma decisiones que yo realmente publicaría en producción".
La amplitud de la adopción es notable. No es solo un modelo de programación, se está desplegando en los sectores legal, financiero, de ciencias de la vida y de automatización empresarial. El hilo conductor: tareas que requieren un razonamiento sostenido, un uso preciso de herramientas y una salida fiable en sesiones largas.
Opus 4.7 vs Opus 4.6: Resumen
| Capacidad | Opus 4.6 | Opus 4.7 | Cambio |
|---|---|---|---|
Agentic coding | Fuerte | Significativamente más fuerte | +12-14% en benchmarks importantes |
Self-verification | Limitada | Integrada | Nueva capacidad |
| Visión | Estándar | Mayor resolución | Mejora sustancial |
| Salida creativa | Buena | "Más refinada" | Mejora de calidad |
| Ventana de contexto | 200K | 1M | 5 veces más grande |
| Salida máxima | 64K | 128K | 2 veces más grande |
| Modo de pensamiento | Extended | Adaptive | Profundidad autoajustable |
| Fecha de corte de conocimiento | Ago 2025 | Ene 2026 | 5 meses más reciente |
| Recuperación de error de herramienta | Se detiene ante el fallo | Sigue adelante | Ganancia importante de fiabilidad |
| Salvaguardas cibernéticas | Ninguna | Project Glasswing | Nuevo marco de seguridad |
| Precio | $5/$25 por M tokens | $5/$25 por M tokens | Sin cambios |
Conclusión
Claude Opus 4.7 es una actualización enfocada que refuerza aquello en lo que Opus ya era bueno —el trabajo de programación complejo y autónomo— mientras añade mejoras significativas a la visión, la longitud de la salida y la capacidad de contexto.
Las mayores victorias están en la fiabilidad agéntica: self-verification, recuperación de errores de herramientas y consistencia en tareas de larga duración. Si estás construyendo herramientas de desarrollo impulsadas por IA o usando Claude para tu trabajo diario de programación, estas mejoras se traducen directamente en menos tareas fallidas y menos necesidad de supervisión.
El nuevo tokenizer y las salvaguardas cibernéticas del Project Glasswing son dignos de comprensión, ya que afectan tanto a los cálculos de costes como al comportamiento del modelo en tareas relacionadas con la seguridad.
Para los desarrolladores que ya están en Opus 4.6, el camino de actualización es simple: cambia claude-opus-4-6 por claude-opus-4-7 en tus llamadas a la API. Mismo precio, más capacidad.
Enlaces:
- Anuncio de Anthropic: anthropic.com/research/claude-opus-4-7
- Documentación de la API: platform.claude.com/docs
- Project Glasswing: anthropic.com/glasswing
- Cyber Verification Program: claude.com/form/cyber-use-case