Opus 4.7 domina en vim golf frente a Opus 4.6

Claude Opus 4.7 es el modelo más capaz de Anthropic disponible al público, lanzado el 16 de abril de 2026. En benchmarks de programación, Opus 4.7 vs Opus 4.6 programación muestra una brecha concreta: 64.3% vs 53.4% en SWE-bench Pro, 70% vs 58% en CursorBench, y cuatro tareas nuevas resueltas que ni su predecesor ni Sonnet 4.6 podían completar.

En 30 segundos

  • Anthropic lanzó Opus 4.7 el 16 de abril de 2026, con mejoras concretas en codificación, reasoning y visión.
  • SWE-bench Pro: 64.3% (Opus 4.7) vs 53.4% (Opus 4.6) — casi 11 puntos de diferencia.
  • El precio se mantiene igual: USD 5 por millón de tokens de entrada, USD 25 por millón de salida.
  • La mejora de visión es la más llamativa: 98.5% vs 54.5% en benchmarks multimodales.
  • Rakuten reportó que Opus 4.7 resuelve tres veces más tareas autónomas que la versión anterior.

Vercel es una plataforma de despliegue en la nube desarrollada por Vercel Inc., diseñada para alojar aplicaciones web modernas y proyectos Next.js. Proporciona integración continua, funciones serverless y distribución global mediante CDN.

Qué es Claude Opus 4.7 y cuándo se lanzó

Claude Opus 4.7 es el modelo de lenguaje más avanzado de Anthropic disponible para el público general, presentado el 16 de abril de 2026. Dentro de la familia Claude 4, ocupa el segundo lugar: por encima de Sonnet 4.6 y por debajo de Mythos, el modelo reservado para casos de uso especializado que Anthropic todavía no abrió al público masivo.

La carrera de modelos de IA arrancó 2026 a un ritmo que no para. OpenAI, Google y Anthropic se pisan los talones mutuamente, y cada lanzamiento viene con benchmarks que supuestamente prueban quién lidera. Opus 4.7 no es la excepción, pero lo interesante es que esta vez los números sí muestran saltos que tienen sentido técnico, no solo marketing.

El foco principal del lanzamiento es la ingeniería de software avanzada. Anthropic no apuntó a ser el modelo más “creativo” ni el más rápido, sino al que mejor resuelve tareas de programación complejas y de múltiples pasos.

Mejoras concretas en codificación vs Opus 4.6

Ponele que tenés un bug que aparece una vez cada cincuenta ejecuciones, bajo condiciones de carga específica, y necesitás que el modelo lo reproduzca, lo diagnostique y proponga el fix. Ese tipo de problema es donde Opus 4.7 muestra la diferencia. Más contexto en como vimos en nuestro análisis de Sonnet 4.6.

Según el anuncio oficial de Anthropic, los números de SWE-bench Pro saltan de 53.4% a 64.3%, y CursorBench pasa de 58% a 70%. En un benchmark interno de 93 tareas de programación, Opus 4.7 mejoró un 13% respecto a Opus 4.6 y resolvió cuatro tareas que ni la versión anterior ni Sonnet 4.6 podían completar.

Eso sí: cuatro tareas pueden sonar a poco. Pero si alguna vez pasaste días bloqueado en un problema que ninguna herramienta resolvía, sabés que eso vale más que cien puntos de benchmark genérico.

Rakuten, que usa Opus extensamente para automatización interna, reportó a VentureBeat que Opus 4.7 resuelve tres veces más tareas autónomas que la versión anterior. No son benchmarks de laboratorio: es uso real en producción.

Vim golf: qué es y por qué importa

Vim golf es un desafío de edición de texto donde el objetivo es realizar una transformación de archivo con la menor cantidad de pulsaciones de teclado posible, usando Vim. Es el “golf” porque menos golpes es mejor resultado.

¿Por qué importa para evaluar un modelo de IA? Porque un desafío de vim golf bien planteado requiere razonar sobre el estado del archivo, planear una secuencia óptima de comandos, y ejecutarla sin errores. No es una tarea de autocompletado. Es planning, reasoning y precisión combinados.

Que Opus 4.7 supere a Opus 4.6 en este tipo de tareas no es una curiosidad. Refleja que el modelo tiene mejor capacidad para pensar en secuencias de pasos donde cada acción afecta el estado del sistema, que es exactamente lo que necesitás en cualquier refactor no trivial.

Mejor seguimiento de instrucciones y comportamiento más agentivo

Opus 4.7 interpreta los prompts de forma más literal. Si le decís “modificá solo las funciones que tienen más de 50 líneas”, lo hace. No toca lo que no le pediste. En 4.6, a veces el modelo “mejoraba” cosas que no estaban en el scope, lo cual en un pipeline automatizado es un problema.

El trade-off es que los prompts vagos dan peores resultados. Si antes le tirabas un objetivo ambiguo y Opus 4.6 adivinaba qué querías decir con cierto éxito, Opus 4.7 va a pedirte clarificación o, peor, va a hacer exactamente lo que dijiste aunque no sea lo que necesitabas. Cubrimos ese tema en detalle en en nuestra guía sobre modelos de lenguaje grandes.

Para tareas de múltiples pasos, esto es una mejora. En pipelines agentivos donde el modelo tiene que tomar decisiones autónomas durante varias iteraciones, el seguimiento estricto de instrucciones reduce los desvíos no deseados. La capacidad de auto-validación también mejoró: Opus 4.7 puede revisar su propio output antes de entregarlo, detectar inconsistencias y corregirlas sin intervención externa.

Benchmarks detallados: los números que importan

Una tabla vale más que tres párrafos. Acá está la comparación:

BenchmarkOpus 4.6Opus 4.7Diferencia
SWE-bench Pro53.4%64.3%+10.9 pp
CursorBench58%70%+12 pp
Visión multimodal54.5%98.5%+44 pp
arXiv Reasoning84.7%91.0%+6.3 pp
GPQA DiamondN/D94.2%
Document Reasoning (tasa de error)basebase -21%-21% errores
Benchmark 93 tareas (interno)basebase +13%+13%
opus 4.7 vs opus 4.6 diagrama explicativo

El número más sorprendente es el de visión: de 54.5% a 98.5% es un salto que no tiene mucho precedente entre versiones consecutivas del mismo modelo. Anthropic describe la mejora de visión como “3x” en sus materiales. ¿Alguien lo verificó de forma independiente? Todavía no hay papers externos que reproduzcan ese benchmark, pero los datos de la empresa son los que tenemos.

Lo del GPQA Diamond a 94.2% en razonamiento científico avanzado es también llamativo. Este benchmark evalúa preguntas de física, química y biología a nivel doctoral, el tipo de preguntas que “los expertos del campo responden correctamente apenas el 65% del tiempo”.

Cuándo usar Opus 4.7 vs Opus 4.6 vs Sonnet 4.6

La respuesta honesta: para el 90% de las tareas, Sonnet 4.6 alcanza y sobra. Es más rápido, más barato, y la diferencia de calidad en tareas rutinarias es mínima.

Opus 4.7 tiene sentido cuando:

  • El problema requiere múltiples pasos encadenados con dependencias entre sí
  • Necesitás que el modelo tome decisiones autónomas durante un pipeline agentivo largo
  • El task es de los que Opus 4.6 “casi” resolvía pero fallaba en el último paso
  • Trabajás con análisis de documentos complejos o inputs multimodales

Sonnet 4.6 tiene sentido para: generación de contenido, respuestas a preguntas directas, summarización, código con especificaciones claras, y cualquier tarea donde la velocidad importa más que el reasoning profundo. Te puede servir nuestra cobertura de si querés probar estos modelos en tu máquina.

Lo interesante es que herramientas como Claude Code (el IDE integration) hacen el switch automáticamente según la complejidad de la tarea detectada. Así que en muchos casos no tenés que elegir: el sistema elige por vos.

El nivel de esfuerzo “xhigh” es nuevo en Opus 4.7 y le da al modelo más compute para razonar antes de responder. Subí ese parámetro cuando el problema lo justifique. En tareas simples solo te va a costar tokens extra sin beneficio real.

Precio y disponibilidad: qué cambió

Nada cambió en el precio. Opus 4.7 mantiene la misma estructura que Opus 4.6: USD 5 por millón de tokens de entrada y USD 25 por millón de tokens de salida, según la documentación oficial de la plataforma.

Disponible desde el día del lanzamiento en Claude API, Amazon Bedrock, Google Vertex AI y Microsoft Foundry. Los usuarios con plan Pro y Max de Claude.ai ya tienen acceso. Los límites de uso varían según el plan.

Si tu equipo usa infraestructura cloud para correr workloads de IA, los tres principales hyperscalers ya tienen Opus 4.7 disponible. Para hosting y deployments del lado de infraestructura web, donweb.com cubre las necesidades locales si estás en Latinoamérica.

Errores comunes al migrar de Opus 4.6 a Opus 4.7

Usar los mismos prompts sin revisar. Opus 4.7 sigue las instrucciones más al pie de la letra. Un prompt que decía “resumí el documento” y funcionaba “más o menos” en 4.6 ahora puede darte un resultado que es literalmente un resumen y nada más, sin el análisis implícito que esperabas. Revisá tus prompts y hacé explícito lo que antes asumías que el modelo iba a inferir.

Ignorar el parámetro de esfuerzo. Si no configurás el nivel de esfuerzo, Opus 4.7 usa el default, que no es el máximo. Para tareas donde querés el mejor resultado posible, tenés que pedirlo explícitamente con “xhigh”. Muchos equipos se quejan de que “no notaron la diferencia” y resulta que nunca activaron el nivel de esfuerzo elevado. Complementá con en nuestro análisis de Claude versus competidores.

Usarlo donde no hace falta. Opus 4.7 es el modelo más caro de la familia. Correlo en tareas que no lo requieren y vas a quemar presupuesto sin beneficio visible. Mapeá tus casos de uso antes de migrar todo el pipeline.

Preguntas Frecuentes

¿Opus 4.7 es realmente mejor que Opus 4.6 para programación?

En tareas complejas, sí. SWE-bench Pro sube de 53.4% a 64.3% y CursorBench de 58% a 70%. La diferencia es más notoria en problemas de múltiples pasos, debugging de bugs difíciles de reproducir, y pipelines agentivos que requieren autonomía. Para tareas de programación rutinarias, la diferencia es menor y probablemente no justifique el mismo precio.

¿Vale la pena cambiar a Opus 4.7 si ya uso 4.6?

Depende de qué estés resolviendo. Si tu uso principal son tareas simples o de generación de contenido, probablemente no notes la diferencia suficiente como para justificar el cambio. Si usás el modelo para automatización agentiva, análisis de documentos complejos o tareas de ingeniería de software avanzada, la mejora es concreta. El precio es el mismo, así que el riesgo económico es bajo; el riesgo está en que tus prompts existentes pueden necesitar ajuste.

¿Qué es el nivel de esfuerzo “xhigh” en Opus 4.7?

Es un parámetro nuevo que le asigna más compute al modelo para razonar antes de generar la respuesta. Usarlo implica mayor latencia y mayor consumo de tokens, pero mejores resultados en tareas que requieren planning profundo. No tiene sentido activarlo para tareas simples; sí para debugging complejo, refactors grandes o análisis de documentos extensos.

¿Cuánto mejoró Opus 4.7 en visión respecto a 4.6?

El salto es el más llamativo del lanzamiento: de 54.5% a 98.5% en benchmarks de visión multimodal, una mejora que Anthropic describe como “3x”. Esto afecta directamente cualquier tarea que combine texto con imágenes, gráficos, capturas de pantalla o documentos escaneados. Es una mejora de categoría diferente a las del resto del modelo.

¿Opus 4.7 puede resolver desafíos de vim golf mejor que 4.6?

Los reportes que circularon el día del lanzamiento, incluyendo comparaciones informales en la comunidad dev, muestran que sí. Vim golf requiere planning de secuencias óptimas de comandos, que es exactamente el tipo de reasoning que mejoró en Opus 4.7. La mejora en seguimiento de instrucciones y capacidad de auto-validación contribuye directamente a este tipo de tareas donde cada paso cuenta.

Conclusión

Opus 4.7 es una mejora real sobre Opus 4.6, especialmente para programación avanzada. Los 11 puntos de diferencia en SWE-bench Pro y los 12 en CursorBench no son ruido estadístico, y la mejora de visión a 98.5% cambia las posibilidades de los flujos multimodales.

Lo que no cambió es el precio, lo cual es una decisión de Anthropic que vale destacar en un mercado donde los modelos más nuevos suelen costar más. Si ya tenés Opus 4.6 integrado y funciona, la migración no es urgente pero sí vale hacer el esfuerzo de revisar los prompts y testear en las tareas donde antes el modelo “casi lo lograba”. Probablemente ahí es donde más se nota la diferencia.

Mythos sigue reservado. Cuando llegue al público general, la conversación va a ser otra.

Fuentes

Desplazarse hacia arriba