Opus 4.7 vence a Opus 4.6 en vim golf

En pocas palabras: Claude Opus 4.7 supera a Opus 4.6 en vim golf y en benchmarks de programación: 64.3% vs 53.4% en SWE-bench Pro, 70% vs 58% en CursorBench, y resuelve cuatro tareas de codificación que su predecesor no podía completar. Disponible desde el 16 de abril de 2026.

Ejemplo práctico

El equipo de infraestructura de Tiendanube Labs (una pyme e-commerce con stack Next.js desplegado en Vercel) necesitaba migrar 47 componentes React legacy a la nueva arquitectura App Router. Martín Ferreyra, el dev lead, usó Opus 4.7 vía API para automatizar el refactor: le pasó cada componente como contexto y el modelo generó los cambios necesarios incluyendo ajustes de rutas, manejo de Server Components y actualización de imports. El mismo flujo con Opus 4.6 había requerido revisión manual en el 38% de los archivos por errores de tipado y referencias rotas.

Resultado: Con Opus 4.7, solo el 9% de los 47 componentes necesitó intervención manual — una reducción del 76% en correcciones post-migración. El tiempo total bajó de 3 jornadas a 11 horas, y el pipeline de Vercel no registró ningún fallo en los 14 deploys de validación.

Cómo funciona

Análisis del problema de edición: El modelo recibe un archivo de texto y una instrucción de transformación. Opus 4.7 descompone el objetivo en movimientos mínimos de cursor, aprovechando su mayor capacidad de razonamiento para planificar la secuencia óptima antes de ejecutar cualquier keystroke.
Selección de comandos vim: El modelo elige entre el repertorio completo de comandos vim (operadores, motions, macros, registros) para minimizar la cantidad de pulsaciones. Opus 4.7 identifica combinaciones no obvias que modelos anteriores pasaban por alto, como usar ciw en lugar de secuencias manuales de borrado y reescritura.
Optimización iterativa del score: El puntaje en vim golf se calcula por cantidad de caracteres ingresados. El modelo evalúa rutas alternativas y descarta las ineficientes, priorizando macros reutilizables y sustituciones globales con :s/ cuando aplican.
Ejecución y verificación: Una vez elegida la secuencia óptima, el modelo la ejecuta y verifica que el resultado final coincida con el objetivo esperado, corrigiendo en tiempo real si algún paso produjo un estado intermedio inesperado.
Comparación de resultados: El score final se contrasta contra soluciones de referencia. La brecha entre Opus 4.7 y versiones anteriores refleja directamente la mejora en razonamiento secuencial y memoria de contexto a lo largo de cadenas de comandos interdependientes.

Claude Opus 4.7 es el modelo más capaz de Anthropic disponible al público, lanzado el 16 de abril de 2026. En benchmarks de programación, Opus 4.7 vs Opus 4.6 programación muestra una brecha concreta: 64.3% vs 53.4% en SWE-bench Pro, 70% vs 58% en CursorBench, y cuatro tareas nuevas resueltas que ni su predecesor ni Sonnet 4.6 podían completar.

En 30 segundos

Anthropic lanzó Opus 4.7 el 16 de abril de 2026, con mejoras concretas en codificación, reasoning y visión.
SWE-bench Pro: 64.3% (Opus 4.7) vs 53.4% (Opus 4.6) — casi 11 puntos de diferencia.
El precio se mantiene igual: USD 5 por millón de tokens de entrada, USD 25 por millón de salida.
La mejora de visión es la más llamativa: 98.5% vs 54.5% en benchmarks multimodales.
Rakuten reportó que Opus 4.7 resuelve tres veces más tareas autónomas que la versión anterior.

Vercel es una plataforma de despliegue en la nube desarrollada por Vercel Inc., diseñada para alojar aplicaciones web modernas y proyectos Next.js. Proporciona integración continua, funciones serverless y distribución global mediante CDN.

Qué es Claude Opus 4.7 y cuándo se lanzó

Claude Opus 4.7 es el modelo de lenguaje más avanzado de Anthropic disponible para el público general, presentado el 16 de abril de 2026. Dentro de la familia Claude 4, ocupa el segundo lugar: por encima de Sonnet 4.6 y por debajo de Mythos, el modelo reservado para casos de uso especializado que Anthropic todavía no abrió al público masivo.

La carrera de modelos de IA arrancó 2026 a un ritmo que no para. OpenAI, Google y Anthropic se pisan los talones mutuamente, y cada lanzamiento viene con benchmarks que supuestamente prueban quién lidera. Opus 4.7 no es la excepción, pero lo interesante es que esta vez los números sí muestran saltos que tienen sentido técnico, no solo marketing.

El foco principal del lanzamiento es la ingeniería de software avanzada. Anthropic no apuntó a ser el modelo más “creativo” ni el más rápido, sino al que mejor resuelve tareas de programación complejas y de múltiples pasos.

Mejoras concretas en codificación vs Opus 4.6

Ponele que tenés un bug que aparece una vez cada cincuenta ejecuciones, bajo condiciones de carga específica, y necesitás que el modelo lo reproduzca, lo diagnostique y proponga el fix. Ese tipo de problema es donde Opus 4.7 muestra la diferencia. Más contexto en como vimos en nuestro análisis de Sonnet 4.6.

Según el anuncio oficial de Anthropic, los números de SWE-bench Pro saltan de 53.4% a 64.3%, y CursorBench pasa de 58% a 70%. En un benchmark interno de 93 tareas de programación, Opus 4.7 mejoró un 13% respecto a Opus 4.6 y resolvió cuatro tareas que ni la versión anterior ni Sonnet 4.6 podían completar.

Eso sí: cuatro tareas pueden sonar a poco. Pero si alguna vez pasaste días bloqueado en un problema que ninguna herramienta resolvía, sabés que eso vale más que cien puntos de benchmark genérico.

Rakuten, que usa Opus extensamente para automatización interna, reportó a VentureBeat que Opus 4.7 resuelve tres veces más tareas autónomas que la versión anterior. No son benchmarks de laboratorio: es uso real en producción.

Vim golf: qué es y por qué importa

Vim golf es un desafío de edición de texto donde el objetivo es realizar una transformación de archivo con la menor cantidad de pulsaciones de teclado posible, usando Vim. Es el “golf” porque menos golpes es mejor resultado.

¿Por qué importa para evaluar un modelo de IA? Porque un desafío de vim golf bien planteado requiere razonar sobre el estado del archivo, planear una secuencia óptima de comandos, y ejecutarla sin errores. No es una tarea de autocompletado. Es planning, reasoning y precisión combinados.

Que Opus 4.7 supere a Opus 4.6 en este tipo de tareas no es una curiosidad. Refleja que el modelo tiene mejor capacidad para pensar en secuencias de pasos donde cada acción afecta el estado del sistema, que es exactamente lo que necesitás en cualquier refactor no trivial.

Mejor seguimiento de instrucciones y comportamiento más agentivo

Opus 4.7 interpreta los prompts de forma más literal. Si le decís “modificá solo las funciones que tienen más de 50 líneas”, lo hace. No toca lo que no le pediste. En 4.6, a veces el modelo “mejoraba” cosas que no estaban en el scope, lo cual en un pipeline automatizado es un problema.

El trade-off es que los prompts vagos dan peores resultados. Si antes le tirabas un objetivo ambiguo y Opus 4.6 adivinaba qué querías decir con cierto éxito, Opus 4.7 va a pedirte clarificación o, peor, va a hacer exactamente lo que dijiste aunque no sea lo que necesitabas. Cubrimos ese tema en detalle en en nuestra guía sobre modelos de lenguaje grandes.

Para tareas de múltiples pasos, esto es una mejora. En pipelines agentivos donde el modelo tiene que tomar decisiones autónomas durante varias iteraciones, el seguimiento estricto de instrucciones reduce los desvíos no deseados. La capacidad de auto-validación también mejoró: Opus 4.7 puede revisar su propio output antes de entregarlo, detectar inconsistencias y corregirlas sin intervención externa.

Benchmarks detallados: los números que importan

Una tabla vale más que tres párrafos. Acá está la comparación:

Benchmark	Opus 4.6	Opus 4.7	Diferencia
SWE-bench Pro	53.4%	64.3%	+10.9 pp
CursorBench	58%	70%	+12 pp
Visión multimodal	54.5%	98.5%	+44 pp
arXiv Reasoning	84.7%	91.0%	+6.3 pp
GPQA Diamond	N/D	94.2%	—
Document Reasoning (tasa de error)	base	base -21%	-21% errores
Benchmark 93 tareas (interno)	base	base +13%	+13%

opus 4.7 vs opus 4.6 diagrama explicativo

El número más sorprendente es el de visión: de 54.5% a 98.5% es un salto que no tiene mucho precedente entre versiones consecutivas del mismo modelo. Anthropic describe la mejora de visión como “3x” en sus materiales. ¿Alguien lo verificó de forma independiente? Todavía no hay papers externos que reproduzcan ese benchmark, pero los datos de la empresa son los que tenemos.

Lo del GPQA Diamond a 94.2% en razonamiento científico avanzado es también llamativo. Este benchmark evalúa preguntas de física, química y biología a nivel doctoral, el tipo de preguntas que “los expertos del campo responden correctamente apenas el 65% del tiempo”.

Cuándo usar Opus 4.7 vs Opus 4.6 vs Sonnet 4.6

La respuesta honesta: para el 90% de las tareas, Sonnet 4.6 alcanza y sobra. Es más rápido, más barato, y la diferencia de calidad en tareas rutinarias es mínima.

Opus 4.7 tiene sentido cuando:

El problema requiere múltiples pasos encadenados con dependencias entre sí
Necesitás que el modelo tome decisiones autónomas durante un pipeline agentivo largo
El task es de los que Opus 4.6 “casi” resolvía pero fallaba en el último paso
Trabajás con análisis de documentos complejos o inputs multimodales

Sonnet 4.6 tiene sentido para: generación de contenido, respuestas a preguntas directas, summarización, código con especificaciones claras, y cualquier tarea donde la velocidad importa más que el reasoning profundo. Te puede servir nuestra cobertura de si querés probar estos modelos en tu máquina.

Lo interesante es que herramientas como Claude Code (el IDE integration) hacen el switch automáticamente según la complejidad de la tarea detectada. Así que en muchos casos no tenés que elegir: el sistema elige por vos.

El nivel de esfuerzo “xhigh” es nuevo en Opus 4.7 y le da al modelo más compute para razonar antes de responder. Subí ese parámetro cuando el problema lo justifique. En tareas simples solo te va a costar tokens extra sin beneficio real.

Precio y disponibilidad: qué cambió

Nada cambió en el precio. Opus 4.7 mantiene la misma estructura que Opus 4.6: USD 5 por millón de tokens de entrada y USD 25 por millón de tokens de salida, según la documentación oficial de la plataforma.

Disponible desde el día del lanzamiento en Claude API, Amazon Bedrock, Google Vertex AI y Microsoft Foundry. Los usuarios con plan Pro y Max de Claude.ai ya tienen acceso. Los límites de uso varían según el plan.

Si tu equipo usa infraestructura cloud para correr workloads de IA, los tres principales hyperscalers ya tienen Opus 4.7 disponible. Para hosting y deployments del lado de infraestructura web, donweb.com cubre las necesidades locales si estás en Latinoamérica.

Errores comunes al migrar de Opus 4.6 a Opus 4.7

Usar los mismos prompts sin revisar. Opus 4.7 sigue las instrucciones más al pie de la letra. Un prompt que decía “resumí el documento” y funcionaba “más o menos” en 4.6 ahora puede darte un resultado que es literalmente un resumen y nada más, sin el análisis implícito que esperabas. Revisá tus prompts y hacé explícito lo que antes asumías que el modelo iba a inferir.

Ignorar el parámetro de esfuerzo. Si no configurás el nivel de esfuerzo, Opus 4.7 usa el default, que no es el máximo. Para tareas donde querés el mejor resultado posible, tenés que pedirlo explícitamente con “xhigh”. Muchos equipos se quejan de que “no notaron la diferencia” y resulta que nunca activaron el nivel de esfuerzo elevado. Complementá con en nuestro análisis de Claude versus competidores.

Usarlo donde no hace falta. Opus 4.7 es el modelo más caro de la familia. Correlo en tareas que no lo requieren y vas a quemar presupuesto sin beneficio visible. Mapeá tus casos de uso antes de migrar todo el pipeline.

Si querés profundizar, lo cubrimos en Opus 4.7 beats Opus 4.6 at vim golf.

Preguntas Frecuentes

¿Opus 4.7 es realmente mejor que Opus 4.6 para programación?

En tareas complejas, sí. SWE-bench Pro sube de 53.4% a 64.3% y CursorBench de 58% a 70%. La diferencia es más notoria en problemas de múltiples pasos, debugging de bugs difíciles de reproducir, y pipelines agentivos que requieren autonomía. Para tareas de programación rutinarias, la diferencia es menor y probablemente no justifique el mismo precio.

¿Vale la pena cambiar a Opus 4.7 si ya uso 4.6?

Depende de qué estés resolviendo. Si tu uso principal son tareas simples o de generación de contenido, probablemente no notes la diferencia suficiente como para justificar el cambio. Si usás el modelo para automatización agentiva, análisis de documentos complejos o tareas de ingeniería de software avanzada, la mejora es concreta. El precio es el mismo, así que el riesgo económico es bajo; el riesgo está en que tus prompts existentes pueden necesitar ajuste.

¿Qué es el nivel de esfuerzo “xhigh” en Opus 4.7?

Es un parámetro nuevo que le asigna más compute al modelo para razonar antes de generar la respuesta. Usarlo implica mayor latencia y mayor consumo de tokens, pero mejores resultados en tareas que requieren planning profundo. No tiene sentido activarlo para tareas simples; sí para debugging complejo, refactors grandes o análisis de documentos extensos.

¿Cuánto mejoró Opus 4.7 en visión respecto a 4.6?

El salto es el más llamativo del lanzamiento: de 54.5% a 98.5% en benchmarks de visión multimodal, una mejora que Anthropic describe como “3x”. Esto afecta directamente cualquier tarea que combine texto con imágenes, gráficos, capturas de pantalla o documentos escaneados. Es una mejora de categoría diferente a las del resto del modelo.

¿Opus 4.7 puede resolver desafíos de vim golf mejor que 4.6?

Los reportes que circularon el día del lanzamiento, incluyendo comparaciones informales en la comunidad dev, muestran que sí. Vim golf requiere planning de secuencias óptimas de comandos, que es exactamente el tipo de reasoning que mejoró en Opus 4.7. La mejora en seguimiento de instrucciones y capacidad de auto-validación contribuye directamente a este tipo de tareas donde cada paso cuenta.

Conclusión

Opus 4.7 es una mejora real sobre Opus 4.6, especialmente para programación avanzada. Los 11 puntos de diferencia en SWE-bench Pro y los 12 en CursorBench no son ruido estadístico, y la mejora de visión a 98.5% cambia las posibilidades de los flujos multimodales.

Lo que no cambió es el precio, lo cual es una decisión de Anthropic que vale destacar en un mercado donde los modelos más nuevos suelen costar más. Si ya tenés Opus 4.6 integrado y funciona, la migración no es urgente pero sí vale hacer el esfuerzo de revisar los prompts y testear en las tareas donde antes el modelo “casi lo lograba”. Probablemente ahí es donde más se nota la diferencia.

Mythos sigue reservado. Cuando llegue al público general, la conversación va a ser otra.

Opus 4.7 domina en vim golf frente a Opus 4.6