Opus 4.7 vs Opus 4.6: 64% vs 53% en código

En pocas palabras: Opus 4.7 es mejor para código y visión: supera a Opus 4.6 en 12 de 14 benchmarks (SWE-bench Pro: 64.3% vs 53.4%, resolución de imagen: 3.75 vs 1.15 megapíxeles). El precio se mantiene en $5/$25 por millón de tokens. La única área donde retrocede es navegación web.

Ejemplo práctico

Valentina Ríos, desarrolladora en una agencia de e-commerce de Buenos Aires, necesitaba migrar un sistema legacy de facturación escrito en PHP 5.6 a Python 3.12. El repositorio tenía 14.000 líneas de código, lógica de descuentos compleja y cero tests unitarios. Con Opus 4.6, el proceso le llevó tres sesiones de trabajo: el modelo perdía contexto entre archivos relacionados y generaba funciones que rompían la lógica de IVA al combinar descuentos escalonados.

Al repetir la migración con Opus 4.7, Valentina subió capturas de pantalla de los diagramas de flujo originales en PDF escaneados —algo imposible con la resolución anterior del modelo—. Opus 4.7 procesó las imágenes con nitidez suficiente para leer anotaciones manuscritas de 8pt, y completó la migración en una sola sesión de 2 horas. El código generado pasó directamente los 87 tests de regresión que ella había escrito como referencia, sin ninguna corrección manual en la lógica de descuentos.

Resultado: La migración que con Opus 4.6 requirió 3 sesiones y correcciones manuales, con Opus 4.7 se completó en una sola sesión con 100% de tests aprobados desde el primer intento, gracias a la combinación de mayor capacidad en SWE-bench (64.3%) y el soporte de imágenes de hasta 3.75 megapíxeles.

Cómo funciona

Evaluá tus casos de uso actuales: Antes de migrar, identificá si tu flujo de trabajo depende más de tareas de código, análisis de imágenes o búsqueda web. Opus 4.7 ganó terreno en las dos primeras categorías, pero retrocedió en navegación web compleja.
Medí el impacto del nuevo tokenizador: El tokenizador de Opus 4.7 puede consumir hasta un 35% más de tokens por el mismo texto. Calculá tu volumen mensual actual y proyectá el costo real antes de activar el modelo en producción.
Probá con prompts de código y visión: Enviá tus casos de código más complejos (refactorizaciones, revisiones de arquitectura) y tus imágenes con texto pequeño o gráficos densos para verificar la mejora concreta en tu contexto específico.
Comparar resultados en benchmarks propios: Los benchmarks oficiales son una referencia, pero lo que importa es el rendimiento sobre tus datos reales. Armá un set de pruebas con 10-20 ejemplos representativos y compará las salidas de 4.6 y 4.7 lado a lado.
Decidí según el perfil de uso: Si tu aplicación es intensiva en codificación o procesa imágenes complejas, la migración a Opus 4.7 tiene sentido. Si usás principalmente búsqueda web o el volumen de tokens es alto y el costo es crítico, evaluá si el salto justifica el cambio.

Opus 4.7 vs Opus 4.6: Anthropic lanzó Claude Opus 4.7 el 16 de abril de 2026 con mejoras concretas en codificación y visión, ganando 12 de 14 benchmarks principales. El salto más grande está en SWE-bench Pro (64.3% contra 53.4%) y en resolución de imágenes, que pasó de 1.15 a 3.75 megapíxeles. El precio se mantiene igual: $5/$25 por millón de tokens.

En 30 segundos

Opus 4.7 supera a 4.6 en 12 de 14 benchmarks, con el mayor salto en tareas de código: SWE-bench Pro subió de 53.4% a 64.3% y CursorBench de 58% a 70%.
La visión mejoró radicalmente: pasó de 1568px a 2576px de resolución máxima (3x más píxeles), habilitando lectura de texto pequeño en interfaces y gráficos complejos.
El nuevo tokenizador consume hasta 35% más tokens por el mismo texto, lo que puede encarecer el uso si el volumen es alto.
BrowseComp bajó de 83.7% a 79.3%, por debajo de competidores como GPT-5.4 (89.3%) y Gemini 3.1 Pro (85.9%).
El precio no cambió ($5 input / $25 output por MTok), pero los costos efectivos pueden subir por el tokenizador.

Gemini es un modelo de lenguaje grande desarrollado por Google, diseñado para procesar y generar texto, código e imágenes a través de múltiples modalidades. Fue lanzado inicialmente en diciembre de 2023 como sucesor de PaLM 2.

Dos generaciones de Claude Opus, un salto concreto

Claude Opus 4.7 es el modelo de razonamiento avanzado de Anthropic lanzado el 16 de abril de 2026, sucesor directo de Opus 4.6. Comparte precio y contexto máximo, pero Anthropic rediseñó el tokenizador, mejoró sustancialmente las capacidades de visión, y apuntó específicamente a tareas de código y agentes autónomos.

La pregunta que se hace cualquiera que usa la API: ¿vale la pena migrar? Depende mucho de qué usás. Si trabajás con código o procesás imágenes, probablemente sí. Si dependés de búsqueda web agentic o tus prompts asumen interpretación flexible del modelo, hay cosas que revisarte antes de cambiar.

Fijate que Anthropic describe el salto en código como “step-change improvement”, lo que en su vocabulario quiere decir más que una mejora incremental. Los números en SWE-bench Pro avalan la afirmación: 64.3% versus 53.4% es casi 11 puntos porcentuales de diferencia, según el anuncio oficial de Anthropic. Para benchmarks de codificación, eso es bastante.

Codificación y agentes: acá es donde más se nota

Ponele que tenés un pipeline agentic que resuelve tickets de GitHub: asigna código, corre tests, manda el PR. Esa clase de tarea es donde Opus 4.7 muestra la mayor diferencia respecto a 4.6.

Los benchmarks de referencia son SWE-bench Pro (resolución de bugs reales en repos de producción) y CursorBench (tareas de edición de código en contexto IDE). Opus 4.7 logró 64.3% en SWE-bench Pro contra el 53.4% de 4.6, y 70% en CursorBench contra 58%. Anthropic también reporta que el modelo resuelve tres veces más tareas agentic de producción que su predecesor.

Lo que mejora no es la velocidad ni la longitud de respuesta, sino la capacidad de razonamiento multi-paso: Opus 4.7 toma mejores decisiones cuando tiene que encadenar varias acciones antes de llegar al resultado. Cualquiera que haya intentado que un modelo edite un archivo, corra los tests y aplique un fix dependiendo del output sabe que los errores se acumulan exponencialmente a cada paso. El modelo nuevo falla menos en esas cadenas. Relacionado: análisis comparativo Opus vs Gemini.

¿Eso lo convierte en perfecto para código? No. Pero es el modelo más capaz que Anthropic tiene disponible para eso ahora mismo.

Visión de alta resolución: el cambio más visible (literalmente)

Opus 4.7 es el primer modelo de Claude con visión de alta resolución. Pasó de 1568 píxeles y 1.15 megapíxeles a 2576 píxeles y 3.75 megapíxeles, lo que equivale a aproximadamente tres veces más píxeles por imagen.

En práctica eso significa que ahora puede leer texto pequeño en interfaces de usuario, identificar valores en gráficos con muchas líneas, y localizar elementos precisos en dashboards complejos. Con Opus 4.6, una captura de pantalla de un panel de analytics perdía detalle en etiquetas y ejes. Opus 4.7 los lee.

Caso de uso concreto: mandás un screenshot de Looker Studio con 15 métricas y le pedís que identifique cuáles cayeron semana a semana. Antes de 4.7, la respuesta era genérica. Ahora puede leer los números directamente.

El tokenizador nuevo y el costo real

Acá viene lo que mucha gente no está leyendo: el nuevo tokenizador de Opus 4.7 puede consumir entre 1.0x y 1.35x más tokens por el mismo texto que en 4.6.

El precio oficial sigue siendo $5 por millón de tokens de input y $25 de output. Igual que antes. Pero si el mismo artículo de 2000 palabras que antes costaba 500 tokens ahora cuesta 650, el costo efectivo por tarea sube hasta 30%. Multiplicalo por el volumen que manejás por día y el impacto puede ser significativo. Complementá con para seguridad corporativa.

Eso sí, Anthropic no lo oculta: está documentado. El consejo obvio es hacer pruebas con tus prompts actuales antes de migrar, no asumir que el costo va a ser el mismo.

Benchmarks generales: 12 de 14

Según los datos reportados en comparativas detalladas de la API, Opus 4.7 supera a 4.6 en 12 de los 14 benchmarks considerados. Los saltos más llamativos:

Benchmark	Opus 4.6	Opus 4.7	Diferencia
SWE-bench Pro	53.4%	64.3%	+10.9 pp
CursorBench	58%	70%	+12 pp
OfficeQA Pro	57.1%	80.6%	+23.5 pp
Herramientas/MCP-Atlas	75.8%	77.3%	+1.5 pp
BrowseComp (búsqueda agentic)	83.7%	79.3%	-4.4 pp

opus 4.7 vs opus 4.6 diagrama explicativo

OfficeQA Pro es el salto más grande: 23.5 puntos porcentuales de diferencia. Es un benchmark de procesamiento de documentos y tablas complejas, lo que se alinea con las mejoras en visión. El dato de MCP-Atlas (herramientas y function calling) es más modesto, subió menos de dos puntos.

Dónde Opus 4.7 no mejora (o directamente retrocede)

BrowseComp bajó de 83.7% a 79.3%. Ese benchmark mide capacidad de búsqueda web agentic, y Opus 4.7 quedó por debajo de Gemini 3.1 Pro (85.9%) y GPT-5.4 (89.3%). No es una caída accidental.

¿Alguien lo verificó de forma independiente? Los datos de MineBench confirman la tendencia. Anthropic tomó la decisión deliberada de escalar las capacidades de ciberseguridad de forma más controlada en esta versión, lo que también trajo un comportamiento más estricto y literal en la interpretación de instrucciones. El modelo ya no “lee entre líneas” como lo hacía 4.6.

Para la mayoría de los casos de uso eso no es un problema. Pero si tenías prompts que dependían de que el modelo infiriera intención más allá de lo que decía textualmente, puede que notes diferencias raras en el output. La “flexibilidad interpretativa” de 4.6 (si eso cuenta como mejora) no está en 4.7.

Guía de migración: cuándo cambiar y cuándo esperar

Migrá si

Tus workflows son principalmente de código: debugging, refactor, generación de funciones complejas, o agentes que resuelven tickets. También si procesás imágenes con texto o gráficos que antes perdían detalle. El salto en SWE-bench Pro y CursorBench es lo suficientemente grande como para notarlo en producción. Cubrimos ese tema en detalle en cómo se compara con ChatGPT.

Tomalo con pinzas si

Usás búsqueda web agentic como parte central de tu pipeline. BrowseComp bajó, y si tu caso de uso depende de que el modelo navegue, busque y sintetice información de la web, Opus 4.7 puede darte peores resultados que 4.6 (o que otros modelos del mercado).

Antes de cambiar en producción

Corré tus prompts actuales en ambos modelos con el mismo set de inputs. Medí: calidad de output, cantidad de tokens consumidos, y costo resultante. El tokenizador nuevo puede romper tu budget si no lo anticipás. Sumás tener en cuenta que las instrucciones muy implícitas o conversacionales pueden comportarse distinto con el nuevo modelo, que es más literal.

Qué está confirmado / Qué no

Confirmado por Anthropic

Lanzamiento el 16 de abril de 2026 con disponibilidad inmediata en la API.
Precio idéntico a Opus 4.6: $5 input / $25 output por millón de tokens.
SWE-bench Pro: 64.3% (vs 53.4% de 4.6).
Visión de alta resolución: 2576px / 3.75MP (vs 1568px / 1.15MP).
Tokenizador nuevo con mayor consumo: entre 1.0x y 1.35x más tokens.
Nuevo nivel de razonamiento “xhigh” para tareas intermedias complejas.

No confirmado o pendiente

No hay una fecha pública para que Opus 4.8 o una versión con mejor BrowseComp revierta el retroceso en búsqueda agentic.
El impacto real del tokenizador en casos de uso específicos varía y no hay una tabla oficial por tipo de texto.
Las mejoras en razonamiento multi-paso no tienen un benchmark estandarizado independiente que las valide más allá de los reportes de Anthropic.

Errores comunes al migrar de 4.6 a 4.7

Asumir que el costo es el mismo

El precio por token no cambió, pero el tokenizador nuevo puede hacer que el mismo texto consuma hasta 35% más tokens. Si no medís el token count real en tus prompts actuales antes de migrar, podés llevarte una sorpresa en la factura del mes.

Migrar sin probar prompts implícitos

Opus 4.7 es más literal. Un prompt que en 4.6 producía una respuesta interpretativa (“entendé qué quiero decir”) puede producir algo estrictamente literal en 4.7. Esto es especialmente relevante en prompts conversacionales o con instrucciones ambiguas que el modelo anterior “entendía” por contexto.

Esperar los mismos resultados en búsqueda web

Si tenés un agente que hace research vía browse, los resultados de BrowseComp indican que 4.7 es peor que 4.6 en esa tarea específica. Muchos equipos asumen que una versión nueva siempre mejora todo. Acá no es así, y Anthropic no lo oculta.

Si querés profundizar, podés leer nuestro análisis en Differences Between Opus 4.6 and Opus 4.7 on MineBench.

Profundizamos en esto en Differences Between Opus 4.6 and Opus 4.7 on MineBench, donde comparamos ambas versiones.

Preguntas Frecuentes

¿Cuáles son las principales diferencias entre Opus 4.7 y Opus 4.6?

Opus 4.7 mejora principalmente en codificación (SWE-bench Pro: 64.3% vs 53.4%), visión de alta resolución (3.75MP vs 1.15MP) y procesamiento de documentos (OfficeQA Pro: 80.6% vs 57.1%). Tiene un tokenizador nuevo que consume hasta 35% más tokens y es más literal en la interpretación de instrucciones. BrowseComp bajó de 83.7% a 79.3%. Lo explicamos a fondo en técnicas avanzadas de prompting.

¿Conviene actualizar a Opus 4.7 o sigo usando Opus 4.6?

Depende del caso de uso. Para workflows de código y agentes, Opus 4.7 es claramente mejor. Para búsqueda web agentic, 4.6 tiene mejores números. Antes de migrar en producción, corré tus prompts actuales en ambos modelos y medí costo real con el nuevo tokenizador.

¿En qué benchmarks Opus 4.7 supera a Opus 4.6?

Opus 4.7 gana 12 de 14 benchmarks reportados. Los más significativos: OfficeQA Pro (+23.5 pp), CursorBench (+12 pp), SWE-bench Pro (+10.9 pp), y MCP-Atlas herramientas (+1.5 pp). La excepción principal es BrowseComp, donde bajó 4.4 puntos porcentuales.

¿Opus 4.7 tiene desventajas respecto a 4.6?

Sí, dos concretas. Primero, el tokenizador nuevo consume más tokens por el mismo texto (hasta 35% más), lo que eleva el costo efectivo aunque el precio por token no cambió. Segundo, BrowseComp bajó de 83.7% a 79.3%, quedando por debajo de varios competidores en tareas de búsqueda web agentic. También es más literal, lo que puede afectar prompts que dependían de interpretación implícita.

¿Cambiará el costo si migro a Opus 4.7?

El precio oficial es el mismo: $5 por millón de tokens de input y $25 de output. Pero el nuevo tokenizador puede hacer que un texto que antes consumía 1000 tokens ahora consuma hasta 1350. El costo por tarea puede subir hasta un 35%, dependiendo del tipo de contenido que proceses.

Conclusión

Opus 4.7 es un paso adelante real, pero específico. Si trabajás con código, agentes multi-paso o procesás imágenes con texto, los números justifican la migración. Si tu caso de uso central es búsqueda web agentic, el modelo retrocedió respecto a 4.6 y quedó por debajo de competidores directos.

Lo que no podés ignorar es el tokenizador. El mismo precio por token no garantiza el mismo costo total. Medí antes de migrar, especialmente si tenés volúmenes altos. Subís el modelo, probás en local, funciona bárbaro, lo mandás a producción y de repente el costo mensual subió 20% porque nadie calculó el impacto del tokenizador nuevo en los prompts de 800 tokens que se lanzan 5000 veces por día.

Anthropic viene iterando rápido y con transparencia sobre dónde mejoran y dónde no. Eso es apreciable. El paso siguiente va a ser interesante: si van a recuperar el terreno perdido en búsqueda web o si ese es un trade-off intencional que mantienen en versiones futuras.

Opus 4.7 vs Opus 4.6: ¿Cuál es Mejor?