Opus 4.7 vs Opus 4.6: Anthropic lanzó Claude Opus 4.7 el 16 de abril de 2026 con mejoras concretas en codificación y visión, ganando 12 de 14 benchmarks principales. El salto más grande está en SWE-bench Pro (64.3% contra 53.4%) y en resolución de imágenes, que pasó de 1.15 a 3.75 megapíxeles. El precio se mantiene igual: $5/$25 por millón de tokens.
En 30 segundos
- Opus 4.7 supera a 4.6 en 12 de 14 benchmarks, con el mayor salto en tareas de código: SWE-bench Pro subió de 53.4% a 64.3% y CursorBench de 58% a 70%.
- La visión mejoró radicalmente: pasó de 1568px a 2576px de resolución máxima (3x más píxeles), habilitando lectura de texto pequeño en interfaces y gráficos complejos.
- El nuevo tokenizador consume hasta 35% más tokens por el mismo texto, lo que puede encarecer el uso si el volumen es alto.
- BrowseComp bajó de 83.7% a 79.3%, por debajo de competidores como GPT-5.4 (89.3%) y Gemini 3.1 Pro (85.9%).
- El precio no cambió ($5 input / $25 output por MTok), pero los costos efectivos pueden subir por el tokenizador.
Gemini es un modelo de lenguaje grande desarrollado por Google, diseñado para procesar y generar texto, código e imágenes a través de múltiples modalidades. Fue lanzado inicialmente en diciembre de 2023 como sucesor de PaLM 2.
Dos generaciones de Claude Opus, un salto concreto
Claude Opus 4.7 es el modelo de razonamiento avanzado de Anthropic lanzado el 16 de abril de 2026, sucesor directo de Opus 4.6. Comparte precio y contexto máximo, pero Anthropic rediseñó el tokenizador, mejoró sustancialmente las capacidades de visión, y apuntó específicamente a tareas de código y agentes autónomos.
La pregunta que se hace cualquiera que usa la API: ¿vale la pena migrar? Depende mucho de qué usás. Si trabajás con código o procesás imágenes, probablemente sí. Si dependés de búsqueda web agentic o tus prompts asumen interpretación flexible del modelo, hay cosas que revisarte antes de cambiar.
Fijate que Anthropic describe el salto en código como “step-change improvement”, lo que en su vocabulario quiere decir más que una mejora incremental. Los números en SWE-bench Pro avalan la afirmación: 64.3% versus 53.4% es casi 11 puntos porcentuales de diferencia, según el anuncio oficial de Anthropic. Para benchmarks de codificación, eso es bastante.
Codificación y agentes: acá es donde más se nota
Ponele que tenés un pipeline agentic que resuelve tickets de GitHub: asigna código, corre tests, manda el PR. Esa clase de tarea es donde Opus 4.7 muestra la mayor diferencia respecto a 4.6.
Los benchmarks de referencia son SWE-bench Pro (resolución de bugs reales en repos de producción) y CursorBench (tareas de edición de código en contexto IDE). Opus 4.7 logró 64.3% en SWE-bench Pro contra el 53.4% de 4.6, y 70% en CursorBench contra 58%. Anthropic también reporta que el modelo resuelve tres veces más tareas agentic de producción que su predecesor.
Lo que mejora no es la velocidad ni la longitud de respuesta, sino la capacidad de razonamiento multi-paso: Opus 4.7 toma mejores decisiones cuando tiene que encadenar varias acciones antes de llegar al resultado. Cualquiera que haya intentado que un modelo edite un archivo, corra los tests y aplique un fix dependiendo del output sabe que los errores se acumulan exponencialmente a cada paso. El modelo nuevo falla menos en esas cadenas. Relacionado: análisis comparativo Opus vs Gemini.
¿Eso lo convierte en perfecto para código? No. Pero es el modelo más capaz que Anthropic tiene disponible para eso ahora mismo.
Visión de alta resolución: el cambio más visible (literalmente)
Opus 4.7 es el primer modelo de Claude con visión de alta resolución. Pasó de 1568 píxeles y 1.15 megapíxeles a 2576 píxeles y 3.75 megapíxeles, lo que equivale a aproximadamente tres veces más píxeles por imagen.
En práctica eso significa que ahora puede leer texto pequeño en interfaces de usuario, identificar valores en gráficos con muchas líneas, y localizar elementos precisos en dashboards complejos. Con Opus 4.6, una captura de pantalla de un panel de analytics perdía detalle en etiquetas y ejes. Opus 4.7 los lee.
Caso de uso concreto: mandás un screenshot de Looker Studio con 15 métricas y le pedís que identifique cuáles cayeron semana a semana. Antes de 4.7, la respuesta era genérica. Ahora puede leer los números directamente.
El tokenizador nuevo y el costo real
Acá viene lo que mucha gente no está leyendo: el nuevo tokenizador de Opus 4.7 puede consumir entre 1.0x y 1.35x más tokens por el mismo texto que en 4.6.
El precio oficial sigue siendo $5 por millón de tokens de input y $25 de output. Igual que antes. Pero si el mismo artículo de 2000 palabras que antes costaba 500 tokens ahora cuesta 650, el costo efectivo por tarea sube hasta 30%. Multiplicalo por el volumen que manejás por día y el impacto puede ser significativo. Complementá con para seguridad corporativa.
Eso sí, Anthropic no lo oculta: está documentado. El consejo obvio es hacer pruebas con tus prompts actuales antes de migrar, no asumir que el costo va a ser el mismo.
Benchmarks generales: 12 de 14
Según los datos reportados en comparativas detalladas de la API, Opus 4.7 supera a 4.6 en 12 de los 14 benchmarks considerados. Los saltos más llamativos:
| Benchmark | Opus 4.6 | Opus 4.7 | Diferencia |
|---|---|---|---|
| SWE-bench Pro | 53.4% | 64.3% | +10.9 pp |
| CursorBench | 58% | 70% | +12 pp |
| OfficeQA Pro | 57.1% | 80.6% | +23.5 pp |
| Herramientas/MCP-Atlas | 75.8% | 77.3% | +1.5 pp |
| BrowseComp (búsqueda agentic) | 83.7% | 79.3% | -4.4 pp |

OfficeQA Pro es el salto más grande: 23.5 puntos porcentuales de diferencia. Es un benchmark de procesamiento de documentos y tablas complejas, lo que se alinea con las mejoras en visión. El dato de MCP-Atlas (herramientas y function calling) es más modesto, subió menos de dos puntos.
Dónde Opus 4.7 no mejora (o directamente retrocede)
BrowseComp bajó de 83.7% a 79.3%. Ese benchmark mide capacidad de búsqueda web agentic, y Opus 4.7 quedó por debajo de Gemini 3.1 Pro (85.9%) y GPT-5.4 (89.3%). No es una caída accidental.
¿Alguien lo verificó de forma independiente? Los datos de MineBench confirman la tendencia. Anthropic tomó la decisión deliberada de escalar las capacidades de ciberseguridad de forma más controlada en esta versión, lo que también trajo un comportamiento más estricto y literal en la interpretación de instrucciones. El modelo ya no “lee entre líneas” como lo hacía 4.6.
Para la mayoría de los casos de uso eso no es un problema. Pero si tenías prompts que dependían de que el modelo infiriera intención más allá de lo que decía textualmente, puede que notes diferencias raras en el output. La “flexibilidad interpretativa” de 4.6 (si eso cuenta como mejora) no está en 4.7.
Guía de migración: cuándo cambiar y cuándo esperar
Migrá si
Tus workflows son principalmente de código: debugging, refactor, generación de funciones complejas, o agentes que resuelven tickets. También si procesás imágenes con texto o gráficos que antes perdían detalle. El salto en SWE-bench Pro y CursorBench es lo suficientemente grande como para notarlo en producción. Cubrimos ese tema en detalle en cómo se compara con ChatGPT.
Tomalo con pinzas si
Usás búsqueda web agentic como parte central de tu pipeline. BrowseComp bajó, y si tu caso de uso depende de que el modelo navegue, busque y sintetice información de la web, Opus 4.7 puede darte peores resultados que 4.6 (o que otros modelos del mercado).
Antes de cambiar en producción
Corré tus prompts actuales en ambos modelos con el mismo set de inputs. Medí: calidad de output, cantidad de tokens consumidos, y costo resultante. El tokenizador nuevo puede romper tu budget si no lo anticipás. Sumás tener en cuenta que las instrucciones muy implícitas o conversacionales pueden comportarse distinto con el nuevo modelo, que es más literal.
Qué está confirmado / Qué no
Confirmado por Anthropic
- Lanzamiento el 16 de abril de 2026 con disponibilidad inmediata en la API.
- Precio idéntico a Opus 4.6: $5 input / $25 output por millón de tokens.
- SWE-bench Pro: 64.3% (vs 53.4% de 4.6).
- Visión de alta resolución: 2576px / 3.75MP (vs 1568px / 1.15MP).
- Tokenizador nuevo con mayor consumo: entre 1.0x y 1.35x más tokens.
- Nuevo nivel de razonamiento “xhigh” para tareas intermedias complejas.
No confirmado o pendiente
- No hay una fecha pública para que Opus 4.8 o una versión con mejor BrowseComp revierta el retroceso en búsqueda agentic.
- El impacto real del tokenizador en casos de uso específicos varía y no hay una tabla oficial por tipo de texto.
- Las mejoras en razonamiento multi-paso no tienen un benchmark estandarizado independiente que las valide más allá de los reportes de Anthropic.
Errores comunes al migrar de 4.6 a 4.7
Asumir que el costo es el mismo
El precio por token no cambió, pero el tokenizador nuevo puede hacer que el mismo texto consuma hasta 35% más tokens. Si no medís el token count real en tus prompts actuales antes de migrar, podés llevarte una sorpresa en la factura del mes.
Migrar sin probar prompts implícitos
Opus 4.7 es más literal. Un prompt que en 4.6 producía una respuesta interpretativa (“entendé qué quiero decir”) puede producir algo estrictamente literal en 4.7. Esto es especialmente relevante en prompts conversacionales o con instrucciones ambiguas que el modelo anterior “entendía” por contexto.
Esperar los mismos resultados en búsqueda web
Si tenés un agente que hace research vía browse, los resultados de BrowseComp indican que 4.7 es peor que 4.6 en esa tarea específica. Muchos equipos asumen que una versión nueva siempre mejora todo. Acá no es así, y Anthropic no lo oculta.
Preguntas Frecuentes
¿Cuáles son las principales diferencias entre Opus 4.7 y Opus 4.6?
Opus 4.7 mejora principalmente en codificación (SWE-bench Pro: 64.3% vs 53.4%), visión de alta resolución (3.75MP vs 1.15MP) y procesamiento de documentos (OfficeQA Pro: 80.6% vs 57.1%). Tiene un tokenizador nuevo que consume hasta 35% más tokens y es más literal en la interpretación de instrucciones. BrowseComp bajó de 83.7% a 79.3%. Lo explicamos a fondo en técnicas avanzadas de prompting.
¿Conviene actualizar a Opus 4.7 o sigo usando Opus 4.6?
Depende del caso de uso. Para workflows de código y agentes, Opus 4.7 es claramente mejor. Para búsqueda web agentic, 4.6 tiene mejores números. Antes de migrar en producción, corré tus prompts actuales en ambos modelos y medí costo real con el nuevo tokenizador.
¿En qué benchmarks Opus 4.7 supera a Opus 4.6?
Opus 4.7 gana 12 de 14 benchmarks reportados. Los más significativos: OfficeQA Pro (+23.5 pp), CursorBench (+12 pp), SWE-bench Pro (+10.9 pp), y MCP-Atlas herramientas (+1.5 pp). La excepción principal es BrowseComp, donde bajó 4.4 puntos porcentuales.
¿Opus 4.7 tiene desventajas respecto a 4.6?
Sí, dos concretas. Primero, el tokenizador nuevo consume más tokens por el mismo texto (hasta 35% más), lo que eleva el costo efectivo aunque el precio por token no cambió. Segundo, BrowseComp bajó de 83.7% a 79.3%, quedando por debajo de varios competidores en tareas de búsqueda web agentic. También es más literal, lo que puede afectar prompts que dependían de interpretación implícita.
¿Cambiará el costo si migro a Opus 4.7?
El precio oficial es el mismo: $5 por millón de tokens de input y $25 de output. Pero el nuevo tokenizador puede hacer que un texto que antes consumía 1000 tokens ahora consuma hasta 1350. El costo por tarea puede subir hasta un 35%, dependiendo del tipo de contenido que proceses.
Conclusión
Opus 4.7 es un paso adelante real, pero específico. Si trabajás con código, agentes multi-paso o procesás imágenes con texto, los números justifican la migración. Si tu caso de uso central es búsqueda web agentic, el modelo retrocedió respecto a 4.6 y quedó por debajo de competidores directos.
Lo que no podés ignorar es el tokenizador. El mismo precio por token no garantiza el mismo costo total. Medí antes de migrar, especialmente si tenés volúmenes altos. Subís el modelo, probás en local, funciona bárbaro, lo mandás a producción y de repente el costo mensual subió 20% porque nadie calculó el impacto del tokenizador nuevo en los prompts de 800 tokens que se lanzan 5000 veces por día.
Anthropic viene iterando rápido y con transparencia sobre dónde mejoran y dónde no. Eso es apreciable. El paso siguiente va a ser interesante: si van a recuperar el terreno perdido en búsqueda web o si ese es un trade-off intencional que mantienen en versiones futuras.
