Opus 4.7: ¿Por qué cayó el rendimiento?

Claude Opus 4.7, lanzado el 16 de abril de 2026, mejora un 10.9% en SWE-bench Pro respecto a Opus 4.6 (53.4% → 64.3%) y triplica el rendimiento en visión (54.5% → 98.5%). Pero el nuevo tokenizador genera hasta 35% más tokens por el mismo texto, y hay una regresión real en BrowseComp de 4.4 puntos. La caída de rendimiento que reportan usuarios es parcialmente real, parcialmente malentendida.

En 30 segundos

  • Opus 4.7 supera a Opus 4.6 en SWE-bench Pro (64.3% vs 53.4%) y aplasta en visión (98.5% vs 54.5%), según benchmarks de Vellum AI.
  • El tokenizador actualizado genera 0-35% más tokens por el mismo contenido, lo que sube el costo real aunque el precio por token no cambió ($5/$25).
  • BrowseComp cae 4.4 puntos respecto a Opus 4.6, la única regresión clara y documentada.
  • Anthropic reconoce que Opus 4.7 no alcanza a Mythos, el modelo en beta que están probando con acceso limitado.
  • Para tareas de navegación web y scraping, Opus 4.6 sigue siendo la mejor opción hoy.

GPT es un modelo de lenguaje grande desarrollado por OpenAI que utiliza la arquitectura Transformer para generar texto y responder preguntas. Funciona mediante pre-entrenamiento en corpus de texto de gran escala.

La polémica: de Opus 4.6 a 4.7 y el fantasma de la “AI shrinkflation”

Claude Opus 4.7 es el modelo de razonamiento extendido de Anthropic lanzado el 16 de abril de 2026, posicionado como el sucesor directo de Opus 4.6 con capacidades reforzadas de coding agentic, visión y razonamiento de nivel xhigh. Es el modelo más caro de la línea actual: $5 por millón de tokens de entrada y $25 por millón de salida.

Semanas antes del lanzamiento, las quejas sobre Opus 4.6 ya eran un ruido constante en foros y discords de desarrolladores. Regresiones en precisión, respuestas más genéricas, outputs que “se sentían diferentes” a los de meses anteriores. El término que empezó a circular fue el de “AI shrinkflation”, el mismo debate que persiguió a OpenAI cuando los usuarios detectaron que GPT-4 parecía menos capaz con el tiempo.

Entonces Anthropic lanzó Opus 4.7. ¿Y qué pasó? Exacto: algunos dijeron que ahora iba peor.

La realidad es más matizada. Hay mejoras reales, hay una regresión puntual, y hay un cambio de tokenizador que confunde a muchos porque los números de uso explotan sin que el modelo sea “peor”. Veamos qué dice la data.

Dónde mejora Opus 4.7: los benchmarks que suben de verdad

Ponele que tenés un agente que tiene que resolver issues de GitHub de manera autónoma. Ese es básicamente el escenario que mide SWE-bench. Ahí, Opus 4.7 pasa de 53.4% a 64.3% en la versión Pro, según el análisis de Vellum AI. Son 10.9 puntos porcentuales de diferencia, y coloca a Opus 4.7 por encima de GPT-5.4 y Gemini en esa tarea específica. En SWE-bench Verified, sube de 80.8% a 87.6%.

El salto más llamativo está en visión. De 54.5% pasa a 98.5%, casi el triple. Si tu flujo de trabajo implica análisis de imágenes, capturas de pantalla de dashboards, o procesamiento visual de cualquier tipo, acá hay una diferencia que se nota en producción (y no es marketing). Cubrimos ese tema en detalle en alternativa más eficiente y económica.

BenchmarkOpus 4.6Opus 4.7Diferencia
SWE-bench Pro53.4%64.3%+10.9 pp
SWE-bench Verified80.8%87.6%+6.8 pp
Visión54.5%98.5%+44 pp
BrowseComp~74%~69.6%-4.4 pp
Terminal-Bench 2.0N/D69.4%vs GPT-5.4: 75.1%
Claude Opus 4.7 rendimiento diagrama explicativo

El razonamiento agentic también subió. Opus 4.7 estrena el tier xhigh de thinking, que básicamente le da más tiempo de cómputo para descomponer problemas complejos antes de responder. Para análisis financiero, debugging profundo o planificación de proyectos con muchas dependencias, eso se traduce en outputs más coherentes y con menos contradicciones internas.

Dónde pierde Opus 4.7: la regresión real

BrowseComp. Eso es lo que bajó.

BrowseComp mide la capacidad del modelo para navegar, extraer y sintetizar información desde múltiples páginas web de manera autónoma. Es un benchmark que importa si usás Claude para scraping, investigación automatizada, o agentes que tienen que resolver consultas buscando en la web. El drop de 4.4 puntos es la única regresión documentada de forma clara entre las dos versiones.

Terminal-Bench 2.0, donde Opus 4.7 saca 69.4% contra 75.1% de GPT-5.4, tampoco es una victoria. Eso sí: en ese benchmark Opus 4.6 tampoco estaba mejor. No es un empeoramiento respecto a la versión anterior, sino una brecha que ya existía frente al competidor.

¿Significa esto que Opus 4.7 es peor? Para casos de uso de navegación web: sí, usá 4.6. Para el resto: los números dicen otra cosa.

El nuevo tokenizador y el costo oculto que nadie te explicó

Acá viene lo bueno, y por “bueno” me refiero a lo que más confusión genera.

Opus 4.7 tiene un tokenizador actualizado. El mismo texto que antes ocupaba X tokens ahora puede ocupar entre X y X×1.35 tokens. La variación depende del tipo de contenido: código Python bien formateado, narrativa en español, tablas estructuradas o conversación informal tienen comportamientos distintos. Según el análisis de Hipertextual, el impacto en español puede ser particularmente notable porque el nuevo tokenizador maneja mejor caracteres unicode y acentuación, lo que paradójicamente genera más tokens por palabra.

¿Por qué lo hicieron? El tokenizador más granular mejora el procesamiento semántico. El modelo “entiende” mejor los matices, pero a costa de descomponer el texto en unidades más pequeñas. Es una decisión de diseño con tradeoffs.

El impacto en costos es directo: si antes un workflow te costaba $10, con el mismo texto podés terminar pagando entre $10 y $13.50. El precio por token no cambió, pero el número de tokens sí. Cualquiera que haya corrido pipelines de procesamiento de documentos la primera semana y vio los bills dispararse sin entender por qué (spoiler: era el tokenizador) aprendió esto por las malas. Ya lo cubrimos antes en comparar con otros modelos disponibles.

Cambios de comportamiento: por qué parece “más lento” y no lo es

Hay algo más que explica las quejas de usuarios que sienten que Opus 4.7 “empeoró”: el modelo es más preciso en su scope. Si antes le pedías que revisara un módulo y te tocaba todo el archivo de paso, ahora analiza lo que le indicaste y se queda ahí. Para algunos casos de uso eso es exactamente lo que querés; para otros, extrañás el comportamiento anterior donde el modelo “se adelantaba” y completaba cosas que no le pediste.

El tier xhigh de razonamiento también produce más tokens de output porque el modelo piensa más antes de responder. Si medís performance por velocidad de primera respuesta, va a parecer más lento. Si la medís por calidad del output, el resultado es diferente.

Cualquiera que haya usado modelos con chain-of-thought explícito sabe que la latencia y la calidad se mueven en sentidos opuestos la mayoría del tiempo. Opus 4.7 empuja más hacia calidad.

¿AI shrinkflation o evolución con sacrificios calculados?

El debate de “AI shrinkflation” tiene peso cuando hay degradaciones silenciosas sin documentación. Lo que hizo OpenAI con algunas versiones de GPT-4 es un ejemplo real de cómo un modelo puede volverse menos capaz sin que nadie lo anuncie.

Con Opus 4.7 el cuadro es distinto. Las mejoras son verificables en benchmarks públicos. La regresión en BrowseComp está documentada. El cambio de tokenizador está reconocido. No es una empresa tratando de esconder una degradación, es una empresa haciendo tradeoffs y comunicándolos imperfectamente.

Eso sí: según Axios, el propio equipo de Anthropic reconoce que Opus 4.7 no alcanza a Mythos, el modelo que tienen en beta con acceso limitado a testers seleccionados. Eso es interesante porque implica que hay una versión claramente superior que no está disponible para el público general. ¿Eso es “shrinkflation”? No técnicamente, pero entiende la frustración de los usuarios que saben que existe algo mejor y no pueden usarlo.

La pregunta que muchos se hacen es si Anthropic está siguiendo el mismo camino de stratificación que OpenAI, donde los mejores modelos quedan para enterprise y el acceso general recibe versiones recortadas. Por ahora los datos no confirman eso, pero la aparición de Mythos como proyecto separado es algo para seguir de cerca. Complementá con sesgos predecibles en modelos competidores.

Routing de modelos: cuándo usar Opus 4.7, cuándo no

Si estás pagando Opus 4.7 para todo, estás gastando de más.

Usá Opus 4.7 para:

  • Coding complejo: refactoring de sistemas legacy, debugging de errores difíciles de reproducir, arquitectura de componentes
  • Análisis de imágenes y visión: el salto de 54.5% a 98.5% en benchmarks de visión es demasiado grande para ignorarlo
  • Razonamiento agentic largo: workflows de múltiples pasos donde la coherencia entre steps importa
  • Análisis de documentos extensos donde la precisión es crítica

Seguí con Opus 4.6 para:

  • Navegación y scraping web autónomo (BrowseComp: -4.4 pp en 4.7)
  • Workflows donde el tokenizador más agresivo impacta el presupuesto y la tarea no requiere razonamiento profundo

Usá Sonnet 4.6 para:

  • Tareas rutinarias de procesamiento de texto, resúmenes, clasificación
  • Alta volumetría donde el costo importa (es ~40% más barato que Opus)
  • Cualquier cosa donde la diferencia de calidad entre Sonnet y Opus no sea perceptible para el usuario final

La regla práctica: si el resultado de la tarea no cambia si usás Sonnet en vez de Opus, usá Sonnet. Guardá Opus 4.7 para donde el salto de calidad justifica el costo.

Qué está confirmado / Qué no

Confirmado

  • SWE-bench Pro: 64.3% (vs 53.4% en Opus 4.6). Fuente: Vellum AI benchmarks, abril 2026.
  • Visión: 98.5% (vs 54.5% en Opus 4.6). Medición independiente confirmada.
  • BrowseComp: caída de ~4.4 puntos respecto a Opus 4.6.
  • Tokenizador actualizado: genera más tokens para el mismo contenido (rango documentado: 0-35%).
  • Precio: $5/$25 por millón de tokens (igual que Opus 4.6).
  • Mythos existe como proyecto separado en beta con acceso limitado.

No confirmado / pendiente

  • Fecha de disponibilidad general de Mythos y sus capacidades exactas.
  • El impacto exacto del tokenizador en diferentes idiomas y tipos de contenido (los números varían según la fuente).
  • Si las regresiones en BrowseComp son permanentes o van a parcharse en versiones puntuales.
  • Comparativa directa Opus 4.7 vs GPT-5.4 en benchmarks de navegación.

Errores comunes al migrar a Opus 4.7

Error 1: Asumir que “más tokens = peor modelo”. El aumento de tokens en Opus 4.7 no es una regresión de eficiencia, es un cambio de tokenizador. El modelo no se volvió más verborrágico; el mismo texto se divide diferente. Si tus costos subieron, revisá si el volumen de tokens de output también subió o es solo el input. Si es el input, es el tokenizador. Si es el output, ahí sí hay algo que investigar.

Error 2: Usar Opus 4.7 para scraping o navegación web autónoma sin testear primero. La regresión en BrowseComp es real. Si tu aplicación depende de agentes que navegan la web, hacé una comparativa A/B antes de migrar. En algunos casos vas a preferir quedarte con 4.6 para esa tarea específica.

Error 3: No revisar el routing después de la migración. Si antes tenías configurado “siempre Opus para todo lo que importa”, con 4.7 conviene revisar qué tareas realmente se benefician del tier xhigh de razonamiento. El mayor costo efectivo por el tokenizador hace que el análisis costo-beneficio cambie.

Preguntas Frecuentes

¿Claude Opus 4.7 realmente tiene una caída de rendimiento respecto a 4.6?

Depende de la tarea. En BrowseComp (navegación web autónoma) bajó ~4.4 puntos. En coding (SWE-bench Pro), visión y razonamiento agentic mejoró de forma significativa. La percepción de “caída” que reportan usuarios viene en parte del nuevo tokenizador que genera más tokens y de un comportamiento más acotado que antes, no de una degradación general del modelo.

¿Cuántos tokens más consume Opus 4.7 con el mismo contenido?

El rango documentado es 0-35% más tokens por el mismo texto, según el tipo de contenido. El código Python estructurado y el texto en español con acentuación son los más afectados. El precio por token no cambió ($5/$25), pero el número de tokens sí, lo que eleva el costo real de forma variable. En ejecutar modelos sin degradación de rendimiento profundizamos sobre esto.

¿Debería actualizar de Opus 4.6 a Opus 4.7?

Para coding complejo, análisis de imágenes y razonamiento agentic profundo, sí. Para navegación web autónoma y scraping, quedarte con 4.6 tiene sentido hasta que Anthropic publique una actualización que corrija la regresión en BrowseComp. Para tareas de volumen alto y baja complejidad, Sonnet 4.6 sigue siendo la opción más costo-efectiva.

¿Qué mejora concretamente en Opus 4.7?

SWE-bench Pro sube de 53.4% a 64.3% (+10.9 pp, superando a GPT-5.4 y Gemini en ese benchmark). Visión pasa de 54.5% a 98.5%. Aparece el tier xhigh de razonamiento para análisis de problemas complejos. SWE-bench Verified sube de 80.8% a 87.6%.

¿Qué es Mythos y por qué importa para entender Opus 4.7?

Mythos es el modelo de próxima generación de Anthropic que está en beta con acceso limitado. Anthropic reconoció que Opus 4.7 no alcanza las capacidades de Mythos. Eso significa que hay una versión más capaz ya construida pero no disponible públicamente. El timing de ese lanzamiento y sus capacidades exactas siguen sin confirmarse.

Conclusión

Claude Opus 4.7 no es un downgrade. Tampoco es la actualización sin compromisos que algunos esperaban. Mejoró donde tenía que mejorar (coding agentic, visión, razonamiento profundo) y retrocedió en un área específica (navegación web) por razones que probablemente tienen que ver con las decisiones de optimización del tokenizador y el foco en razonamiento extendido.

Lo que sí cambió, y hay que nombrarlo, es el costo efectivo. Con el nuevo tokenizador generando hasta 35% más tokens para el mismo input, los presupuestos de proyectos de alto volumen van a subir aunque el precio por token no se haya movido. Eso requiere revisar el routing de modelos y ser más selectivo sobre cuándo vale la pena pagar por Opus.

Si usás Claude para coding complejo o visión, actualizá. Si tu aplicación principal depende de navegación web autónoma, esperá o mantené 4.6 para esa tarea. Y para el resto, Sonnet 4.6 sigue siendo la opción con mejor relación costo-calidad del catálogo actual.

Fuentes

Desplazarse hacia arriba