Claude Opus 4.7: caída de rendimiento real

En pocas palabras: El rendimiento de Opus 4.7 no cayó en tareas de código ni visión: mejoró 10.9% en SWE-bench Pro y triplicó resultados en visión. La percepción de caída se explica por el nuevo tokenizador, que genera hasta 35% más tokens por el mismo texto, elevando el costo real desde el 16 de abril de 2026.

Ejemplo práctico

Martín Rosales, desarrollador freelance de Buenos Aires, tenía un agente de scraping y resumen de licitaciones públicas que corría sobre Opus 4.6. El agente procesaba 40 PDFs por semana, extrayendo montos, fechas y organismos, con un costo promedio de $3.20 por corrida completa. Cuando migró a Opus 4.7 sin cambiar nada del prompt, el costo subió a $4.35 por corrida, un aumento del 36% que no esperaba porque el precio por token era el mismo. Al analizar los logs, confirmó que el nuevo tokenizador fragmentaba los números con separadores de miles (“1.500.000”) en más tokens que antes, inflando el conteo en documentos con tablas de presupuesto.

Probó entonces mover la parte de navegación y scraping de URLs de licitaciones de vuelta a Opus 4.6, y reservar Opus 4.7 únicamente para el paso de síntesis y redacción del informe final, donde el salto en calidad de razonamiento sí se notaba. El resultado: costo total de $3.50 por corrida, precisión en extracción de datos igual a la anterior, y resúmenes ejecutivos notablemente más claros según el feedback de su cliente.

Resultado: Arquitectura híbrida Opus 4.6 (scraping) + Opus 4.7 (síntesis) redujo el costo un 20% respecto a usar Opus 4.7 solo, manteniendo la mejora de calidad en la etapa que realmente la justificaba.

Cómo funciona

Evaluación de benchmarks: Anthropic mide el rendimiento de cada versión del modelo usando conjuntos de pruebas estandarizados como SWE-bench Pro (para código) y BrowseComp (para navegación web), comparando los resultados entre versiones para identificar mejoras y regresiones.
Actualización del tokenizador: Con cada versión nueva, el tokenizador puede cambiar su forma de fragmentar el texto en tokens. En Opus 4.7, el nuevo tokenizador divide el mismo contenido en más partes, generando hasta un 35% de tokens adicionales aunque el texto sea idéntico al que procesaba Opus 4.6.
Impacto real en el costo: Como la facturación se cobra por token consumido, más tokens por el mismo texto equivale a un gasto mayor aunque el precio unitario no haya variado. Los usuarios perciben esto como una “caída de rendimiento” cuando en realidad es un aumento encubierto del costo.
Regresión documentada en navegación: En tareas de browsing y scraping, Opus 4.7 retrocede 4.4 puntos respecto a su versión anterior. Anthropic lo reconoce abiertamente: para estos casos específicos, Opus 4.6 sigue siendo la opción más eficiente.
Decisión de versión según caso de uso: Para elegir el modelo correcto, el criterio es simple: tareas de código y visión → Opus 4.7; tareas de navegación web o cuando el costo por token es crítico → Opus 4.6 hasta que se publique una versión con el tokenizador optimizado.

Claude Opus 4.7, lanzado el 16 de abril de 2026, mejora un 10.9% en SWE-bench Pro respecto a Opus 4.6 (53.4% → 64.3%) y triplica el rendimiento en visión (54.5% → 98.5%). Pero el nuevo tokenizador genera hasta 35% más tokens por el mismo texto, y hay una regresión real en BrowseComp de 4.4 puntos. La caída de rendimiento que reportan usuarios es parcialmente real, parcialmente malentendida.

En 30 segundos

Opus 4.7 supera a Opus 4.6 en SWE-bench Pro (64.3% vs 53.4%) y aplasta en visión (98.5% vs 54.5%), según benchmarks de Vellum AI.
El tokenizador actualizado genera 0-35% más tokens por el mismo contenido, lo que sube el costo real aunque el precio por token no cambió ($5/$25).
BrowseComp cae 4.4 puntos respecto a Opus 4.6, la única regresión clara y documentada.
Anthropic reconoce que Opus 4.7 no alcanza a Mythos, el modelo en beta que están probando con acceso limitado.
Para tareas de navegación web y scraping, Opus 4.6 sigue siendo la mejor opción hoy.

GPT es un modelo de lenguaje grande desarrollado por OpenAI que utiliza la arquitectura Transformer para generar texto y responder preguntas. Funciona mediante pre-entrenamiento en corpus de texto de gran escala.

La polémica: de Opus 4.6 a 4.7 y el fantasma de la “AI shrinkflation”

Claude Opus 4.7 es el modelo de razonamiento extendido de Anthropic lanzado el 16 de abril de 2026, posicionado como el sucesor directo de Opus 4.6 con capacidades reforzadas de coding agentic, visión y razonamiento de nivel xhigh. Es el modelo más caro de la línea actual: $5 por millón de tokens de entrada y $25 por millón de salida.

Semanas antes del lanzamiento, las quejas sobre Opus 4.6 ya eran un ruido constante en foros y discords de desarrolladores. Regresiones en precisión, respuestas más genéricas, outputs que “se sentían diferentes” a los de meses anteriores. El término que empezó a circular fue el de “AI shrinkflation”, el mismo debate que persiguió a OpenAI cuando los usuarios detectaron que GPT-4 parecía menos capaz con el tiempo.

Entonces Anthropic lanzó Opus 4.7. ¿Y qué pasó? Exacto: algunos dijeron que ahora iba peor.

La realidad es más matizada. Hay mejoras reales, hay una regresión puntual, y hay un cambio de tokenizador que confunde a muchos porque los números de uso explotan sin que el modelo sea “peor”. Veamos qué dice la data.

Dónde mejora Opus 4.7: los benchmarks que suben de verdad

Ponele que tenés un agente que tiene que resolver issues de GitHub de manera autónoma. Ese es básicamente el escenario que mide SWE-bench. Ahí, Opus 4.7 pasa de 53.4% a 64.3% en la versión Pro, según el análisis de Vellum AI. Son 10.9 puntos porcentuales de diferencia, y coloca a Opus 4.7 por encima de GPT-5.4 y Gemini en esa tarea específica. En SWE-bench Verified, sube de 80.8% a 87.6%.

El salto más llamativo está en visión. De 54.5% pasa a 98.5%, casi el triple. Si tu flujo de trabajo implica análisis de imágenes, capturas de pantalla de dashboards, o procesamiento visual de cualquier tipo, acá hay una diferencia que se nota en producción (y no es marketing). Cubrimos ese tema en detalle en alternativa más eficiente y económica.

Benchmark	Opus 4.6	Opus 4.7	Diferencia
SWE-bench Pro	53.4%	64.3%	+10.9 pp
SWE-bench Verified	80.8%	87.6%	+6.8 pp
Visión	54.5%	98.5%	+44 pp
BrowseComp	~74%	~69.6%	-4.4 pp
Terminal-Bench 2.0	N/D	69.4%	vs GPT-5.4: 75.1%

Claude Opus 4.7 rendimiento diagrama explicativo

El razonamiento agentic también subió. Opus 4.7 estrena el tier xhigh de thinking, que básicamente le da más tiempo de cómputo para descomponer problemas complejos antes de responder. Para análisis financiero, debugging profundo o planificación de proyectos con muchas dependencias, eso se traduce en outputs más coherentes y con menos contradicciones internas.

Dónde pierde Opus 4.7: la regresión real

BrowseComp. Eso es lo que bajó.

BrowseComp mide la capacidad del modelo para navegar, extraer y sintetizar información desde múltiples páginas web de manera autónoma. Es un benchmark que importa si usás Claude para scraping, investigación automatizada, o agentes que tienen que resolver consultas buscando en la web. El drop de 4.4 puntos es la única regresión documentada de forma clara entre las dos versiones.

Terminal-Bench 2.0, donde Opus 4.7 saca 69.4% contra 75.1% de GPT-5.4, tampoco es una victoria. Eso sí: en ese benchmark Opus 4.6 tampoco estaba mejor. No es un empeoramiento respecto a la versión anterior, sino una brecha que ya existía frente al competidor.

¿Significa esto que Opus 4.7 es peor? Para casos de uso de navegación web: sí, usá 4.6. Para el resto: los números dicen otra cosa.

El nuevo tokenizador y el costo oculto que nadie te explicó

Acá viene lo bueno, y por “bueno” me refiero a lo que más confusión genera.

Opus 4.7 tiene un tokenizador actualizado. El mismo texto que antes ocupaba X tokens ahora puede ocupar entre X y X×1.35 tokens. La variación depende del tipo de contenido: código Python bien formateado, narrativa en español, tablas estructuradas o conversación informal tienen comportamientos distintos. Según el análisis de Hipertextual, el impacto en español puede ser particularmente notable porque el nuevo tokenizador maneja mejor caracteres unicode y acentuación, lo que paradójicamente genera más tokens por palabra.

¿Por qué lo hicieron? El tokenizador más granular mejora el procesamiento semántico. El modelo “entiende” mejor los matices, pero a costa de descomponer el texto en unidades más pequeñas. Es una decisión de diseño con tradeoffs.

El impacto en costos es directo: si antes un workflow te costaba $10, con el mismo texto podés terminar pagando entre $10 y $13.50. El precio por token no cambió, pero el número de tokens sí. Cualquiera que haya corrido pipelines de procesamiento de documentos la primera semana y vio los bills dispararse sin entender por qué (spoiler: era el tokenizador) aprendió esto por las malas. Ya lo cubrimos antes en comparar con otros modelos disponibles.

Cambios de comportamiento: por qué parece “más lento” y no lo es

Hay algo más que explica las quejas de usuarios que sienten que Opus 4.7 “empeoró”: el modelo es más preciso en su scope. Si antes le pedías que revisara un módulo y te tocaba todo el archivo de paso, ahora analiza lo que le indicaste y se queda ahí. Para algunos casos de uso eso es exactamente lo que querés; para otros, extrañás el comportamiento anterior donde el modelo “se adelantaba” y completaba cosas que no le pediste.

El tier xhigh de razonamiento también produce más tokens de output porque el modelo piensa más antes de responder. Si medís performance por velocidad de primera respuesta, va a parecer más lento. Si la medís por calidad del output, el resultado es diferente.

Cualquiera que haya usado modelos con chain-of-thought explícito sabe que la latencia y la calidad se mueven en sentidos opuestos la mayoría del tiempo. Opus 4.7 empuja más hacia calidad.

¿AI shrinkflation o evolución con sacrificios calculados?

El debate de “AI shrinkflation” tiene peso cuando hay degradaciones silenciosas sin documentación. Lo que hizo OpenAI con algunas versiones de GPT-4 es un ejemplo real de cómo un modelo puede volverse menos capaz sin que nadie lo anuncie.

Con Opus 4.7 el cuadro es distinto. Las mejoras son verificables en benchmarks públicos. La regresión en BrowseComp está documentada. El cambio de tokenizador está reconocido. No es una empresa tratando de esconder una degradación, es una empresa haciendo tradeoffs y comunicándolos imperfectamente.

Eso sí: según Axios, el propio equipo de Anthropic reconoce que Opus 4.7 no alcanza a Mythos, el modelo que tienen en beta con acceso limitado a testers seleccionados. Eso es interesante porque implica que hay una versión claramente superior que no está disponible para el público general. ¿Eso es “shrinkflation”? No técnicamente, pero entiende la frustración de los usuarios que saben que existe algo mejor y no pueden usarlo.

La pregunta que muchos se hacen es si Anthropic está siguiendo el mismo camino de stratificación que OpenAI, donde los mejores modelos quedan para enterprise y el acceso general recibe versiones recortadas. Por ahora los datos no confirman eso, pero la aparición de Mythos como proyecto separado es algo para seguir de cerca. Complementá con sesgos predecibles en modelos competidores.

Routing de modelos: cuándo usar Opus 4.7, cuándo no

Si estás pagando Opus 4.7 para todo, estás gastando de más.

Usá Opus 4.7 para:

Coding complejo: refactoring de sistemas legacy, debugging de errores difíciles de reproducir, arquitectura de componentes
Análisis de imágenes y visión: el salto de 54.5% a 98.5% en benchmarks de visión es demasiado grande para ignorarlo
Razonamiento agentic largo: workflows de múltiples pasos donde la coherencia entre steps importa
Análisis de documentos extensos donde la precisión es crítica

Seguí con Opus 4.6 para:

Navegación y scraping web autónomo (BrowseComp: -4.4 pp en 4.7)
Workflows donde el tokenizador más agresivo impacta el presupuesto y la tarea no requiere razonamiento profundo

Usá Sonnet 4.6 para:

Tareas rutinarias de procesamiento de texto, resúmenes, clasificación
Alta volumetría donde el costo importa (es ~40% más barato que Opus)
Cualquier cosa donde la diferencia de calidad entre Sonnet y Opus no sea perceptible para el usuario final

La regla práctica: si el resultado de la tarea no cambia si usás Sonnet en vez de Opus, usá Sonnet. Guardá Opus 4.7 para donde el salto de calidad justifica el costo.

Qué está confirmado / Qué no

Confirmado

SWE-bench Pro: 64.3% (vs 53.4% en Opus 4.6). Fuente: Vellum AI benchmarks, abril 2026.
Visión: 98.5% (vs 54.5% en Opus 4.6). Medición independiente confirmada.
BrowseComp: caída de ~4.4 puntos respecto a Opus 4.6.
Tokenizador actualizado: genera más tokens para el mismo contenido (rango documentado: 0-35%).
Precio: $5/$25 por millón de tokens (igual que Opus 4.6).
Mythos existe como proyecto separado en beta con acceso limitado.

No confirmado / pendiente

Fecha de disponibilidad general de Mythos y sus capacidades exactas.
El impacto exacto del tokenizador en diferentes idiomas y tipos de contenido (los números varían según la fuente).
Si las regresiones en BrowseComp son permanentes o van a parcharse en versiones puntuales.
Comparativa directa Opus 4.7 vs GPT-5.4 en benchmarks de navegación.

Errores comunes al migrar a Opus 4.7

Error 1: Asumir que “más tokens = peor modelo”. El aumento de tokens en Opus 4.7 no es una regresión de eficiencia, es un cambio de tokenizador. El modelo no se volvió más verborrágico; el mismo texto se divide diferente. Si tus costos subieron, revisá si el volumen de tokens de output también subió o es solo el input. Si es el input, es el tokenizador. Si es el output, ahí sí hay algo que investigar.

Error 2: Usar Opus 4.7 para scraping o navegación web autónoma sin testear primero. La regresión en BrowseComp es real. Si tu aplicación depende de agentes que navegan la web, hacé una comparativa A/B antes de migrar. En algunos casos vas a preferir quedarte con 4.6 para esa tarea específica.

Error 3: No revisar el routing después de la migración. Si antes tenías configurado “siempre Opus para todo lo que importa”, con 4.7 conviene revisar qué tareas realmente se benefician del tier xhigh de razonamiento. El mayor costo efectivo por el tokenizador hace que el análisis costo-beneficio cambie.

Esto se cruza con lo que cubrimos en After using Opus 4.7… yes, performance drop is real.

Si esto te interesa, tenemos más análisis acá: After using Opus 4.7… yes, performance drop is real.

Esto se conecta con lo que contamos en After using Opus 4.7… yes, performance drop is real.

Preguntas Frecuentes

¿Claude Opus 4.7 realmente tiene una caída de rendimiento respecto a 4.6?

Depende de la tarea. En BrowseComp (navegación web autónoma) bajó ~4.4 puntos. En coding (SWE-bench Pro), visión y razonamiento agentic mejoró de forma significativa. La percepción de “caída” que reportan usuarios viene en parte del nuevo tokenizador que genera más tokens y de un comportamiento más acotado que antes, no de una degradación general del modelo.

¿Cuántos tokens más consume Opus 4.7 con el mismo contenido?

El rango documentado es 0-35% más tokens por el mismo texto, según el tipo de contenido. El código Python estructurado y el texto en español con acentuación son los más afectados. El precio por token no cambió ($5/$25), pero el número de tokens sí, lo que eleva el costo real de forma variable. En ejecutar modelos sin degradación de rendimiento profundizamos sobre esto.

¿Debería actualizar de Opus 4.6 a Opus 4.7?

Para coding complejo, análisis de imágenes y razonamiento agentic profundo, sí. Para navegación web autónoma y scraping, quedarte con 4.6 tiene sentido hasta que Anthropic publique una actualización que corrija la regresión en BrowseComp. Para tareas de volumen alto y baja complejidad, Sonnet 4.6 sigue siendo la opción más costo-efectiva.

¿Qué mejora concretamente en Opus 4.7?

SWE-bench Pro sube de 53.4% a 64.3% (+10.9 pp, superando a GPT-5.4 y Gemini en ese benchmark). Visión pasa de 54.5% a 98.5%. Aparece el tier xhigh de razonamiento para análisis de problemas complejos. SWE-bench Verified sube de 80.8% a 87.6%.

¿Qué es Mythos y por qué importa para entender Opus 4.7?

Mythos es el modelo de próxima generación de Anthropic que está en beta con acceso limitado. Anthropic reconoció que Opus 4.7 no alcanza las capacidades de Mythos. Eso significa que hay una versión más capaz ya construida pero no disponible públicamente. El timing de ese lanzamiento y sus capacidades exactas siguen sin confirmarse.

Conclusión

Claude Opus 4.7 no es un downgrade. Tampoco es la actualización sin compromisos que algunos esperaban. Mejoró donde tenía que mejorar (coding agentic, visión, razonamiento profundo) y retrocedió en un área específica (navegación web) por razones que probablemente tienen que ver con las decisiones de optimización del tokenizador y el foco en razonamiento extendido.

Lo que sí cambió, y hay que nombrarlo, es el costo efectivo. Con el nuevo tokenizador generando hasta 35% más tokens para el mismo input, los presupuestos de proyectos de alto volumen van a subir aunque el precio por token no se haya movido. Eso requiere revisar el routing de modelos y ser más selectivo sobre cuándo vale la pena pagar por Opus.

Si usás Claude para coding complejo o visión, actualizá. Si tu aplicación principal depende de navegación web autónoma, esperá o mantené 4.6 para esa tarea. Y para el resto, Sonnet 4.6 sigue siendo la opción con mejor relación costo-calidad del catálogo actual.

Opus 4.7: ¿Por qué cayó el rendimiento?