Anthropic lanzó hoy Claude Opus 4.7, su nuevo modelo tope de gama, con mejoras fuertes en programación agéntica, visión y seguimiento de instrucciones. Según el anuncio oficial, Opus 4.7 sube a 87,6 % en SWE-bench Verified (desde 80,8 % de Opus 4.6) y a 64,3 % en SWE-bench Pro, superando a GPT-5.4 (57,7 %) y Gemini 3.1 Pro (54,2 %). El modelo ya está disponible en la API (claude-opus-4-7), Amazon Bedrock, Google Vertex AI y Microsoft Foundry, y mantiene el mismo precio que Opus 4.6: USD 5 por millón de tokens de entrada y USD 25 por millón de salida.
En 30 segundos
- Fecha de lanzamiento: 16 de abril de 2026. Disponible en todos los productos de Claude, la API, Bedrock, Vertex AI y Foundry desde el día uno.
- Coding agéntico: 87,6 % en SWE-bench Verified y 64,3 % en SWE-bench Pro, lo que lo deja arriba de GPT-5.4 y Gemini 3.1 Pro en las pruebas más exigentes.
- Visión: procesa imágenes de hasta 2576 px en el lado largo (unos 3,75 megapíxeles), más del triple que modelos anteriores, y alcanza 98,5 % en visual-acuity frente a 54,5 % de Opus 4.6.
- Nuevas herramientas: nivel de esfuerzo
xhighentrehighymax, task budgets en beta pública y comando/ultrareviewen Claude Code. - Mismo precio, más tokens: USD 5 / USD 25 por millón (input/output), pero el nuevo tokenizer usa entre 1,0× y 1,35× más tokens que Opus 4.6 sobre el mismo texto.
Qué es Claude Opus 4.7 y por qué importa
Claude Opus 4.7 es el modelo frontier de Anthropic lanzado el 16 de abril de 2026, con el ID claude-opus-4-7 en la API. Reemplaza como tope de línea a Opus 4.6 y conserva la misma estructura de precios, pero con mejoras importantes en tres áreas donde Anthropic venía arrastrando presión competitiva: coding agéntico de tareas largas, visión de alta resolución y seguimiento literal de instrucciones.
El contexto no es menor. En las últimas semanas varios competidores movieron la aguja: GPT-5.4 apretó en reasoning, Gemini 3.1 Pro mejoró en multimodalidad y los modelos open source (Qwen3.6, DeepSeek) se acercaron peligrosamente en coding. La respuesta de Anthropic fue no tocar el precio, pero subir la barra donde el usuario de API más lo nota: agentes que corren horas sin supervisión humana.
Anthropic también reconoció que Opus 4.7 todavía queda atrás de Mythos, su modelo interno de siguiente generación, aún sin release público. Es un gesto poco habitual —rara vez un lab anuncia que lo mejor que tiene no lo está vendiendo todavía— y marca que la carrera se está corriendo más rápido de lo que los ciclos de release pueden acompañar.
Benchmarks: dónde realmente mejoró
Los números oficiales que publicó Anthropic muestran saltos grandes en las métricas que importan para trabajo real con agentes:
| Benchmark | Opus 4.6 | Opus 4.7 | Competencia más cercana |
|---|---|---|---|
| SWE-bench Verified | 80,8 % | 87,6 % | Gemini 3.1 Pro: 80,6 % |
| SWE-bench Pro (agéntico) | 53,4 % | 64,3 % | GPT-5.4: 57,7 % |
| CursorBench | 58 % | 70 % | — |
| Visual Acuity | 54,5 % | 98,5 % | — |
| Finance Agent | SOTA anterior | SOTA | — |
| GDPval-AA | — | Best-in-class | — |
Dos lecturas. La primera es obvia: Opus 4.7 pega fuerte en coding agéntico, el terreno donde herramientas como Cursor, Windsurf, Devin y Claude Code ya venían operando casi monopolizadas por Anthropic. La segunda es menos visible: el salto en visual acuity —casi el doble de exactitud— y el soporte de imágenes de hasta 3,75 megapíxeles habilitan agentes que antes no funcionaban, como bots que interpretan capturas densas o diagramas técnicos de alta resolución.
En GDPval-AA, una evaluación que mide trabajo de conocimiento económicamente valioso en finanzas y legales, Anthropic asegura estar en primer puesto. Para empresas que están evaluando agentes para investigación financiera o revisión contractual, es el dato más importante del release.
Novedades clave: xhigh, task budgets y visión pesada
Opus 4.7 no es solo un bump de benchmarks. Llega con tres herramientas nuevas que cambian cómo se integra el modelo en aplicaciones reales.
Nivel de esfuerzo xhigh
Claude ahora tiene un nivel adicional entre high y max. El sistema de effort levels controla cuánto razonamiento interno hace el modelo antes de responder: a más esfuerzo, mejores resultados en problemas difíciles, pero más latencia y más tokens consumidos. xhigh ofrece un punto intermedio útil para plan de tareas complejas sin pagar la latencia total de max. Claude Code ahora usa xhigh por defecto para todos los planes, lo cual sube la calidad sin intervención del usuario.
Task budgets (beta pública)
Los task budgets permiten a los desarrolladores definir un presupuesto de tokens para operaciones extendidas —por ejemplo, un agente que pasa una hora navegando un repo— y dejar que el modelo administre ese presupuesto internamente. Es la respuesta a uno de los problemas típicos de agentes largos: costos fuera de control cuando el modelo decide iterar más de lo que el caso de uso justifica.
Visión 3,75 MP y memoria de archivos
Procesar imágenes de 2576 px en el lado largo suena técnico, pero la diferencia es práctica: capturas de pantalla densas de paneles administrativos, diagramas de arquitectura con texto chico, diffs de código en pantalla amplia. Todo eso antes obligaba a reducir resolución o recortar. Ahora Opus 4.7 trabaja directo sobre la imagen original.
Por otro lado, el modelo usa mejor la memoria basada en sistema de archivos a lo largo de sesiones múltiples. Traducido: los agentes que corren días, recuperando contexto de archivos que ellos mismos escribieron antes, pierden menos información.
Claude Code: /ultrareview y auto mode para Max
Anthropic acompañó el lanzamiento con novedades puntuales en Claude Code, su CLI de programación:
/ultrareview: un slash command nuevo que dispara una sesión dedicada exclusivamente a revisión de código. Usuarios Pro y Max reciben tres ultrareviews gratuitos de entrada.- Auto mode se extiende a usuarios Max. El modo automático permite a Claude ejecutar tareas enteras sin pedir confirmación paso a paso.
xhighpor defecto en planes: lo que antes requerías configurar, ahora se usa automáticamente para planificar implementaciones.
Si ya trabajás con Claude Sonnet 4.6 o con Claude Code, la mayoría de estos cambios aparecen solos al actualizar el CLI. Para los que comparan alternativas de coding asistido, este release vuelve a posicionar a Claude un paso adelante en tareas largas y revisiones multiarchivo.
Precios, disponibilidad y migración desde Opus 4.6
La política de precios se mantiene intacta: USD 5 por millón de tokens de entrada y USD 25 por millón de salida. En un ecosistema donde los competidores bajaron precio varias veces este año, Anthropic eligió no subir tampoco: se queda en el mismo punto que Opus 4.6, pero con más capacidad.
La disponibilidad es inmediata y amplia:
- Claude.ai y apps oficiales: ya está como modelo por defecto para usuarios Pro, Max y Team.
- API de Anthropic: identificador
claude-opus-4-7. - Amazon Bedrock: disponible en regiones primarias.
- Google Vertex AI: anunciado en la consola de Google Cloud.
- Microsoft Foundry: integrado en el catálogo de modelos.
Dos cosas para tener en cuenta al migrar
1) Nuevo tokenizer. El mismo texto puede mapearse a entre 1,0× y 1,35× más tokens que en Opus 4.6. Es decir: podés ver un aumento de factura aun corriendo el mismo prompt. Anthropic recomienda medir antes de hacer corte total.
2) Instrucciones más literales. Opus 4.7 ejecuta instrucciones de manera más comprensiva, lo cual suena bien, pero implica que prompts pensados para modelos anteriores pueden dar resultados inesperados. Si tenías un prompt que esperaba que Claude “adivinara” un paso implícito, ahora probablemente lo va a saltear. Revisá system prompts críticos antes de mover producción.
Para evitar saltos de costo, Anthropic sugiere tres palancas: ajustar el nivel de effort abajo cuando no haga falta, usar task budgets en agentes largos, y agregar instrucciones de concisión explícitas en el system prompt.
Seguridad: menos cyber, más honestidad
En el model card, Anthropic es directo: Opus 4.7 tiene capacidades cyber intencionalmente menos avanzadas que su modelo interno Mythos Preview. Incluye automated safeguards que bloquean solicitudes de alto riesgo en ciberseguridad, y los profesionales que necesitan trabajar en investigación de vulnerabilidades o pentesting pueden acceder al Cyber Verification Program de Anthropic.
Del otro lado, Opus 4.7 muestra mejoras medibles en honestidad y resistencia a prompt injection, y tasas bajas de engaño o cooperación con usos maliciosos. El único punto donde retrocedió respecto a Opus 4.6 es en consejos de reducción de daño para sustancias controladas —algo que Anthropic decidió reportar transparentemente en lugar de ocultar.
Qué significa para desarrolladores y empresas
Si usás la API para agentes, el cambio vale la pena probarlo ya. SWE-bench Pro subió casi 11 puntos, y eso se traduce en menos iteraciones humanas por tarea completada. En empresas que ya pagan Opus 4.6 mensual en millones de tokens, es simplemente actualizar el identificador del modelo y medir.
Si armás aplicaciones que dependen de vision —OCR de capturas, análisis de diagramas, extracción de datos de PDFs escaneados— el salto a 98,5 % de visual acuity más las imágenes 3,75 MP puede habilitar casos de uso que antes no eran viables. Probalo con documentos reales antes de asumir que funciona.
Si sos desarrollador individual en Claude Code, ya lo tenés: actualizá el CLI y probá /ultrareview en el próximo PR. Si estás en Max, el auto mode ahora es tuyo.
Y si comparás Claude con GPT o Gemini, Opus 4.7 vuelve a tomar ventaja en coding agéntico, un terreno que perdió momentáneamente cuando GPT-5.4 y Gemini 3.1 empujaron. Para una mirada más amplia podés ver nuestra comparativa completa entre Gemini, ChatGPT y Claude. La decisión de plataforma se mantiene multidimensional —precio, latencia, integración con tu stack, soporte enterprise— pero en raw capability para agentes largos, Opus 4.7 es, por ahora, el modelo a batir.
Conclusión
Claude Opus 4.7 es un release grande aunque con nombre modesto: mismo precio, mismo branding incremental, pero saltos fuertes en los lugares que importan para trabajo real con agentes. La honestidad de admitir que Mythos existe y es mejor, pero que no va a salir todavía, es una señal interesante de cómo se está jugando la frontera en 2026: los labs tienen modelos que no pueden todavía soltar, y los que sí sueltan van quedando atrás de lo que internamente manejan.
Para el desarrollador argentino o latinoamericano promedio que usa Claude vía API o via Claude Code, el cambio es simple: actualizá el identificador, revisá que tu factura no se disparó por el tokenizer nuevo, probá /ultrareview en una tarea real, y aprovechá que el mejor coding agent del mercado te cuesta lo mismo que ayer.
