Claude Opus 4.6, lanzado el 5 de febrero de 2026, sigue siendo el modelo más potente de Anthropic para la mayoría de usuarios, pero enfrenta rate limits destructivos, costo elevado y creciente competencia de Mythos en benchmarks de ciberseguridad y razonamiento.
En 30 segundos
- Opus 4.6 llegó en febrero 2026 con mejoras en Agent Teams y computer use, pero sufre rate limits de 5 horas de cooldown que lo hacen impracticable para workflows intensivos.
- Mythos Preview (anunciado 7 de abril 2026) lo supera en benchmarks clave: 77.8% en SWE-bench Pro vs 53.4%, 97.6% en USAMO vs 42.3%, y 83.1% en ciberseguridad vs 66.6%.
- GPT-5.4 cuesta 6 veces menos que Opus y es más versátil para tareas generales, aunque Opus lidera en análisis de código y razonamiento de largo contexto.
- El costo de Opus ($3/$15 por 1M tokens) es similar al de Sonnet pero sin la especialización de modelos enfocados; Agent Teams quema tokens a velocidad acelerada.
- Anthropic acota el acceso a Mythos al programa Project Glasswing (11 partners como AWS, Google y Microsoft) por razones de seguridad defensiva.
Claude Opus 4.6 es el modelo insignia de Anthropic para usuarios de Pro y Max, lanzado el 5 de febrero de 2026. Forma parte de la línea Haiku → Sonnet → Opus → Mythos, donde cada generación promete más capacidades a costa de latencia y precio más alto. Pero acá está lo que importa: Opus no es el modelo más potente que Anthropic construyó (eso es Mythos), ni es el más barato o versátil de su clase (GPT-5.4 le gana en costo). Es un modelo que vive en el medio, potente pero limitado, sofisticado pero caro, y con fricción operativa que muchos no anticipan cuando lo contratan.
Qué es Claude Opus 4.6 y por qué salió cuando salió
Cuando Anthropic anunció Opus 4.6, vino con mejoras concretas: mejora en Agent Teams (flujos multi-agente más coordinados), computer use mejorado (interpretar pantallas con más precisión), y mejor manejo de herramientas en cadena. El contexto extendido que ya tenía (1 millón de tokens) se optimizó para no costar un ojo de la cara. Pero mirá, la realidad es que la mayoría de usuarios lo que notó fue que el modelo es bueno para workflows complejos: análisis de codebases grandes (alcanzó 80.8% en SWE-bench Verified, según el anuncio oficial de Anthropic), razonamiento matemático (68.8% en ARC-AGI), y coordinación de múltiples pasos de razonamiento sin perder el hilo.
El timing fue marzo-febrero de 2026, casi un año después de que saltara Opus 3.5. Anthropic llevaba tiempo iterando en silencio: mejorando el puntaje en benchmarks internos, achicando latencia, refinando los prompts por defecto para que los desarrolladores no tengan que ser alquimistas para sacar lo mejor del modelo. Pero acá está el giro: apenas dos meses después del lanzamiento, Anthropic anunció Mythos.
Las limitaciones que nadie pregunta pero deberías saber
Los rate limits de Opus son destructivos. Si vos usás Agent Teams (que está diseñado para que múltiples agentes se hablen entre sí para resolver tareas complejas), quemás tokens a una velocidad que te sorprenderá. Ponele que un agente consulta información, llama a otro agente, ese agente genera código, lo valida, lo refina — en diez minutos quemaste 500k tokens. Si estás en Pro, tu límite mensual es aprox. 40 millones de tokens con todo incluido (entradas + salidas). Agent Teams te come ese presupuesto en dos o tres días de trabajo normal (no, en serio).
El cooldown es el otro problema: superás tu rate limit y el modelo te deja en cooldown de 5 horas. Eso no es una “pausa temporal”. Es que literal no podés usar Opus durante 5 horas. Si tu workflow depende de llamadas frecuentes a Opus (y en 2026 muchos dependen), estás en problemas. Sonnet no tiene este problema porque su rate limit es más generoso. Más contexto en la alternativa más rápida y económica.
Y ojo con esto: Opus especializa bien en muy pocas cosas comparado con modelos específicos. Si lo que necesitás es generar imágenes, Flux. Si necesitás análisis numérico pesado, hay modelos entrenados en eso. Opus es generalista — hace de todo bien, pero no hay una sola tarea donde sea imbatible a nivel costo/calidad si comparás con una solución específica.
Opus vs Mythos: por qué Anthropic se guardó el modelo mejor
Mythos Preview se anunció el 7 de abril de 2026, apenas dos meses después de Opus 4.6. Y cuando mirás los benchmarks, entendés por qué Anthropic lo acotó al programa Project Glasswing (11 partners: AWS, Google, Microsoft, Meta, Stripe, etc.). Los números hablan: Mythos logra 77.8% en SWE-bench Pro comparado con el 53.4% de Opus. En USAMO (competencia internacional de matemática, lo más duro que existe), Mythos alcanzó 97.6% vs 42.3% de Opus. En ciberseguridad defensiva, 83.1% vs 66.6%.
Esos gaps no son “mejoras incrementales”. Son saltos. Dicho de otra forma: Mythos hace cosas que Opus simplemente no puede hacer, o las hace con errores graves. Y Anthropic decidió que eso es demasiado potente para dejarlo suelto en la red abierta. Solo partners que acuerdan ciertos términos de seguridad defensiva (no attaque, no reclutamiento, uso supervisado) pueden acceder. El miedo es explícito en los papers de Anthropic: si liberás un modelo que detecta vulnerabilidades con 83% de precisión en **todos** los sistemas operativos del mundo, ¿qué pasa? Según reportes, eso es exactamente lo que Mythos puede hacer.
Pero acá viene lo interesante: si vos sos usuario de Opus y necesitás la capacidad de Mythos, no tenés opción de compra. No existe. Mythos solo existe para las 11 empresas que Anthropic eligió. Punto. Vos tenés que arreglarte con Opus, o cambiar a otra cosa.
Opus vs GPT-5.4: quién gana en cada escenario
Aquí es donde la comparación se pone nuanceada. GPT-5.4 de OpenAI cuesta 6 veces menos que Opus a entrada/salida ($0.50/$2 por 1M tokens vs $3/$15). Eso es una brecha gigante. Con el presupuesto de un mes de Opus Pro, vos hacés 6 meses de GPT-5.4. ¿Y en qué casos gana GPT-5.4? En versatilidad generalista. Redacción natural, resumen, síntesis, tareas que no necesitan razonamiento profundo. Llama a GPT-5.4 y se arregla solo. Llama a Opus y tenés que escribirle prompts más estructurados porque es más “rígido” en su forma de pensar.
Pero en benchmarks de código, Opus lidera. SWE-bench Verified: Opus 80.8%. GPT-5.4 está debajo (según análisis comparativos de febrero 2026, la brecha es clara pero el paper es de OpenAI). En razonamiento matemático, igual: Opus 68.8% en ARC-AGI, GPT-5.4 no publica números comparables. En contexto largo (1M tokens), Opus es irreemplazable. Si necesitás meter un codebase entero en el contexto, GPT-5.4 se queda en 128k tokens.
La realidad: Opus y GPT-5.4 son para casos de uso diferentes. Opus para programación y razonamiento matemático. GPT-5.4 para uso generalista y presupuesto limitado. Si vos hacés feature engineering en modelos de ML, análisis de código heredado, o problemas matemáticos complejos, Opus. Si redactás contenido, sintetizás reportes, o necesitás un modelo “obediente” que no cuestione tus preguntas malas, GPT-5.4 zafa mejor. Te puede servir nuestra cobertura de donde encaja Opus en el ecosistema.
Dónde Opus realmente brilla
Tres casos donde Opus es imbatible:
1. Análisis de codebases enteros: Vos metés 50 mil líneas de código en el contexto (algo que casi ningun otro modelo permite), le pedís que encuentre el bug que lleva 3 días sin resolver, y Opus devuelve el problema exacto con una propuesta de fix. No necesita iteraciones. No necesita fragmentar el código. Lo ve de una.
2. Flujos multi-agente coordinados: Cuando el problema es lo suficientemente complejo como para que un modelo no lo resuelva solo, Opus coordina múltiples instancias de sí mismo, cada una pensando en paralelo sobre diferentes aspectos del problema. Es como tener una sala de juntas de especialistas en tu cabeza. Funciona.
3. Honestidad contra malas preguntas: Opus es notoriamente “sarcástico” internamente. Si vos le pedís algo que viola principios, algo inviable o contradictorio, Opus dice “no, eso no funciona, acá está por qué” en lugar de intentar agradar. Eso es valioso para desarrollo. Otros modelos devuelven código que nunca compiló solo por no contradecirte.
Ahora, dónde **no** es suficiente: cualquier cosa donde necesitás resultados en menos de un segundo (Opus tiene latencia alta). Cualquier cosa donde necesitás generar a escala masiva (los rate limits te bloquean). Cualquier cosa donde el costo sea un bloqueador (hay alternativas más baratas que hacen lo mismo lo suficientemente bien).
Tabla comparativa: Opus vs Mythos vs GPT-5.4
| Métrica | Opus 4.6 | Mythos Preview | GPT-5.4 |
|---|---|---|---|
| SWE-bench Pro | 53.4% | 77.8% | ~45% (no oficial) |
| USAMO (matemática) | 42.3% | 97.6% | ~35% (no oficial) |
| Ciberseguridad | 66.6% | 83.1% | ~50% (no oficial) |
| SWE-bench Verified | 80.8% | ~92% (estimado) | ~70% (no oficial) |
| ARC-AGI | 68.8% | ~85% (estimado) | ~60% (no oficial) |
| Contexto máximo | 1M tokens | ~2M tokens (estimado) | 128k tokens |
| Precio (entrada) | $3/1M | ~$15/1M (5x Opus) | $0.50/1M |
| Precio (salida) | $15/1M | ~$75/1M | $2/1M |
| Rate limit | Destructivo (5h cooldown) | Restringido (Glasswing) | Generoso |
| Disponibilidad | Pro/Max públicos | Solo partners (11 empresas) | Público (OpenAI) |

Costo real vs valor: ¿cuánto es demasiado?
Acá viene la pregunta incómoda: ¿vale la pena Opus a $3/$15 por millón de tokens? La respuesta es “depende”. Un desarrollador que usa Opus 8 horas diarias, cada llamada 20 segundos, generando código y validando: son aprox. 100-150 llamadas diarias. Con entrada promedio de 5k tokens y salida de 2k, estás quemando 700k tokens diarios en entrada y 300k en salida. Por mes: $63 de entrada, $90 de salida = $153. Sumale Sonnet para tareas secundarias y estamos hablando $200-250 mensuales por un desarrollador. Para más detalles técnicos, mirá ejecutar modelos en tu propia máquina.
¿Es mucho? Para una startup que tiene 3 desarrolladores usando IA, son $600-750 mensuales. Para una empresa de 50 personas, son $30k mensuales. Eso empieza a competir con sueldos. La ROI existe solo si Opus hace el trabajo lo suficientemente mejor que alternativas más baratas como para justificar el 6x de costo vs GPT-5.4. Y para muchas tareas, no lo justifica.
El problema no es solo el precio, es el rate limit. Si vos estás en una sesión de pair programming y el modelo se te bloquea por 5 horas, perdiste momentum, perdiste contexto, probablemente perdiste al cliente que esperaba entrega. Eso es un costo oculto que nadie contabiliza.
Por qué Anthropic no libera lo mejor que construye
La decisión de Anthropic de acotar Mythos al programa Project Glasswing es explícitamente defensiva. El comunicado dice “seguridad defensiva”, pero traducido significa: “si los bad actors usan esto, el daño es catastrófico, así que no lo soltamos”. Mythos puede encontrar vulnerabilidades en sistemas operativos, frameworks, librerías de seguridad. 83% de precisión no es “a veces funciona”. Es “la mayoría de las veces encuentra el problema”.p>
Anthropic está haciendo lo que muy pocos labs hace: frenarse. OpenAI liberó GPT-4, luego GPT-4 Turbo, luego GPT-5.4, cada uno más potente. Meta liberó Llama abierto. Anthropic dijo “Mythos solo para casos de uso específicos de seguridad defensiva, supervisados, con partners de confianza”. Es una postura más conservadora que sus competidores, y eso tiene costo: no monetizan Mythos, no lo usan en aplicaciones propias masivamente, simplemente no lo sueltan.
¿Por qué? Porque un modelo que encuentra vulnerabilidades en la mayoría de los sistemas del mundo es más peligroso que útil si está en manos equivocadas. Y Anthropic está priorizando eso sobre el revenue.
Errores comunes cuando usás Opus
- Asumir que más caro = mejor para todo: Opus es mejor para código y razonamiento, pero para tareas generales (redacción, síntesis, sumarización) Sonnet hace lo mismo por 1/6 del costo. Muchos dejan Opus encendido “por si acaso” y queman presupuesto para nada.
- Ignorar el rate limit hasta que te golpea: El cooldown de 5 horas no es una leyenda urbana. Pasa. Y cuando pasa en medio de un proyecto crítico, no hay opción: esperás. Planificar para eso es crucial.
- No fragmentar prompts para inputs grandes: Si necesitás pasar 500k tokens al modelo, no lo hagas en una sola llamada. Dividí el problema en 3-4 subtareas, procesa en paralelo con Sonnet, consolidá con Opus. Así ahorras plata y evitás timeouts.
- Creer que Agent Teams es gratis en tokens: No. Cada iteración, cada comunicación entre agentes, cuesta tokens. Un workflow con 10 agentes iterando 5 veces es 50 llamadas al modelo. Eso es caro.
- Comparar con benchmarks sin contexto de tu caso de uso: Opus lidera en SWE-bench, pero si vos necesitás generar SQL queries, el benchmark relevante es otro. Testea con TUS datos antes de decidir.
Preguntas Frecuentes
¿Opus 4.6 es realmente mejor que Sonnet para todo?
No. Opus es mejor para razonamiento profundo, código complejo y contexto largo. Sonnet basta para la mayoría de tareas (resumen, redacción, traducción, asistencia general). Si tu caso de uso no requiere el 80.8% de SWE-bench que tiene Opus, Sonnet te zafa por mucho menos costo. Probá ambos con tus datos antes de decidir. Esto se conecta con lo que analizamos en la competencia de OpenAI en video.
¿Debo cambiar a Mythos si puedo acceder a Project Glasswing?
Si tu caso de uso es ciberseguridad defensiva o vulnerabilidad research, sí sin dudarlo. Mythos es 25 puntos mejor en benchmarks de seguridad. Pero si tu caso de uso es general (código, análisis, escritura), Opus zafa. Mythos es 5x más caro, así que el ROI existe solo si necesitás ese salto de capacidad específica.
¿Vale la pena cambiar de Opus a GPT-5.4 para ahorrar?
Depende de tu tarea. Si es código con requisitos específicos de calidad (financial systems, security-critical code), Opus gana. Si es redacción, investigación, asistencia general, GPT-5.4 te zafa mejor y por 6x menos. Lo correcto es tener ambos y enrutar tareas según necesidad. Opus para cosas que demandan razonamiento, GPT-5.4 para generalista.
¿El cooldown de 5 horas es real o es mito?
Real. Superás tu rate limit diario (que depende de tu plan: Pro tiene límites más bajos que Max) y quedás bloqueado 5 horas. No es un soft limit, no es una velocidad más lenta. Es: no podés usar el modelo. Chequeá tus límites antes de escalar un workflow con Opus.
¿Cuál es el mejor caso de uso para Opus en 2026?
Pair programming, auditoría de código, análisis de sistemas complejos, razonamiento matemático, y flujos multi-agente que requieren coordinación supervisada. Si tu problema cabe en una sola llamada y no necesita razonamiento profundo, usa Sonnet o GPT-5.4. Si tu problema requiere contexto de 200k+ tokens y precisión en lógica, Opus es el play.
Conclusión
Claude Opus 4.6 es un modelo extraordinariamente capaz que vive en el medio de un triángulo incómodo: entre Sonnet (más barato, suficiente para muchas tareas), GPT-5.4 (más versátil, más barato, menos fricción), y Mythos (más potente, pero prohibido). Para usuarios que necesitan lo que Opus hace específicamente — razonamiento matemático, análisis de código a escala, flujos multi-agente coordinados — es la mejor opción del mercado. Punto. Pero si tu caso de uso no cae en esa categoría específica, estás pagando caro por capacidades que no necesitás. El rate limit es un problema real que afecta workflows en producción. El costo es alto, pero el valor también está ahí si lo usás bien. La estrategia de Anthropic de retener Mythos es defensible desde seguridad, pero deja a usuarios de Opus sin acceso a lo mejor que construyeron. Para 2026, Opus es el modelo “correcto” si hablamos de razonamiento puro, pero no es el modelo “obvio” si hablás de presupuesto, simpleza, o uso generalista. Elegí según tu tarea específica, no según el hype.
