GPT-5.5 benchmarks comparativa: Opus 4.7 y Gemini 3.1

En pocas palabras: El benchmark US Ban de junio 2026 muestra un empate técnico: GPT-5.5 lidera en tareas agénticas (Terminal-Bench 2.0, OSWorld), mientras que Claude Opus 4.7 gana en programación real (SWE-bench Pro) y razonamiento puro. Ninguno barre al otro.

OpenAI acaba de actualizar su benchmark US Ban y, por primera vez en meses, hay pelea real. GPT-5.5 sale a la cancha con números que lo ponen cabeza a cabeza con Claude Opus 4.7 y Gemini 3.1 Pro, pero no barre a nadie — gana en algunas pruebas clave y pierde en otras que importan mucho. El dato que más ruido hace: GPT-5.5 domina en tareas agénticas (Terminal-Bench 2.0, OSWorld, CyberGym) mientras que Opus le saca ventaja en programación real (SWE-bench Pro) y razonamiento puro sin herramientas.

GPT-5.5 es el nuevo modelo de frontera de OpenAI lanzado en junio de 2026, diseñado para competir directamente con Claude Opus 4.7 de Anthropic y Gemini 3.1 Pro de Google en tareas que requieren uso autónomo de computadoras, razonamiento de múltiples pasos y manipulación de entornos reales. La gran novedad es su capacidad agéntica — puede abrir aplicaciones, mover el cursor, escribir comandos en una terminal y navegar sistemas operativos como si fuera un operador humano, algo que hasta ahora ningún otro modelo comercial hacía con este nivel de precisión.

En 30 segundos

GPT-5.5 lidera en uso de computadoras. Sacó 82.7% en Terminal-Bench 2.0 contra 69.4% de Opus 4.7. La diferencia de 13 puntos es enorme.
Opus 4.7 sigue ganando en código real. 64.3% en SWE-bench Pro frente a 58.6% de GPT-5.5. Si tu trabajo es programar, esto pesa.
Gemini 3.1 Pro es el rey de la búsqueda. 85.9% en BrowseComp, apenas arriba del 84.4% de GPT-5.5, pero con ventanas de contexto mucho más grandes.
GPT-5.5 Pro cuesta USD 200/mes. La versión estándar va con ChatGPT Plus a USD 20. La API todavía no está disponible para ningún tier.
Mythos Preview de Anthropic asoma la cabeza. 77.8% en SWE-bench — todavía no es público, pero muestra que Anthropic no piensa aflojar.

OpenAI es una organización de investigación en inteligencia artificial fundada por Elon Musk, Sam Altman y otros en 2015, que desarrolla modelos de lenguaje como GPT y herramientas como ChatGPT para aplicaciones de IA generativa.

¿Qué benchmarks se usaron para comparar GPT-5.5, Claude Opus 4.7 y Gemini 3.1?

Los benchmarks que usa US Ban no son los típicos MMLU o GSM8K que ya medio que todos los modelos pasan con los ojos cerrados. Acá metieron pruebas que evalúan cosas concretas: uso de terminal, navegación web, preguntas económicas complejas, razonamiento con herramientas y automatización de oficina. La idea es ver qué modelo se la banca en tareas que un profesional haría en su día a día, no en exámenes académicos que ya están viciados de datos de entrenamiento (sí, los modelos se saben las respuestas de memoria).

Terminal-Bench 2.0: Mide qué tan bien el modelo ejecuta comandos en una terminal Linux real para resolver problemas. Tiene que leer errores, corregir rutas, instalar dependencias, editar archivos de configuración.
GDPval: Preguntas sobre producto bruto, inflación y política monetaria que requieren razonamiento económico, no solo memoria.
ARC-AGI-2: Razonamiento visual abstracto puro — sin texto, sin contexto, solo patrones. Es el benchmark que diseñó François Chollet para medir “inteligencia” de verdad (spoiler: ningún modelo lo pasa bien).
FrontierMath: Problemas matemáticos de nivel avanzado que no están en internet.
OfficeQA Pro: Tareas de oficina del mundo real: interpretar un memo, completar planillas, redactar correos con instrucciones ambiguas.
CyberGym: Simulaciones de ciberseguridad donde el modelo tiene que detectar vulnerabilidades y proponer mitigaciones.
OSWorld: Acá es donde el modelo controla una máquina virtual real con mouse y teclado — mover archivos, configurar software, abrir aplicaciones.
BrowseComp: Búsqueda y navegación web con información contradictoria, paywalls simulados y páginas mal estructuradas.
SWE-bench Pro: Tickets reales de GitHub de proyectos Python open source — el modelo recibe el issue y tiene que generar un parche que pase los tests.
Humanity’s Last Exam: Preguntas ultra difíciles de todas las disciplinas diseñadas por expertos para medir el techo de razonamiento sin herramientas externas.

El cambio más notorio respecto a la edición anterior del benchmark es que ahora evalúan agenticidad — qué tan bien el modelo planifica, ejecuta y corrige múltiples pasos sin intervención humana. Y ahí GPT-5.5 pegó el salto.

¿En qué pruebas domina GPT-5.5 y por qué se considera el mejor modelo agéntico?

GPT-5.5 arrasa en las pruebas que piden manos en el teclado. Terminal-Bench 2.0: 82.7% contra 69.4% de Opus 4.7. OSWorld: 53.8% contra 41.2%. CyberGym: 64.2% contra 48.3%. OfficeQA Pro: 54.1% contra 43.6%. Son diferencias de diez puntos o más en benchmarks donde cada punto cuesta un huevo sacarlo.

Supongamos que necesitás automatizar una migración de servidores. Le decís a GPT-5.5 “copiame estas bases de datos, actualizá las IPs en los archivos de configuración y reiniciá los servicios”. El modelo entra a la terminal, ejecuta rsync, edita los configs con sed, verifica que los puertos estén escuchando y si algo falla, lee el log y corrige. Opus también lo hace, pero se traba más seguido con errores inesperados — se queda esperando confirmación humana en pasos que GPT-5.5 resuelve solo. Tema relacionado: nuestra guía completa sobre Sora.

El concepto de agenticidad es justamente eso: cuánta autonomía real tiene el modelo para encadenar acciones y corregir sobre la marcha sin que un humano le vaya dictando cada paso. GPT-5.5 fue entrenado específicamente para computer use con datos de interacciones reales — no solo texto de terminal, sino secuencias completas de acciones de mouse y teclado capturadas durante sesiones de administración de sistemas. El resultado es un modelo que “entiende” que si un comando falla con error 127 probablemente falta un paquete, y va a buscarlo en el package manager sin que se lo pidas.

¿Y en economía? GDPval da 37.1% para GPT-5.5 contra 30.6% de Opus. No es un vuelco total, pero indica que el modelo de OpenAI maneja mejor el razonamiento económico con datos contradictorios (que es lo que te encontrás cuando tratás de armar proyecciones con fuentes que no se ponen de acuerdo ni en la inflación del trimestre anterior).

¿Dónde sigue ganando Claude Opus 4.7? SWE-bench Pro y razonamiento puro

Si lo que hacés es programar, los números te van a dejar pensando. SWE-bench Pro: 64.3% para Opus 4.7, 58.6% para GPT-5.5. Estamos hablando de tickets reales de Django, Flask, Pandas, requests — proyectos que usás todos los días. Opus sigue siendo más preciso para entender la intención del issue, ubicar el archivo correcto en un codebase gigante y escribir un parche que compile y pase los tests a la primera.

La diferencia parece chica — 5.7 puntos — pero en este benchmark, cada punto representa decenas de issues reales que el modelo resolvió o no. Si tu equipo usa asistentes de código a diario, esos puntos se traducen en horas de debugging que te ahorrás (o no).

Humanity’s Last Exam marca 46.9% para Opus contra 43.1% de GPT-5.5. Acá importa porque son preguntas sin herramientas — razonamiento crudo, memoria, capacidad de conectar conceptos de disciplinas que no se hablan entre sí. Opus 4.7 sigue siendo el modelo que mejor maneja la ambigüedad y el razonamiento de varios saltos sin apoyo externo. GPT-5.5 mejora sobre GPT-5.4 (que andaba por los 38-39%), pero no alcanza.

El dato interesante es ARC-AGI-2: Opus 18.0%, GPT-5.5 17.4%. Prácticamente empatados en un test donde el puntaje máximo posible es bajísimo. Para contexto, un humano sin entrenamiento promedia 85% en ARC-AGI-2. Así que calma — ningún modelo nos va a reemplazar esta semana. Ya lo cubrimos antes en el análisis de ofertas de OpenAI y Anthropic.

¿Qué ventaja específica tiene Gemini 3.1 Pro en búsqueda y contexto largo?

BrowseComp es el único benchmark donde Gemini 3.1 Pro toma la delantera con 85.9% frente a 84.4% de GPT-5.5. No es una paliza, pero confirma lo que ya se intuía: Google sabe de búsqueda. Gemini maneja mejor las búsquedas con información contradictoria, los paywalls que esconden el dato clave en el párrafo 17 y los sitios con estructuras de navegación que parecen diseñadas por un comité borracho.

Ahora bien, la ventaja real de Gemini no está tanto en ese puntaje sino en la ventana de contexto. Gemini 3.1 Pro traga hasta 1 millón de tokens sin despeinarse — estás hablando de meterle la documentación completa de Kubernetes, más todos los RFCs relevantes y el log de producción de las últimas dos semanas, todo en una sola sesión. GPT-5.5 también tiene contexto largo (256K tokens reportados), y Opus 4.7 maneja 200K, pero ese orden de magnitud que ofrece Google cambia lo que podés hacer con el modelo sin andar picando chunks y perdiendo contexto.

Si trabajás con bases de código grandes o necesitás procesar documentación técnica interminable (hola, compliance financiero), Gemini 3.1 Pro es el que mejor se adapta a ese flujo de trabajo. El costo por consulta con contexto largo es más alto, eso sí — habría que ver el retorno real en productividad.

¿Qué es GPT-5.5 Pro y para quién está pensado?

OpenAI dividió GPT-5.5 en dos tiers: el estándar que corre con ChatGPT Plus a USD 20 por mes y GPT-5.5 Pro que sale USD 200 por mes (hay reportes de un plan Business que ronda los USD 100 por usuario). La diferencia no es solo de precio — GPT-5.5 Pro tiene acceso a más cómputo por consulta, lo que se traduce en mayor profundidad de razonamiento en problemas complejos y más intentos de autocorrección antes de devolver una respuesta final.

¿Para quién es? Si tu día consiste en pedirle al modelo que te resuma PDFs o te escriba correos, con el plan de USD 20 te sobra. El Pro está pensado para investigadores que corren simulaciones matemáticas, equipos de desarrollo que hacen refactorización de codebases enteros y analistas financieros que necesitan razonamiento de múltiples pasos con verificación intermedia. La pregunta no es “qué tan bueno es”, sino “recuperás los USD 200 por mes en productividad”. Y ahí la respuesta depende de cuánto tiempo real por semana le dedicás a tareas que el modelo resuelve en minutos.

Una limitación importante: la API de GPT-5.5 todavía no está disponible. Por ahora solo se accede desde la interfaz de ChatGPT. Si tenías pensado integrarlo en tu pipeline de CI/CD o en un Slack bot, vas a tener que esperar (o seguir usando GPT-5.4 por API, que cuesta la mitad y rinde decentemente para automatizaciones). Esto se conecta con lo que analizamos en la comparativa entre OpenAI y Anthropic.

Modelo	Terminal-Bench 2.0	OSWorld	SWE-bench Pro	BrowseComp	Humanity’s Last Exam	Precio (plan base)
GPT-5.5	82.7%	53.8%	58.6%	84.4%	43.1%	USD 20/mes
Claude Opus 4.7	69.4%	41.2%	64.3%	83.1%	46.9%	USD 20/mes
Gemini 3.1 Pro	61.8%	35.6%	52.1%	85.9%	39.4%	USD 20/mes
GPT-5.5 Pro	84.1%	55.3%	60.2%	85.7%	45.0%	USD 200/mes
Mythos Preview*	—	—	77.8%	86.9%	56.8%	No público

*Mythos Preview es un modelo de Anthropic aún no lanzado al público. Datos de benchmarks preliminares filtrados en junio de 2026.

GPT-5.5 benchmarks comparativa diagrama explicativo

¿Qué nos dice la aparición de Mythos Preview sobre el futuro de la IA?

Mientras OpenAI y Google se sacan chispas en público, Anthropic filtró — a propósito o no — resultados de un modelo que todavía no existe comercialmente. Mythos Preview saca 77.8% en SWE-bench Pro, 86.9% en BrowseComp y 56.8% en Humanity’s Last Exam. Si esos números se mantienen en el modelo final (y no son cherry-picked de corridas afortunadas), Opus 4.7 empieza a quedar obsoleto el día que Mythos salga.

Lo que muestra esto es que la carrera no se terminó ni mucho menos. GPT-5.5 le gana a Opus 4.7 en varias métricas importantes, pero Anthropic ya tiene la siguiente bala en la recámara. Y ojo con Google: aunque Gemini 3.1 Pro no lidera en la mayoría de benchmarks, el acceso a infraestructura propia y datos de búsqueda les da una ventaja estructural que los otros dos no tienen.

Para el mercado, esto significa fragmentación. No va a haber un solo modelo “el mejor” para todo. Vas a elegir según lo que hagas: si tu prioridad es programación, el ecosistema Claude (Opus hoy, Mythos mañana) pinta para seguir liderando. Si automatizás infraestructura y operaciones, GPT-5.5 es la opción más sólida. Si hacés research con documentos masivos, Gemini y su ventana de 1M tokens te van a tentar.

¿Cuánto cuesta usar GPT-5.5 y dónde está disponible?

Repasemos los números fríos. ChatGPT Plus (GPT-5.5 estándar): USD 20 por mes. ChatGPT Pro (GPT-5.5 Pro): USD 200 por mes. ChatGPT Business: aproximadamente USD 100 por usuario por mes con facturación anual. ChatGPT Enterprise: precio a medida según volumen.

La versión gratuita de ChatGPT sigue corriendo GPT-5.4 — no esperes acceso a los nuevos benchmarks si no pagás. Y como mencioné antes, la API de GPT-5.5 no está activa al cierre de junio de 2026. Si querés integrar este modelo en herramientas propias, por ahora usás GPT-5.4 vía API, que cuesta la mitad que GPT-5.5 en tokens pero rinde entre 8 y 12 puntos menos en los benchmarks principales.

Disponibilidad: GPT-5.5 está en todos los países donde ChatGPT opera normalmente, incluida Argentina y el resto de Latinoamérica. No hay restricciones regionales reportadas. El plan Pro se paga con tarjeta internacional sin drama — ojo con los impuestos, que en Argentina el costo real con percepciones puede duplicar el precio de lista. Te puede servir nuestra cobertura de la comparación detallada de Google y OpenAI.

Errores comunes al interpretar los benchmarks

Después de años mirando cómo la gente lee (y malinterpreta) estas comparativas, te dejo los tres errores que veo todo el tiempo.

Creer que el benchmark más alto significa “mejor modelo para mí”. Terminal-Bench 2.0 mide uso de terminal. Si vos nunca tocaste una CLI en tu vida, ese puntaje te importa cero. Elegí el modelo según lo que hacés todos los días, no según un promedio abstracto. Conozco equipos que migraron de Claude a GPT solo porque “ganaba en más benchmarks” y a las dos semanas estaban puteando porque el código salía con más bugs.
Comparar puntajes absolutos entre benchmarks distintos. Que GPT-5.5 saque 82.7% en Terminal-Bench y Opus saque 46.9% en Humanity’s Last Exam no significa que uno sea más del doble de inteligente que el otro. Son pruebas completamente distintas con escalas y dificultades diferentes. Un 40% en HLE es un numerazo; un 60% en SWE-bench también. No los compares cruzados.
Ignorar el costo y la disponibilidad de API. De nada sirve que GPT-5.5 Pro saque mejores puntajes si no podés integrarlo en tu stack porque la API no existe todavía. La calidad en el vacío no sirve — lo que importa es calidad integrada en tu flujo de trabajo real.

Preguntas Frecuentes

¿Cuál es mejor, GPT-5.5 o Claude Opus 4.7?

Depende del uso. GPT-5.5 es mejor en tareas agénticas como uso de terminal, automatización de sistemas y ciberseguridad. Opus 4.7 lidera en programación real (SWE-bench Pro) y razonamiento multidisciplinar sin herramientas externas. Si programás, Opus. Si automatizás infraestructura, GPT-5.5.

¿Qué diferencia hay entre GPT-5.5 y GPT-5.5 Pro?

GPT-5.5 Pro tiene más cómputo por consulta, lo que mejora entre 1 y 3 puntos en los benchmarks más complejos. Cuesta USD 200 por mes contra USD 20 de la versión estándar. La diferencia solo se nota en tareas que requieren razonamiento extenso o múltiples intentos de autocorrección.

¿En qué benchmarks gana Gemini 3.1 Pro?

Gemini 3.1 Pro gana en BrowseComp (85.9% vs 84.4% de GPT-5.5), la prueba de búsqueda y navegación web. Su principal ventaja estructural es la ventana de contexto de hasta 1 millón de tokens, ideal para procesar documentación masiva en una sola sesión.

¿Vale la pena pagar por GPT-5.5 Pro?

Vale la pena si tu trabajo implica tareas de razonamiento complejo todos los días — investigación matemática, refactorización de sistemas grandes, análisis financiero avanzado. Para uso general o programación cotidiana, el plan Plus de USD 20 es suficiente. La API ni siquiera está disponible todavía, así que si dependés de integraciones, no podés usarlo aunque quieras.

¿Cómo rinde GPT-5.5 en programación real?

En SWE-bench Pro, que mide resolución de issues reales de proyectos open source, GPT-5.5 saca 58.6% — mejora frente a versiones anteriores pero queda 5.7 puntos por debajo de Claude Opus 4.7. En Terminal-Bench 2.0 (programación de infraestructura) lidera con 82.7%, lo que sugiere que es mejor para DevOps que para desarrollo de aplicaciones.

Conclusión

GPT-5.5 no es el modelo que deja obsoletos a todos los demás — y eso es justamente lo interesante. Por primera vez en un par de años, el mercado de modelos de frontera se partió en especializaciones reales. GPT-5.5 es el mejor en tareas agénticas y computer use; Opus 4.7 mantiene la corona en programación y razonamiento puro; Gemini 3.1 Pro domina búsqueda y contexto largo. Mythos Preview, que todavía no salió, amenaza con cambiar el tablero de nuevo antes de fin de año.

Para equipos técnicos en Argentina y Latinoamérica, la decisión práctica es menos dogmática de lo que parece: la mayoría de los flujos de trabajo se benefician de usar más de un modelo según la tarea. GPT-5.5 para automatizar deploys y configuraciones, Opus para código de aplicación, Gemini para research con documentos extensos. Los USD 60 mensuales que cuesta tener los tres planes básicos se pagan solos si te ahorran cuatro horas por semana de trabajo a media máquina.

El único freno real es que la API de GPT-5.5 no está disponible — hasta que OpenAI la libere, la comparativa vale para uso interactivo en ChatGPT pero no para integraciones. Y si tu infraestructura depende de modelos vía API para correr tests o generar código en CI/CD, por ahora seguís con Opus o con GPT-5.4, que sigue siendo competente aunque no lidere los rankings.

GPT-5.5 vs Opus 4.7 vs Gemini 3.1 Pro: benchmarks 2026