OpenAI lanza GPT-5.4 con computer use nativo y plugins financieros

OpenAI lanza GPT-5.4 con computer use nativo y plugins financieros - ilustracion

OpenAI presentó GPT-5.4 el 5 de marzo de 2026 en dos versiones — Thinking y Pro — con capacidades nativas de computer use y un plugin financiero para Excel y Google Sheets. Las novedades de GPT-5.4 de OpenAI apuntan directo al trabajo profesional: el modelo puede controlar tu computadora, armar modelos financieros en hojas de cálculo y procesar hasta un millón de tokens de contexto. Todo con un 47% menos de consumo de tokens que sus predecesores.

El dato que más llama la atención es el salto en el benchmark de investment banking: pasó de 43.7% con GPT-5 a 87.3% con GPT-5.4 Thinking. Es un salto enorme, aunque viene del propio fabricante, así que tomalo con pinzas hasta que aparezcan evaluaciones independientes.

En 30 segundos

  • OpenAI lanzó GPT-5.4 en versiones Thinking (razonamiento extendido) y Pro (máxima complejidad), con ventana de contexto de 1 millón de tokens.
  • Incluye computer use nativo: la IA interpreta capturas de pantalla y ejecuta comandos de mouse y teclado. En el benchmark OSWorld-Verified superó el rendimiento humano promedio (75% vs 72.4%).
  • El nuevo plugin para Excel y Google Sheets permite armar modelos financieros completos. El benchmark de investment banking saltó de 43.7% a 87.3%.
  • El costo es de $2.50 por millón de tokens de entrada, pero OpenAI argumenta que el consumo real baja un 47% por tarea gracias a un sistema de tool search más eficiente.

Qué es GPT-5.4 y por qué importa

GPT-5.4 es la iteración más reciente de la familia GPT-5, que arrancó con el modelo base a mediados de 2025. Desde entonces, OpenAI fue lanzando actualizaciones incrementales — GPT-5.2, GPT-5.3 — mejorando rendimiento en tareas específicas. Esta versión 5.4 se posiciona como modelo frontier orientado a trabajo profesional.

Las dos versiones tienen propósitos distintos. Thinking está diseñada para razonamiento extendido con un esquema interactivo: podés interrumpir el proceso de pensamiento y redirigirlo en medio de la generación. Pro apunta a tareas de máxima complejidad donde se necesita la mejor calidad posible sin restricciones de cómputo.

La ventana de contexto de 1 millón de tokens cuadruplica lo que ofrecían versiones anteriores. Eso permite procesar documentos largos, codebases completos o conversaciones extensas sin perder información. Si te interesa, podes leer mas sobre el modelo GPT-5.3 Codex para programación.

Computer use nativo: la IA que controla tu computadora

El computer use es la capacidad de un modelo de interpretar capturas de pantalla, entender qué hay en ellas y emitir comandos de mouse y teclado para interactuar con aplicaciones. GPT-5.4 lo trae integrado de forma nativa, sin necesidad de herramientas externas.

¿Cómo funciona en la práctica? El modelo sigue un ciclo de cuatro pasos: construye una acción (build), la ejecuta (run), verifica el resultado mirando la pantalla (verify) y corrige si algo salió mal (fix). Es un loop que se repite hasta completar la tarea.

En el benchmark OSWorld-Verified, GPT-5.4 alcanzó un 75%. Para poner eso en contexto: el rendimiento humano promedio en ese mismo benchmark es 72.4%, y GPT-5.2 llegaba solo a 47.3%. Es un avance significativo, aunque hay que aclarar que OSWorld mide tareas de escritorio relativamente acotadas — no es lo mismo que manejar cualquier aplicación arbitraria sin errores.

La funcionalidad está disponible a través de la API y también integrada en Codex, la plataforma de desarrollo de OpenAI. Para desarrolladores, esto abre la puerta a crear agentes que automaticen flujos de trabajo completos en aplicaciones de escritorio.

ChatGPT para Excel y Google Sheets: el plugin financiero

OpenAI lanzó en beta un plugin que embebe ChatGPT directamente dentro de hojas de cálculo, tanto Excel como Google Sheets. La idea es que puedas interactuar con el modelo sin salir de tu planilla, pidiéndole que arme modelos financieros, proyecciones o análisis. Si te interesa, podes leer mas sobre la reestructuración corporativa de OpenAI.

El caso de uso más ambicioso es el modelado financiero completo: three-statement models (estado de resultados, balance y flujo de caja integrados). El benchmark de investment banking pasó de 43.7% con GPT-5 a 87.3% con GPT-5.4 Thinking. Eso sí: es un benchmark propio de OpenAI, diseñado para medir exactamente este tipo de tarea. No hay todavía una evaluación independiente que confirme esos números en escenarios reales de banca de inversión.

Lo interesante del plugin son las integraciones con proveedores de datos financieros: FactSet, Dow Jones Factiva, LSEG, Daloopa, S&P Global, MSCI y Moody’s. Si esas integraciones funcionan bien, un analista podría pedirle al modelo que construya un modelo financiero completo tirando de datos reales, directamente desde la hoja de cálculo.

Habrá que ver cómo funciona en la práctica. Armar un three-statement model no es solo poner números: requiere criterio sobre qué supuestos usar, cómo proyectar y qué ajustar. El modelo puede acelerar la parte mecánica, pero el juicio financiero sigue siendo del analista.

Benchmarks y rendimiento: los números detrás de GPT-5.4

OpenAI publicó resultados en varios benchmarks. Más allá del OSWorld y el de investment banking, hay otros números relevantes: GDPval alcanzó 83% y Toolathlon llegó a 54.6%. La reducción del 47% en uso de tokens viene de una mejora en el sistema de tool search, que permite al modelo encontrar y usar herramientas de forma más eficiente.

BenchmarkGPT-5GPT-5.2GPT-5.3GPT-5.4 Thinking
OSWorld-Verified47.3%75%
Investment Banking43.7%87.3%
GDPval83%
Toolathlon54.6%
Ventana de contexto256K256K256K1M
Precio (input/M tokens)$1.75$2.50
OpenAI lanza GPT-5.4 con computer use nativo y plugins financieros - diagrama explicativo

Algunos casilleros quedan vacíos porque OpenAI no publicó datos comparativos para todas las versiones en todos los benchmarks. Es una limitación habitual: los fabricantes tienden a mostrar las comparaciones donde más mejoraron. Si te interesa, podes leer mas sobre la competencia directa de Gemini 3.1 Pro.

GPT-5.4 Thinking vs GPT-5.4 Pro: cuál elegir

La versión Thinking tiene una característica particular: el razonamiento interactivo. Mientras el modelo piensa, vos podés ver el proceso y redirigirlo si va por un camino equivocado. No es solo un chain-of-thought que se muestra — es un proceso que se puede interrumpir y ajustar en tiempo real.

Pro, en cambio, está pensada para tareas donde necesitás la mejor respuesta posible sin importar cuánto cómputo use. Problemas de máxima complejidad, análisis profundos, generación de código sofisticado. El trade-off es claro: más calidad, más costo por consulta.

¿Cuándo usar cada una? Si estás iterando sobre un problema y querés ir guiando al modelo, Thinking es la opción. Si tenés una tarea bien definida y querés el mejor resultado en un solo intento, Pro tiene más sentido. Para la mayoría de los casos de uso profesionales cotidianos, Thinking probablemente sea suficiente.

Precios y eficiencia: ¿vale la pena el upgrade?

El precio de GPT-5.4 es de $2.50 por millón de tokens de entrada. Comparado con los $1.75 de GPT-5.2, es un aumento del 43%. OpenAI contraargumenta con la reducción del 47% en tokens por tarea: si el modelo necesita menos ida y vuelta para resolver algo, el costo total por tarea podría ser similar o incluso menor.

Ese argumento tiene lógica, pero depende del caso de uso. Si usás el modelo para tareas donde la eficiencia de tool search importa — agentes, automatización, flujos multi-paso — la reducción de tokens se nota. Si lo usás para generación de texto simple, el ahorro es menor y el aumento de precio se siente más. Si te interesa, podes leer mas sobre cómo funciona GPT-5.3 Codex en detalle.

En cuanto a disponibilidad: GPT-5.4 Thinking está accesible para usuarios Plus, Pro y Enterprise. La versión Pro requiere suscripción Pro o Enterprise. La API está abierta para todos los tiers con los precios publicados.

GPT-5.4 vs la competencia: Claude Opus, Gemini 3.1 Pro

OpenAI posiciona a GPT-5.4 Pro como superior a Claude Opus 4.6 y Gemini 3.1 Pro en varios benchmarks. Ahora bien, cada fabricante elige los benchmarks donde mejor le va, así que las comparaciones directas siempre tienen un sesgo.

En computer use, GPT-5.4 entra tarde a la carrera. Anthropic lanzó computer use con Claude hace más de un año, y Google tiene funcionalidades similares en Gemini. Que GPT-5.4 supere el benchmark humano en OSWorld-Verified es notable, pero la madurez de la implementación en producción es otra cosa. Habrá que ver cómo se comporta en escenarios reales con aplicaciones diversas.

Donde OpenAI parece tener una ventaja clara es en el vertical financiero. Las integraciones con FactSet, S&P Global, Moody’s y otros proveedores de datos le dan un ecosistema que ni Anthropic ni Google tienen armado todavía. Para equipos de finanzas, eso puede ser un diferenciador concreto.

En programación, la cosa está más pareja. Los tres modelos top-tier rinden bien en coding, y la diferencia real depende más del caso específico que de un benchmark genérico. Si ya tenés un workflow armado con Claude o Gemini, el cambio no se justifica solo por un par de puntos de benchmark. Si te interesa, podes leer mas sobre las capacidades de GPT-5.2 en desarrollo y ciberseguridad.

Qué significa esto para empresas y desarrolladores

El computer use nativo abre posibilidades concretas para automatización de workflows empresariales. Pensá en tareas repetitivas que hoy requieren que alguien haga click en una secuencia de pantallas: reportes, carga de datos, verificaciones. Un agente con GPT-5.4 podría ejecutar eso de forma autónoma.

Para el sector financiero, la combinación del plugin de Excel con las integraciones de datos es la propuesta más agresiva. Si funcionan como prometen, un analista junior podría armar en minutos lo que hoy lleva horas. El tema es que “si funcionan como prometen” es una frase que aplica a muchos lanzamientos que después en producción tienen fricciones.

Los desarrolladores que trabajan con agentes autónomos tienen un nuevo modelo para evaluar. La reducción de tokens y la mejora en tool search son relevantes cuando estás pagando por cada interacción de un agente que corre en loop. La integración con servidores MCP también facilita conectar GPT-5.4 con herramientas externas de forma estandarizada.

Qué significa para empresas y equipos en Latinoamérica

La disponibilidad inmediata por API hace que equipos en Argentina y el resto de la región puedan probar GPT-5.4 desde el día uno. El precio en dólares sigue siendo un factor: $2.50 por millón de tokens de entrada pega distinto cuando facturás en pesos.

Para fintechs y equipos financieros de la región, las integraciones con proveedores de datos globales como S&P Global o Moody’s son útiles, pero muchos de esos servicios ya tienen un costo de suscripción alto. El plugin de Excel en sí es interesante para cualquier equipo que haga modelado financiero, independientemente de la geografía. Si te interesa, podes leer mas sobre la generación de imágenes con ChatGPT.

El computer use puede ser especialmente valioso en empresas latinoamericanas que todavía dependen de sistemas legacy con interfaces gráficas. En vez de desarrollar integraciones API costosas con sistemas viejos, un agente que interactúe por pantalla podría ser un atajo práctico.

Está relacionado con OpenAI lanza GPT-5.4 con computer use nativo y plugins finan, que hablamos en el blog.

Para ver cómo estos cambios impactan en tus costos de API, tenemos un análisis en OpenAI lanza GPT-5.4 con computer use nativo y plugins finan.

Esto se conecta con OpenAI lanza GPT-5.4 con computer use nativo y plugins finan, donde analizamos el tema en profundidad.

Profundizá en OpenAI lanza GPT-5.4 con computer use nativo y plugins finan si querés saber más.

Esto se conecta con OpenAI lanza GPT-5.4 con computer use nativo y plugins finan.

Preguntas Frecuentes

¿Qué es GPT-5.4 y qué tiene de nuevo respecto a GPT-5?

GPT-5.4 es la última versión del modelo de OpenAI, lanzada el 5 de marzo de 2026. Las novedades principales son computer use nativo (controlar mouse y teclado), un plugin financiero para Excel y Google Sheets, ventana de contexto de 1 millón de tokens y una reducción del 47% en consumo de tokens por tarea.

¿Cómo funciona el computer use de GPT-5.4?

El modelo toma capturas de pantalla, interpreta lo que ve y emite comandos de mouse y teclado para interactuar con aplicaciones. Funciona en un ciclo de build-run-verify-fix: ejecuta una acción, verifica el resultado visualmente y corrige si algo falló. Está disponible por API y en la plataforma Codex.

¿GPT-5.4 puede usarse en Excel para finanzas?

Sí, OpenAI lanzó un plugin en beta que embebe ChatGPT dentro de Excel y Google Sheets. Permite armar modelos financieros, proyecciones y análisis tirando de datos de proveedores como FactSet, S&P Global y Moody’s. En el benchmark de investment banking alcanzó 87.3%, aunque son datos del propio fabricante.

¿Cuánto cuesta GPT-5.4 y cuál es la diferencia entre Thinking y Pro?

El precio por API es de $2.50 por millón de tokens de entrada. Thinking permite razonamiento interactivo donde podés redirigir al modelo mientras piensa; es la opción para la mayoría de los usos profesionales. Pro está orientada a tareas de máxima complejidad donde se prioriza calidad sobre costo.

Conclusión

GPT-5.4 marca la apuesta de OpenAI por dos verticales concretas: automatización de escritorio con computer use y trabajo financiero con el plugin de Excel. Los benchmarks son prometedores — el salto en investment banking de 43.7% a 87.3% y superar el rendimiento humano en OSWorld son datos fuertes — pero vienen del fabricante y necesitan validación independiente.

Si trabajás en finanzas y usás Excel intensivamente, este lanzamiento merece que le dediques una prueba. Si desarrollás agentes autónomos, la combinación de computer use nativo con la reducción de tokens y la ventana de 1 millón de tokens te da herramientas nuevas con las que experimentar. Para el resto de los usuarios, la mejora es incremental respecto a GPT-5.3: mejor rendimiento, más contexto, mismo paradigma.

Lo que conviene seguir de cerca: los resultados reales del plugin financiero una vez que salga de beta, y las evaluaciones independientes de computer use en entornos de producción. Ahí se va a ver si los números de OpenAI se sostienen fuera del laboratorio.

Fuentes

Te puede interesar

Desplazarse hacia arriba