¿Se volvió más tonto GPT-5.4? La verdad

¿Se volvió más tonto GPT-5.4? La respuesta corta es no, pero la historia es más complicada. Sam Altman reconoció públicamente un bug en el sistema de ruteo de GPT-5 que derivaba consultas complejas a modelos más débiles. El problema se detectó en agosto de 2025 y se corrigió en semanas. GPT-5.4, lanzado en 2026, muestra mejoras medibles respecto a su predecesor.

En 30 segundos

GPT-5 tuvo un bug real: el “autoswitcher” enviaba prompts complejos a modelos más baratos en vez de al modelo de razonamiento profundo.
Sam Altman reconoció el problema públicamente. No fue un rumor: fue un defecto de implementación, no de capacidad del modelo.
GPT-5.4 corrigió ese bug y mejoró en benchmarks concretos: 87.3% en modelado de hojas de cálculo (vs 68.4% en GPT-5.2) y 33% menos alucinaciones.
Parte de la percepción de “más tonto” fue diseño intencional: menos adulación, más refusals, respuestas más cortas en consultas simples.
En abril de 2026 llegó GPT-5.5, primer modelo completamente reentrenado desde GPT-4.5, no un finetune.

La verdad detrás del rumor: ¿GPT-5 realmente se volvió más tonto?

GPT-5 es la familia de modelos de lenguaje de OpenAI lanzada en 2025, diseñada con un sistema heterogéneo de múltiples variantes que se seleccionan dinámicamente según el tipo de consulta. No es un modelo único: es una arquitectura con un router inteligente en el medio.

Ponele que le pedís a GPT-5 que analice un contrato legal de 40 páginas y te diga qué cláusulas son problemáticas. Lo esperado es que use su modo de razonamiento profundo. Lo que pasaba en los primeros meses: el router lo mandaba a una variante más rápida y barata, y el análisis salía genérico, superficial, con la profundidad de un resumen automático de Wikipedia.

Eso fue lo que miles de usuarios reportaron en Reddit a partir de agosto de 2025. Según reportes en Tech Radar, los hilos de Reddit calificaron la actualización de “horrible”. No era un grupo de usuarios nostálgicos de GPT-4: era gente con casos de uso reales que veía degradación concreta en tareas que antes funcionaban bien.

El punto es que tenían razón en lo que observaban. Se equivocaban en el diagnóstico.

Model Routing: cómo un router inteligente causó confusión

GPT-5 no es un modelo monolítico. Es una familia de variantes: desde modelos ligeros para consultas simples hasta modelos de razonamiento profundo para tareas complejas. El router decide cuál usar en cada request, en tiempo real, sin que vos lo veas ni lo controles.

La lógica del sistema es razonable en papel: ¿para qué gastar compute de razonamiento profundo en “escribime un asunto de email”? El problema surge cuando el router clasifica mal. Como explica Navveen Balani en su análisis técnico, el sistema optimizaba agresivamente por costo, y eso hacía que prompts complejos terminaran en el carril equivocado.

¿Alguien podía forzar el modelo correcto? Todavía no, al menos no de forma directa en la interfaz de ChatGPT.

Para empresas con integraciones via API, el impacto era más claro porque podían ver qué variante respondía. Para usuarios de ChatGPT, era invisible: misma interfaz, distinta calidad, sin ninguna señal de qué estaba pasando atrás.

El problema técnico que admitió Sam Altman

Acá viene lo bueno: no fue una conspiración, fue un bug reconocido. Según Silicon Republic, Sam Altman admitió que el rollout de GPT-5 fue “complicado” y que el autoswitcher tenía un defecto específico: enviaba prompts que requerían razonamiento profundo al modelo rápido, en vez del modelo de thinking.

El timeline aproximado fue este: el bug se identificó a las pocas semanas del lanzamiento masivo. OpenAI lo corrigió en patches sucesivos a lo largo de agosto y septiembre de 2025. No hubo un anuncio grande de “bug corregido” porque eso hubiera implicado admitir públicamente que el sistema tuvo un problema de lanzamiento (spoiler: ya lo habían admitido de todas formas).

Lo que no es menor es que Altman usó la palabra “defecto”. No fue un “trade-off de diseño” ni una “decisión de optimización”: fue un error en la lógica de routing que llegó a producción.

Trade-offs intencionales: velocidad vs razonamiento profundo

Eso sí: no todo lo que los usuarios percibieron como degradación fue un bug. Parte fue diseño.

GPT-5 introdujo cambios deliberados de personalidad y comportamiento respecto a GPT-4.5. Más refusals en contenido borderline, respuestas más cortas en consultas que el modelo clasifica como simples, y menos “adulación” (la tendencia de los modelos a validar todo lo que decís, aunque estés equivocado). Fortune reportó el backlash de usuarios que interpretaron la menor calidez conversacional como pérdida de capacidad.

Son dos cosas distintas. Un modelo que no te dice “¡Excelente pregunta!” antes de responder no es más tonto. Es menos adulador (que probablemente sea mejor, aunque cueste adaptarse).

El problema es que cuando mezclás un bug real de routing con cambios intencionales de personalidad, el resultado desde afuera parece degradación generalizada. Y los usuarios no tienen forma de distinguir qué es qué.

GPT-5.4: números que demuestran la mejora real

GPT-5.4, lanzado en 2026, no es solo un parche del bug de routing. Es una actualización con mejoras medibles. Según la comparativa técnica de NXCode, estos son los números concretos frente a GPT-5.2:

Benchmark	GPT-5.2	GPT-5.4	Referencia humana
OSWorld (automatización de escritorio)	~68%	75%	72%
Spreadsheet modeling	68.4%	87.3%	—
SWE-Bench Pro (código)	~42%	57.7%	—
Alucinaciones (reducción)	línea base	-33%	—

El salto en spreadsheet modeling (de 68.4% a 87.3%) es el más llamativo. Si usás GPT-5.4 para análisis de datos tabulares o modelado financiero, ahí vas a notar la diferencia. OSWorld es interesante porque supera el benchmark humano en automatización de escritorio, que era una de las promesas del modelo.

El 33% de reducción en alucinaciones también importa. Cualquiera que haya usado modelos de lenguaje para investigación sabe que las alucinaciones son el talón de Aquiles: el modelo te cita papers que no existen, te da estadísticas inventadas, te inventa nombres de personas reales haciendo cosas que nunca hicieron.

Cómo diferenciar entre problemas reales y percepciones

Si querés evaluar si un modelo empeoró o mejoró para tu caso de uso, necesitás hacer pruebas controladas. No comparaciones de memoria (“me parece que antes respondía mejor”).

Un déficit real de rendimiento se ve así: el mismo prompt exacto, en el mismo tipo de tarea, produce peores resultados medibles. Menos precisión, más errores factuales, razonamiento incompleto.

Un cambio de personalidad se ve distinto: el análisis sigue siendo correcto y profundo, pero la respuesta es más seca, menos conversacional, con menos frases de transición entre ideas. Eso no es “más tonto”. Es un modelo con menos énfasis en sonar amigable.

La confusión entre estas dos cosas fue lo que infló el backlash de GPT-5. El bug de routing era real y generaba degradación real. Pero muchos usuarios también estaban reaccionando a cambios de personalidad que percibían como degradación porque estaban acostumbrados al estilo de GPT-4.5.

GPT-5.5: la respuesta definitiva de OpenAI

En abril de 2026 llegó GPT-5.5. Según el análisis de Javadex, es el primer modelo completamente reentrenado desde GPT-4.5, no un finetune ni una variante de GPT-5. El reentrenamiento completo importa porque significa que OpenAI partió de datos y arquitectura con lo aprendido de todos los problemas del rollout de GPT-5.

Incluye un “Super App mode” en ChatGPT que integra capacidades de agente: el modelo puede ejecutar tareas multi-paso en la web, gestionar archivos, interactuar con apps. Es la respuesta directa a los competidores que avanzaron en agentes durante 2025.

Tomalo con pinzas, porque los benchmarks que publica OpenAI son del propio fabricante. Pero la dirección es clara: el caos del lanzamiento de GPT-5 fue un episodio, no una tendencia.

Errores comunes al evaluar si un modelo mejoró o empeoró

Comparar de memoria sin prompts controlados

La memoria humana no es confiable para comparar rendimiento de modelos. Si recordás que “antes GPT respondía mejor”, probablemente estás mezclando el tipo de tarea, el contexto de la conversación, y tu estado de ánimo ese día. Guardá prompts de prueba y usá los mismos en cada versión.

Confundir cambio de personalidad con degradación cognitiva

Un modelo más directo y menos adulador no es más tonto. Si GPT-5.4 te responde en 3 oraciones donde GPT-4.5 te respondía en 8 con mucha emoción, revisá si el contenido de esas 3 oraciones es correcto y completo. Muchas veces lo es.

No considerar el sistema de routing al evaluar resultados

Si usás ChatGPT (no API), no sabés qué variante del modelo respondió tu consulta. Si conseguís resultados inconsistentes, el problema puede ser el router, no el modelo. Via API tenés más control sobre parámetros, aunque tampoco acceso directo a qué variante ejecutó el request.

Preguntas Frecuentes

¿Es verdad que GPT-5 se volvió más tonto?

Hubo un bug real en el sistema de routing que degradaba la calidad en tareas complejas: el modelo mandaba consultas difíciles a variantes más débiles por optimización de costo. Ese bug fue reconocido por Sam Altman y corregido. La percepción de degradación también incluyó cambios intencionales de personalidad (menos adulación, más concisión) que muchos usuarios interpretaron como pérdida de capacidad.

¿Cuál es la diferencia entre GPT-5.4 y GPT-5.2?

GPT-5.4 mejoró en spreadsheet modeling (87.3% vs 68.4%), SWE-Bench Pro (57.7% vs ~42%), y redujo alucinaciones en un 33% respecto a GPT-5.2. En OSWorld superó el benchmark humano con 75% (frente al 72% humano). El bug de routing también está corregido en GPT-5.4.

¿Qué es el model routing de GPT-5 y cómo afecta la calidad?

GPT-5 usa un sistema con múltiples variantes de modelo que se seleccionan automáticamente por un router. El router analiza la consulta y decide qué variante ejecuta: desde modelos ligeros para tareas simples hasta modelos de razonamiento profundo para tareas complejas. Cuando el router clasifica mal, una consulta compleja puede terminar en el modelo equivocado y la calidad baja notablemente.

¿Por qué GPT-5 parecía más lento o menos creativo que GPT-4?

GPT-5 introdujo cambios deliberados: menos tendencia a la adulación, más refusals en contenido borderline, y respuestas más concisas en consultas simples. Estos no son problemas de capacidad sino decisiones de diseño. La velocidad percibida también varía según la variante que asigna el router en cada sesión.

¿GPT-5.5 soluciona todos los problemas de GPT-5?

GPT-5.5 es un reentrenamiento completo, no un finetune sobre GPT-5. Eso significa que OpenAI incorporó las lecciones del rollout problemático desde la base. Incluye Super App mode con capacidades de agente integradas en ChatGPT. Es demasiado pronto para evaluarlo de forma independiente ya que los únicos benchmarks disponibles son los del propio fabricante.

Conclusión

El episodio de “GPT-5 más tonto” fue una combinación de un bug real (el autoswitcher de routing), cambios intencionales de personalidad, y usuarios que no tenían forma de distinguir entre los dos. Sam Altman lo reconoció, el problema se corrigió, y GPT-5.4 tiene datos concretos que muestran mejora real donde importa: código, análisis de datos y precisión factual.

Lo que sí quedó expuesto es un problema de transparencia: cuando un sistema de IA usa routing dinámico entre múltiples variantes sin decirte cuál ejecutó tu consulta, perdés la capacidad de evaluar qué está pasando. Para equipos que integran estos modelos en flujos de trabajo críticos, eso es un problema de arquitectura, no solo de UX.

GPT-5.5 llega con reentrenamiento completo y modo agente integrado. Si el patrón se repite, los primeros meses van a ser informativos. Guardá tus prompts de prueba.

¿GPT-5.4 se volvió más tonto? La verdad