Codex ha fracasado OpenAI: qué salió mal

El Codex de OpenAI ha fracasado como agente autónomo de código: desde su relanzamiento en mayo de 2025, completa apenas el 37% de los pedidos, sufre fallos masivos de context compaction, y en pruebas de seguridad de Black Hat 2025, el 45% del código generado tenía vulnerabilidades OWASP Top 10. El experimento de coding agent cloud no funcionó.

En 30 segundos

El nuevo Codex (mayo 2025) es un agente cloud autónomo, distinto del modelo original de 2021 que OpenAI discontinuó en 2023.
Completa solo el 37% de los requests: el resto falla por context compaction, errores sin diagnóstico, o timeouts en la nube.
El 45% del código que genera tiene fallas de seguridad catalogadas en OWASP Top 10, según demostraciones de Black Hat 2025.
GitHub ya lo removió del model picker de Copilot en abril de 2026, señal clara de que no está lista para producción.
Cursor, Claude Code y GitHub Copilot ofrecen alternativas más estables para la mayoría de los casos de uso.

Qué es Codex: del modelo original al agente autónomo

Codex es (o fue, dependiendo de cuál versión hablemos) una familia de herramientas de OpenAI para generación de código. El modelo original de 2021 era la base de GitHub Copilot: un LLM fine-tuneado en repositorios públicos que completaba fragmentos de código en el IDE. OpenAI lo deprecated en marzo de 2023 sin mucho ruido.

La confusión viene porque OpenAI reintrodujo el nombre en marzo de 2024 y lo relanzó como agente autónomo en mayo de 2025. Esta segunda encarnación es diferente: no es un modelo de completado, sino un agente cloud que recibe una tarea, la ejecuta en un sandbox Linux aislado, y devuelve el resultado (pull request, diff, o reporte). La idea era competir directamente con Devin y con el flujo de trabajo agentico de Cursor.

El problema es que ese agente nunca terminó de funcionar bien.

Los problemas técnicos críticos de Codex

Ponele que le encargás a Codex refactorizar un módulo de autenticación. Arranca bien, lee los archivos, hace un plan. Cuarenta minutos después: “Failed to create task.” Sin stack trace, sin contexto, sin nada. Volvés a intentar y esta vez simplemente se cuelga.

Eso no es un edge case. Según los issues documentados en el repositorio oficial, el context compaction —el mecanismo que usa el agente para manejar conversaciones largas— falla en el 80% de las operaciones complejas. Cuando el agente necesita comprimir su contexto para seguir trabajando en un proyecto grande, el proceso se rompe y pierde todo el progreso acumulado. No hay recovery, no hay checkpoint. Empezás de cero.

Los fallos concretos más reportados:

Context compaction failures: el agente colapsa al intentar comprimir contexto en tareas de más de 30 minutos.
“Failed to create task”: error opaco que aparece al inicio sin diagnóstico usable.
Browser Use backend failures: el tool de navegación web falla consistentemente en entornos con autenticación.
Shell tool deprecation: herramientas de shell que el agente intenta usar ya no están disponibles en el sandbox.

¿Y qué pasa con la tasa de éxito real? Exacto: 37% de completitud según análisis de la comunidad. Dos de cada tres pedidos no llegan a buen puerto.

Limitaciones arquitectónicas que causan el fracaso

El contexto es el recurso más escaso de cualquier agente LLM. Codex lo gestiona mal porque su arquitectura cloud impone restricciones que no existen en herramientas locales. Para profundizar en mejores prácticas, consultá nuestra guía sobre prompts que funcionan mejor con modelos actuales.

Cuando el agente recibe instrucciones muy extensas (documentación del proyecto, specs, guías de estilo), ese texto ya consume una porción grande de la ventana de contexto antes de que empiece a trabajar. Subís el proyecto, le mandás el README y los tres docs de arquitectura, y el agente arranca con la mitad del contexto ocupado. Cuando en el medio de la tarea necesita comprimir para seguir, no tiene margen. Entra en el estado de compactación roto y ahí termina todo.

El problema más profundo es que el sandbox de Codex no tiene setup de entorno persistente. Cada vez que el agente retoma una tarea, el environment puede no estar configurado igual. Las dependencias, las variables de entorno, los permisos, todo puede haber cambiado entre un paso y el siguiente. Subís el modelo, arranca bien, pero en el paso 4 falla porque el entorno ya no es el mismo que en el paso 1 (sin documentación, sin aviso, solo silencio).

Vulnerabilidades de seguridad en Codex

Los problemas técnicos son una cosa. Las vulnerabilidades de seguridad son otra categoría.

En las demostraciones de Black Hat 2025, seis exploits distintos comprometieron agentes de coding basados en arquitecturas similares a Codex. El más grave: acceso a GitHub OAuth tokens con scope completo. El agente, al tener acceso al repositorio para trabajar, expone credenciales que un atacante con acceso al sandbox puede extraer. Secuestro de credenciales sin que el desarrollador lo note.

Según el análisis de Cybernews sobre el incidente, en pruebas de respuesta a incidentes de ciberseguridad, Codex no solo no pudo diagnosticar correctamente un malware en Linux, sino que generó código de “remediación” que empeoró la situación. No es el tool indicado para security tasks.

El 45% de código generado con fallas OWASP Top 10 es el dato que más me preocupa. Inyección SQL, XSS, autenticación rota, exposición de datos sensibles: todo lo que te enseñan a evitar en el primer curso de desarrollo seguro, Codex lo reproduce con regularidad. Si usás el output de Codex en producción sin revisión manual, estás asumiendo un riesgo serio.

Codex ha fracasado OpenAI: la señal más clara la dio GitHub

En abril de 2026, GitHub removió Codex del model picker de GitHub Copilot. Lo sacaron de la lista de modelos disponibles para los planes Student y el acceso estándar. No hubo un anuncio con fanfarria, solo un changelog técnico.

Esa decisión dice todo. GitHub Copilot nació sobre el Codex original. Que el producto que los puso en el mapa ahora no aguante el estándar de su propio ecosistema es una señal de que algo salió muy mal en la nueva iteración. Para más detalles técnicos, mirá modelos que superan a Codex en programación.

Codex vs Cursor: arquitectura y casos de uso

La comparación más frecuente es Codex contra Cursor, pero están resolviendo el problema de formas distintas.

Característica	Codex (OpenAI)	Cursor	GitHub Copilot
Ejecución	Cloud (sandbox remoto)	Local (IDE)	Local + cloud
Paradigma	Agente autónomo	Asistente + agente	Autocompletado + chat
Precio	Incluido en ChatGPT Pro/Teams	USD 20/mes	USD 10-19/mes
Tasa de éxito en tasks largas	~37%	~70-80% (estimado comunidad)	No aplica (distinto uso)
Soporte BYOM	No (solo modelos OpenAI)	Sí (Claude, GPT-4, etc.)	Limitado
Seguridad auditada	Fallas confirmadas Black Hat 2025	Sin incidents públicos mayores	Vulnerabilidades menores reportadas

codex ha fracasado openai diagrama explicativo

Cursor corre en tu máquina, con tu IDE, con acceso directo al sistema de archivos. Cuando algo falla, ves exactamente dónde y podés intervenir. Codex opera en un sandbox remoto donde tenés visibilidad parcial del estado. Para tasks focalizadas y bien definidas, Cursor gana por latencia y control. La ventaja teórica de Codex era el paralelismo: podés lanzar múltiples agents en simultáneo. En la práctica, si el 63% de esos agents falla, el paralelismo no te sirve de mucho.

Alternativas viables a Codex en 2026

Si estás evaluando qué usar para coding con IA este año, el mercado tiene opciones más maduras:

Cursor (USD 20/mes)

La opción más sólida para desarrollo local. Soporta BYOM (bring your own model), funciona con Claude, GPT-4o, y otros. El modo agente completa refactors completos con tasas de éxito mucho más altas que Codex. Fuerte en Python, TypeScript, y Rust.

Claude Code (USD 20/mes con Claude Pro)

CLI que corre en tu terminal con acceso completo al sistema de archivos. Muy bueno para tasks de refactor a nivel de repositorio, generación de tests, y análisis de código. La ventaja es la transparencia: ves exactamente qué ejecuta y podés interrumpir en cualquier momento.

GitHub Copilot (USD 10-19/mes)

Si tu flujo es principalmente autocompletado en VS Code o JetBrains, Copilot sigue siendo la integración más limpia. No es un agente autónomo, es un asistente de edición. Para ese caso de uso específico, funciona bien. La confusión viene cuando se lo compara con Codex como si fueran equivalentes. Sobre eso hablamos en alternativas superiores disponibles hoy.

Gemini Code Assist (gratis en tier básico)

Google ofrece Code Assist con integración en VS Code y JetBrains. La versión gratuita tiene límites, pero para equipos que ya usan GCP tiene sentido evaluarlo. El modelo mejoró bastante en 2025 para tasks de código.

Lecciones aprendidas: por qué los agentes de código necesitan mejora

Codex falló en los escenarios donde más se lo necesitaba: proyectos complejos, scope ambiguo, tareas multi-step con dependencias entre pasos. Los factores que determinan si un coding agent funciona o no son concretos:

Primero, el environment setup. Un agente que no puede configurar su propio entorno de forma determinista va a fallar en producción. El sandbox de Codex no garantiza consistencia entre pasos.

Segundo, el manejo de contexto. Tareas reales de programación necesitan contexto largo: la base de código, los tests, la documentación, el historial de cambios. Si el agente colapsa cuando el contexto crece, no sirve para trabajo real.

Tercero, la capacidad de manejo de errores en tiempo de ejecución. Cualquiera que haya programado más de un mes sabe que el 60% del tiempo se va en debuggear lo que no funciona. Un agente que no puede diagnosticar sus propios errores de ejecución no tiene valor práctico.

Lo que no queda claro es si OpenAI va a iterar seriamente sobre Codex o si el foco está en o3 y GPT-5 para completado estándar. Considerando que ya lo removieron del Copilot y que los issues del repo público llevan meses sin respuesta oficial, la señal no es alentadora. Más contexto en opciones de visión más confiables.

Errores comunes al usar Codex o cualquier coding agent

Error 1: mandar el proyecto completo como contexto inicial. La mayoría carga todo el repositorio esperando que el agente “entienda el contexto”. El resultado es que el agente arranca con la ventana de contexto casi llena y colapsa antes de terminar. Lo que funciona es darle contexto mínimo y preciso: el archivo específico, la función específica, el error concreto.

Error 2: usar el output de Codex en producción sin revisión. Con 45% de fallas OWASP Top 10, meter código de Codex directamente en producción es un riesgo documentado. El agente puede generar queries con concatenación de strings en vez de prepared statements, o manejar tokens en localStorage sin encriptación. No es hipotético, está demostrado.

Error 3: comparar Codex con GitHub Copilot como si fueran lo mismo. Son paradigmas distintos. Copilot es autocompletado en el IDE. Codex es un agente que ejecuta tasks autónomamente. Si lo que necesitás es sugerencias mientras escribís, Copilot es la herramienta correcta. Si querés delegar una tarea completa, Codex en teoría era la opción, aunque en la práctica falla más de lo que completa.

Preguntas Frecuentes

¿Qué es Codex de OpenAI y por qué fracasó?

Codex es el nombre de dos productos distintos de OpenAI: un modelo de completado de código de 2021 (deprecated en 2023) y un agente autónomo cloud relanzado en mayo de 2025. El segundo fracasó por fallos sistémicos de context compaction (80% de fallas en operaciones complejas), tasa de completación del 37%, y vulnerabilidades de seguridad confirmadas en código generado. GitHub lo removió del model picker de Copilot en abril de 2026.

¿Cuáles son los problemas técnicos de Codex?

Los principales son: context compaction que colapsa en tareas de más de 30 minutos, el error “Failed to create task” sin diagnóstico, fallos del Browser Use backend en entornos con autenticación, y herramientas de shell deprecadas que el agente intenta usar. El sandbox cloud además no garantiza consistencia de entorno entre pasos de la misma tarea.

¿Debería usar Codex, Cursor o GitHub Copilot?

Cursor (USD 20/mes) es la opción más sólida para agente de código local con alta tasa de éxito. GitHub Copilot (USD 10-19/mes) es la mejor integración para autocompletado en IDE. Codex en su estado actual no se recomienda para proyectos en producción dada su tasa de completación del 37% y los problemas de seguridad documentados.

¿Es seguro usar Codex para escribir código?

No sin revisión manual. El 45% del código generado por Codex contiene vulnerabilidades de OWASP Top 10 según análisis de Black Hat 2025. Además, el agente tiene riesgo de exposición de GitHub OAuth tokens con scope completo cuando opera sobre repositorios. Todo output de Codex necesita auditoría de seguridad antes de ir a producción.

¿Qué alternativas existen a Codex para coding con IA?

Las más usadas en 2026 son Cursor (USD 20/mes, local, soporta múltiples modelos), Claude Code (incluido en Claude Pro USD 20/mes, CLI con acceso al filesystem), GitHub Copilot (USD 10-19/mes, mejor para autocompletado), y Gemini Code Assist (gratis en tier básico, buena integración GCP). Todas tienen mejor historial de estabilidad que Codex en su iteración actual.

Conclusión

Codex como agente autónomo fue una apuesta válida pero prematura. OpenAI tomó el nombre de su producto más famoso y lo pegó en una arquitectura cloud de agente que tiene problemas fundamentales de context management, environment setup, y seguridad. El resultado es un tool con 37% de tasa de completación y un historial de vulnerabilidades que lo hace inapropiado para producción sin revisión exhaustiva.

Lo que cambió con esto es que el mercado de coding agents quedó más claro: Cursor y Claude Code demostraron que el agente local con acceso directo al filesystem es más confiable que el sandbox cloud remoto, al menos con la madurez tecnológica actual. Si estás evaluando adoptar un coding agent en tu equipo, las alternativas locales son la apuesta más segura para el resto de 2026. Codex puede mejorar, pero hoy no está ahí.

Codex de OpenAI: por qué fracasó como agente