Vibe coding con GPT-5 Codex: ¿cuánto cuesta en 2026?

Con GPT-5 Codex y 100 millones de tokens al día, el costo real ronda el dólar diario si usás el modelo base con contexto moderado. Eso equivale a unas 80.000 líneas de código generadas por treinta dólares mensuales, un número que hace tres años habría sonado a ciencia ficción.

En 30 segundos

  • GPT-5 Codex cuesta $1.25 por millón de tokens de entrada y $10 por millón de salida; Codex Mini baja a $0.75/$3.00 según la rate card oficial de OpenAI.
  • El “vibe coding” es trabajar en modo agente: describís la lógica en lenguaje natural, el modelo genera el código, vos revisás y repetís el ciclo sin salir del flujo.
  • DeepSeek V3 cuesta $0.14/$0.28 por millón de tokens, unas 18 veces menos que GPT-5 Codex, y startups chinas lo están adoptando masivamente en 2026.
  • Modelos locales via Ollama (DeepSeek, Qwen3) eliminan el costo de API por completo si tenés la GPU para correrlos.
  • Los precios bajaron entre 40% y 80% en los últimos doce meses por presión directa de los modelos open-weight chinos.

Qué es vibe coding y cómo funciona con Codex

El vibe coding es una forma de programar donde confiás en el modelo de lenguaje para la generación de código con IA económica: describís la funcionalidad que querés, el modelo la implementa, vos la inspeccionás, pedís ajustes, y repetís. No es autocompletado glorificado. Es un workflow agentic donde el modelo maneja el contexto de toda la arquitectura, razona sobre el historial de cambios y puede hacer debugging por su cuenta si le das acceso al log de errores.

GPT-5 Codex es el modelo de OpenAI optimizado específicamente para este ciclo. Según el análisis de Latent Space, entiende contexto de sistema completo, puede recibir el estado de un repositorio entero y generar diffs coherentes que no rompen lo que ya funcionaba. La diferencia respecto a usar un modelo de propósito general como GPT-5.5 es que Codex tiene menor latencia para código, mejor manejo de múltiples archivos en simultáneo y un precio de salida más accesible.

¿Cómo termina costando un dólar por día? Si generás 100 millones de tokens con una proporción de 90% entrada (contexto, instrucciones, código existente) y 10% salida (código nuevo), el cálculo es: 90M × $1.25/M = $112.50 de entrada + 10M × $10/M = $100 de salida = $212.50 total. No es un dólar por día, seamos honestos. El dólar aparece si usás Codex Mini o si tu proporción de salida es mucho menor, lo cual es realista para tareas de refactoring donde mandás mucho contexto y recibís pequeños diffs. Con Codex Mini ($0.75/$3.00), los mismos 100M tokens salen $67.50 + $30 = $97.50, poco menos de un dólar diario (sí, en serio).

Precios reales de GPT-5 Codex en 2026: lo que nadie te muestra

La rate card de OpenAI tiene dos filas que importan:

ModeloEntrada (por 1M tokens)Salida (por 1M tokens)Costo estimado mensual/dev
GPT-5 Codex$1.25$10.00$100-$200
GPT-5 Codex Mini$0.75$3.00$30-$80
GPT-5.5$5.00$30.00$400+
Claude Haiku 4.5$1.00$5.00$80-$150
Gemini Flash-Lite$0.10$0.40$10-$30
DeepSeek V3$0.14$0.28$8-$20
generación de código con IA económica diagrama explicativo

El número que te cambia la perspectiva es el de salida. Para tareas donde el modelo genera mucho código nuevo (features desde cero, no refactoring), la salida puede ser el 30-40% de los tokens totales. Ahí GPT-5 Codex se va a $200-$300 mensuales por desarrollador activo, que está dentro del rango normal de herramientas de productividad tech pero no es “casi gratis”.

Ojo con los benchmarks que circulan: muchos son del propio fabricante o asumen proporciones de entrada/salida ideales. El uso real en producción agentic, donde el modelo itera sobre el mismo contexto varias veces, dispara el consumo de tokens de entrada bastante más de lo que los ejemplos de marketing sugieren. Tema relacionado: comparación de precios y capacidades entre modelos.

Modelos chinos: la competencia que derrumbó los precios

DeepSeek entrenó su modelo V3 por aproximadamente $6 millones, contra los $100 millones que costó GPT-4. El resultado: según Ecosistema Startup, modelos open-weight chinos están operando a 30 veces menos costo que OpenAI en algunos segmentos. Eso no es una mejora marginal. Es un cambio de régimen.

Los tres modelos que están tomando mercado en 2026:

DeepSeek V3

$0.14 por millón de tokens de entrada, $0.28 de salida via API. Open-weight, lo podés descargar y correr localmente si tenés hardware. Fuerte en código Python, razonamiento matemático y contextos largos. El punto débil: el seguimiento de instrucciones complejas en español no es tan sólido como en los modelos anglosajones, aunque mejoró bastante desde la versión anterior.

Qwen3-Coder-480B

El modelo de Alibaba Cloud. 480 mil millones de parámetros en la versión grande, con variantes más chicas para correr local. Específicamente entrenado para tareas de código, compite benchmark a benchmark con Codex Mini en muchos casos y te sale décimas de centavo por millón de tokens en la API.

GLM-4.6 de Z.ai

200K de contexto, lo que es útil cuando mandás repositorios enteros. Menos conocido fuera de China, pero el contexto largo lo hace interesante para proyectos con mucha interdependencia entre archivos. Todavía no tiene adopción masiva en Latinoamérica pero el precio hace que valga la pena probarlo.

Correr modelos local con Ollama: generación de código con IA sin pagar por token

Ponele que tenés una GPU decente (una RTX 4090 o una A100 si tenés presupuesto). Con Ollama podés correr DeepSeek Coder o Qwen3 en local, con API compatible con OpenAI, sin latencia de red y sin que te llegue la factura de fin de mes.

El flujo es así: instalás Ollama, hacés `ollama pull deepseek-coder-v2`, arrancás el servidor, y apuntás tu IDE (Cursor, Continue, Cody) a localhost:11434. Desde ahí, el workflow de vibe coding es idéntico al que tendrías con la API de OpenAI. Cero costo por token, control total sobre el modelo, sin que tus prompts salgan de tu máquina (que en algunos proyectos con código propietario no es menor). Más contexto en rendimiento en repositorios reales de gran escala.

El catch obvio: los modelos grandes requieren 24-48GB de VRAM. Para un equipo de cinco desarrolladores que comparten un servidor local, puede salir más barato que la API en menos de seis meses. Para un freelancer con una GPU consumer, tiene que ser un modelo pequeño (7B-13B) y los resultados no van a ser iguales a GPT-5 Codex. Zafa para tareas simples, viene flojo en arquitectura compleja.

Cómo lo están usando en China: casos reales de startups

Las startups chinas de software tienen acceso directo a DeepSeek y Qwen via proveedores locales a latencias menores de 100ms. Eso cambia el cálculo del vibe coding agentic: cuando cada iteración del ciclo demora 300ms en vez de 800ms, podés hacer el doble de iteraciones en el mismo tiempo de trabajo.

El patrón que más se repite según reportes del sector: equipos de 3-5 devs que antes usaban un dev senior para escribir el scaffold de nuevas features ahora usan DeepSeek para generar el 70% del código inicial, y el dev senior revisa y ajusta en vez de escribir desde cero. La velocidad de entrega se duplicó, el costo por feature bajó, y el trabajo interesante (arquitectura, code review, decisiones de producto) quedó para los humanos. No todos los proyectos tienen ese resultado, pero es el caso optimista que se repite.

Desde Argentina, la latencia a las APIs chinas ronda los 200-400ms típico. No es ideal pero tampoco es bloqueante para la mayoría de los workflows. Las APIs de OpenAI y Anthropic desde Buenos Aires andan entre 150-250ms, lo que sigue siendo su ventaja práctica.

Cómo elegir el modelo según tu caso de uso

La pregunta real no es “cuál es el mejor modelo” sino “cuál modelo te da el resultado que necesitás al precio que podés pagar”. La matriz: Te puede servir nuestra cobertura de optimización de costos en servicios de IA.

Caso de usoModelo recomendadoCosto mensual estimadoTrade-off
Autocompletado simple, boilerplateGemini Flash-Lite o DeepSeek V3 API$8-$30Resultado menos refinado en contextos complejos
Features nuevas en proyecto medianoCodex Mini o Claude Haiku 4.5$30-$100Buen equilibrio calidad/precio
Arquitectura compleja, multi-archivoGPT-5 Codex$100-$200Contexto largo, razonamiento sólido
Agentic en producción 24/7GPT-5.5 o Codex + caching$300+Máxima calidad, latencia baja, costo alto
Sin costo de API, privacidadDeepSeek o Qwen3 via Ollama$0 (costo HW)Requiere GPU, modelos menores al estado del arte

Un detalle que afecta a los equipos en Argentina: el costo de las APIs se paga en dólares con tarjeta de crédito, y en 2026 aplica impuesto PAIS más percepciones de Ganancias sobre servicios digitales del exterior. Eso suma entre 30% y 60% al costo nominal dependiendo del tipo de cambio y la retención que aplique tu banco. Si querés ver el detalle de costos de la API de OpenAI en proyectos argentinos, hay un análisis específico. Un modelo que parece barato en dólares puede no serlo tanto una vez que sumás la carga fiscal local.

Para proyectos que necesitan alojamiento y deployment, donweb.com tiene planes de cloud compatibles con pipelines de CI/CD donde corre bien el backend que llama a estas APIs.

Qué está confirmado y qué no

Confirmado

  • Precios de GPT-5 Codex y Codex Mini según la rate card oficial de OpenAI (mayo 2026).
  • DeepSeek V3 es open-weight y está disponible para descarga y uso via API.
  • Ollama es funcional en Windows, Mac y Linux con modelos de hasta 70B parámetros en hardware consumer.
  • La baja de precios del 40-80% en los últimos doce meses está documentada en múltiples providers.

Pendiente de verificación

  • Los benchmarks de Qwen3-Coder-480B comparados con Codex en tareas de código real en español/castellano no tienen validación independiente robusta todavía.
  • El impacto fiscal exacto de las retenciones 2026 sobre APIs de IA depende de cada banco y del régimen impositivo del comprador. Los números que circulan varían bastante.
  • La afirmación del titular original (“$1/day”) asume una proporción de uso muy específica que no aplica a todos los workflows.

Errores comunes al arrancar con vibe coding

Mandar el repositorio entero al modelo sin filtrar. Si tenés 200 archivos y mandás todo el contexto en cada prompt, los tokens de entrada se van al techo. Lo correcto: identificá los archivos relevantes para la tarea y mandá solo esos. Un buen workflow de vibe coding tiene un paso de “selección de contexto” antes de cada prompt.

Confundir precio bajo con costo bajo. DeepSeek a $0.14/M tokens suena barato hasta que un workflow agentic mal diseñado hace 500 llamadas donde alcanzarían 20. El costo real depende del número de iteraciones, no solo del precio por token. Antes de migrar a un modelo más barato, medí cuántas llamadas hace tu pipeline actual.

No cachear el contexto del sistema. Si mandás el mismo prompt de sistema en cada llamada (instrucciones, contexto de arquitectura, reglas del proyecto), estás pagando por esos tokens en cada request. OpenAI tiene prompt caching que devuelve un descuento sobre tokens repetidos. Anthropic también. No usarlo es tirar plata.

Mirá cómo se arma en I vibe code 100M+ tokens with Codex and GPT-5.4 for ~$1/day.

Preguntas Frecuentes

¿Cuánto cuesta usar GPT-5 Codex para generación de código en 2026?

GPT-5 Codex cuesta $1.25 por millón de tokens de entrada y $10 por millón de tokens de salida. Un desarrollador activo que usa vibe coding intensamente gasta entre $100 y $200 al mes. Codex Mini baja ese número a $30-$80 mensuales con algo menos de capacidad en tareas complejas.

¿Qué es el vibe coding y cómo funciona con modelos de IA?

El vibe coding es un método de programación donde describís en lenguaje natural lo que querés construir y un modelo de lenguaje genera el código, vos lo revisás y pedís cambios hasta llegar al resultado. Con GPT-5 Codex funciona en modo agentic: el modelo puede leer múltiples archivos, entender la arquitectura del proyecto y generar diffs que encajan con lo que ya existe, no código suelto. En trabajar a escala con codebases gigantes profundizamos sobre esto.

¿Cuáles son las alternativas más baratas a GPT-5 Codex para programación?

DeepSeek V3 es la alternativa más económica via API: $0.14/$0.28 por millón de tokens, unas 18 veces menos que Codex. Gemini Flash-Lite ($0.10/$0.40) es otra opción muy barata. Para código sin costo de API, los modelos open-weight de DeepSeek o Qwen3 corridos localmente con Ollama eliminan el costo por token, pero requieren hardware con al menos 16-24GB de VRAM para resultados aceptables.

¿Los modelos chinos como DeepSeek compiten en calidad con GPT-5 Codex?

En tareas de código Python, JavaScript y matemáticas, DeepSeek V3 y Qwen3-Coder alcanzan resultados comparables a Codex Mini en la mayoría de benchmarks de 2026. Para arquitectura de sistemas complejos, razonamiento multi-paso o proyectos con muchas interdependencias, GPT-5 Codex todavía tiene ventaja. El punto débil de los modelos chinos en Argentina: seguimiento de instrucciones en español argentino coloquial, donde los modelos de OpenAI y Anthropic son más sólidos.

¿Conviene correr modelos de IA local para programar en vez de usar APIs?

Depende del volumen. Si generás más de 50 millones de tokens mensuales y tenés una GPU con 24GB+ de VRAM, correr DeepSeek o Qwen3 en local con Ollama puede amortizar el hardware en menos de seis meses comparado con la API. Para uso esporádico o desarrollo individual, la API sale más barata porque no pagás el hardware ni el consumo eléctrico. La ventaja extra del modelo local: tus prompts y código no salen de tu máquina, que en proyectos con código propietario es relevante.

Conclusión

La generación de código con IA económica dejó de ser una promesa para el futuro. GPT-5 Codex a $1.25/M tokens de entrada, DeepSeek V3 a $0.14/M, Gemini Flash-Lite a $0.10/M: el mercado tiene opciones reales para cada presupuesto y cada nivel de exigencia. Lo que cambió en 2026 no es la calidad de los modelos (eso venía mejorando hace años) sino que los modelos chinos open-weight le quitaron el piso a los precios y forzaron a OpenAI y Anthropic a bajar sus tarifas entre 40% y 80% respecto a 2024.

Para equipos en Argentina, la lectura práctica es esta: Codex Mini para el 80% del trabajo cotidiano, GPT-5 Codex para las tareas complejas que lo ameritan, y DeepSeek o Qwen3 como experimento de reducción de costos que merece al menos un proyecto piloto. Si tenés el hardware, Ollama con modelos locales es la opción que más va a cambiar tu estructura de costos a mediano plazo.

El vibe coding no es una moda. Tomalo con pinzas cuando alguien lo vende como el fin de los programadores, pero tampoco lo ignores: los equipos que integren este workflow de forma disciplinada van a entregar features más rápido que los que no lo hagan, con o sin hype de por medio.

Fuentes

Desplazarse hacia arriba