En pocas palabras: En junio-julio de 2026, GPT-5.6 (2M de contexto, USD 5/30 por millón), Gemini 3.5 Flash, Claude Science y una tanda de recortes de Qwen bajaron el costo de inferencia en todos los tiers a la vez: tareas que antes costaban una fortuna hoy salen centavos.
En junio y julio de 2026 se juntaron cuatro anuncios grandes de IA en pocas semanas y el resultado fue una caída de precios que ya se siente en cualquier factura de API. GPT-5.6, Gemini 3.5 Flash, Claude Science y una tanda de recortes de Qwen movieron el tablero. La guerra de precios modelos IA 2026 dejó de ser una promesa: hoy procesás tareas que hace dos años costaban una fortuna por centavos.
La guerra de precios modelos IA 2026 es la baja simultánea del costo de inferencia (lo que pagás por usar un modelo) en todos los segmentos a la vez, impulsada por la competencia entre OpenAI, Google, Anthropic y los modelos abiertos chinos como Qwen y DeepSeek. Se mide en dólares por millón de tokens de entrada y de salida, y en junio-julio de 2026 tocó desde los modelos frontier hasta los ultra baratos.
En 30 segundos
- GPT-5.6 llegó con 2M de contexto y precio de USD 5/USD 30 por millón (entrada/salida), pero con acceso restringido por clasificación “High-risk”.
- Gemini 3.5 Flash ya está disponible y subió a USD 1,50/USD 9, tres veces más caro que su antecesor, porque ahora rinde como un modelo frontier.
- Claude Science no es un modelo nuevo: es un workbench de Anthropic para investigadores, con 60+ skills y grants de hasta USD 30.000.
- DeepSeek V4 (USD 0,14/USD 0,28) y los recortes de hasta 80% de Qwen empujaron los precios de todos hacia abajo.
- El piso ya está en USD 0,035 por millón con Amazon Nova Micro. Una PYME hoy corre IA seria con presupuesto de café.
¿Qué modelos de IA se actualizaron o lanzaron en junio-julio 2026?
Ponele que abriste el feed de tech un martes cualquiera de junio y tenías cuatro anuncios de peso apilados. Pasó eso, más o menos. Vamos uno por uno, porque no todos son lo mismo.
GPT-5.6. OpenAI lo lanzó con 2 millones de tokens de contexto y un salto grande en tareas de razonamiento. El detalle raro: no está disponible para todos. Lo clasificaron como “High-risk” dentro de su Preparedness Framework después de que sacara 96,7% en una evaluación de captura-la-bandera de ciberseguridad. Traducido: el modelo es tan bueno resolviendo exploits que decidieron frenar el acceso general.
Gemini 3.5 Flash. Este ya lo podés usar. Según el reporte de AIWorld, supera al Gemini 3.1 Pro en varios benchmarks. O sea, un modelo “Flash” (la línea económica de Google) ahora le gana a la línea Pro de hace unos meses. Eso solo ya dice bastante de la velocidad a la que se mueve todo.
Claude Science. Acá cuidado, porque muchos lo leyeron mal. No es un modelo nuevo. Es un workbench, un entorno de trabajo para investigadores, que corre sobre los modelos Claude que ya conocés. Más abajo lo desarmo en detalle. En herramientas de desarrollo imprescindibles profundizamos sobre esto.
Qwen y DeepSeek. Del lado abierto, Alibaba recortó hasta 80% los costos de Qwen y DeepSeek V4 apareció con precios que dan risa (en el buen sentido). Son los que están apretando a todos los demás.
Comparativa de precios: ¿cuánto cuesta cada modelo IA por millón de tokens?
Acá está la foto completa. Los precios van en dólares por millón de tokens, separando entrada (lo que le mandás) de salida (lo que te devuelve). La salida siempre es más cara, ojo con eso al presupuestar.
| Modelo | Entrada (USD/1M) | Salida (USD/1M) | Segmento |
|---|---|---|---|
| GPT-5.6 | 5,00 | 30,00 | Frontier |
| Claude Opus 4.8 | 5,00 | 25,00 | Frontier |
| Qwen3.7-Max | 2,50 | 2,50 | Alto (abierto) |
| Gemini 3.5 Flash | 1,50 | 9,00 | Medio-alto |
| DeepSeek V4 | 0,14 | 0,28 | Económico (abierto) |
| Qwen 7B | 0,05 | 0,05 | Ultra económico |
| Amazon Nova Micro | 0,035 | 0,14 | Ultra económico |

Mirá la diferencia entre GPT-5.6 y Nova Micro en salida: USD 30 contra USD 0,14. Es un modelo 214 veces más caro por el mismo token generado. No significa que uno sea “malo”, significa que hacen cosas distintas. Meter GPT-5.6 a clasificar emails es como mudarte en un camión de bomberos.
¿Por qué Gemini 3.5 Flash es 3x más caro que su predecesor?
El Gemini 3 Flash costaba USD 0,50/USD 3. El 3.5 Flash pasó a USD 1,50/USD 9. Tres veces más. ¿Google se volvió loco justo cuando todos bajan precios?
No. La jugada es otra. Cuando un modelo de la línea económica empieza a rendir como un frontier, deja de ser económico y pasa a competir en otra liga. Google decidió cobrar por lo que el modelo hace, no por la etiqueta “Flash” que arrastra. Si te da rendimiento que antes solo conseguías en Pro, te lo cobran como Pro-lite. Complementá con integración de Copilot con Jira.
Es un movimiento raro dentro de la guerra de precios modelos IA 2026, porque va contra la corriente general. La lectura que me hago: Google vio que tenía margen para subir y aún así quedar más barato que un GPT-5.6 o un Opus 4.8. Y tiene razón. A USD 9 de salida sigue siendo un tercio de lo que sale un frontier puro. Habría que ver cuánto le dura la ventaja.
¿Cómo cayeron 90% los costos de inference en 18 meses?
La respuesta corta: presión desde abajo.
Qwen, el modelo abierto de Alibaba, superó los mil millones de descargas y se comió cerca del 50% del mercado open-source. DeepSeek V4 llegó con precios que un año atrás parecían imposibles. Cuando tenés un modelo abierto competente a USD 0,14 la entrada, los proveedores cerrados no pueden seguir cobrando lo de antes. O bajan, o se quedan mirando cómo el cliente se va a otro lado.
A eso sumale el fin de los subsidios. Durante un tiempo las empresas grandes subvencionaron el precio para ganar mercado, quemando plata para engancharte. Esa etapa se está terminando, pero el volumen creció tanto que igual pueden bajar precios y ganar por escala. Bajás el margen por token pero vendés mil veces más tokens.
¿Y esto sigue? Gartner proyecta otro 90% de caída hacia 2030. Tomalo con pinzas, son proyecciones, pero la dirección es clara. El token se abarata todos los meses.
¿Qué es Claude Science y quién debería usarlo?
Claude Science es un workbench de Anthropic para investigación científica, con más de 60 skills especializadas, soporte para estructuras 3D de proteínas, artefactos auditables y ejecución local, por SSH o en clústeres HPC. No es un modelo: es el entorno donde los modelos Claude trabajan sobre problemas de ciencia dura. Está disponible para todos los suscriptores pagos. Te puede servir nuestra cobertura de benchmarks de rendimiento actual.
Según el anuncio oficial de Anthropic, apunta a un público bien concreto. Vamos por caso de uso.
¿Para quién sirve Claude Science?
- Biólogos y bioinformáticos: el soporte de estructuras 3D de proteínas apunta directo a laboratorios de biología molecular y farma.
- Químicos e investigadores de materiales: los artefactos auditables permiten que otro revise cada paso del razonamiento, algo clave para publicar.
- Equipos con infraestructura propia: el soporte local y por HPC significa que corrés los cálculos pesados en tu clúster, no en la nube de un tercero.
El gancho extra: Anthropic ofrece grants de hasta USD 30.000 para investigadores. Si trabajás en un lab con presupuesto ajustado, eso no es detalle menor. Según la cobertura de MIT Technology Review, Anthropic lo posiciona como su producto insignia, lo cual dice hacia dónde apunta la empresa.
¿Cómo elegir un modelo IA según tu presupuesto y caso de uso?
Esta es la parte práctica, la que te sirve el lunes a la mañana. La regla es simple: usá el modelo más barato que resuelva la tarea. Nada más.
Tareas simples y automáticas
Clasificar, etiquetar, extraer campos de un texto, moderar comentarios. Para esto van los de USD 0,035 a USD 0,50 por millón: Amazon Nova Micro, Qwen 7B. No necesitás razonamiento profundo, necesitás volumen barato y rápido.
Análisis moderado
Resúmenes largos, respuestas de soporte con algo de criterio, generación de contenido estándar. Acá entran los de USD 1,50 a USD 2,50: Gemini 3.5 Flash, Qwen3.7-Max. Buen equilibrio entre calidad y costo.
Razonamiento complejo
Código difícil, análisis legal, decisiones con muchas variables. Ahí sí pagás los USD 5+ de GPT-5.6 o Claude Opus 4.8. Y los pagás contento, porque un error en estas tareas cuesta más que la diferencia de precio.
Un ejemplo con números. Si tu app genera 10 millones de tokens de salida al mes: con Opus 4.8 pagás cerca de USD 250 solo en salida, con Gemini 3.5 Flash pagás unos USD 90. Multiplicá eso por doce meses y la elección del modelo es una decisión de negocio, no un capricho técnico. Lo ideal es routing automático: mandás cada consulta al modelo justo según su complejidad, y ahí es donde de verdad ahorrás. Para una PYME que aloja su app o su API en un servicio de hosting o cloud como donweb.com, este ahorro puede ser la diferencia entre que el proyecto cierre o no.
¿Por qué GPT-5.6 no está disponible para todos si ya se lanzó?
Porque lo frenó una restricción de gobernanza, no un problema técnico. OpenAI lo clasificó como “High-risk” en su Preparedness Framework después de que el modelo sacara 96,7% en una evaluación de ciberseguridad ofensiva. Un modelo que resuelve casi cualquier desafío de hacking genera preguntas incómodas sobre quién lo usa y para qué. Sobre eso hablamos en diferencias entre Gemini y GPT-5.
El gobierno de Estados Unidos metió mano en el acceso inicial. La expectativa es disponibilidad general para fines de julio de 2026, pero es expectativa, no fecha confirmada. ¿Alguien lo verificó de forma independiente? Todavía no. Es un caso raro donde el freno no es la capacidad del modelo sino la “seguridad” de dejarlo suelto.
Errores comunes al elegir modelo en 2026
- Usar el modelo más caro por default: mucha gente pone GPT-5.6 u Opus 4.8 para todo “por las dudas”. Terminás pagando USD 30 la salida para tareas que Nova Micro resuelve a USD 0,14. Es plata tirada.
- Mirar solo el precio de entrada: la salida suele costar 3 a 6 veces más. Si tu app genera respuestas largas, el costo real está ahí, no en lo que le mandás.
- Confundir Claude Science con un modelo nuevo: es un workbench para investigación, no un reemplazo de Claude para tu chatbot. Si esperabas más potencia de razonamiento genérica, no es eso.
- No usar routing: mandar todo a un solo modelo desperdicia la diferencia de precios. Un router que elige según complejidad te baja la factura sin tocar la calidad percibida.
Preguntas Frecuentes
¿Cuál es el modelo IA más barato en 2026?
Amazon Nova Micro, a USD 0,035 por millón de tokens de entrada y USD 0,14 de salida, es el más económico entre los modelos usables. Qwen 7B queda muy cerca a USD 0,05 en ambos. Sirven para tareas simples de alto volumen como clasificación o extracción, no para razonamiento complejo.
¿Cuánto cuesta usar GPT-5.6 vs Gemini 3.5 Flash?
GPT-5.6 cuesta USD 5 de entrada y USD 30 de salida por millón de tokens. Gemini 3.5 Flash cuesta USD 1,50 de entrada y USD 9 de salida. En salida, GPT-5.6 sale más de tres veces lo que Gemini 3.5 Flash, así que para volúmenes altos la diferencia mensual es grande.
¿Qué es Claude Science y para quién es?
Claude Science es un workbench de Anthropic para investigación científica, con más de 60 skills, soporte de estructuras 3D de proteínas y ejecución local o en HPC. Apunta a biólogos, químicos e investigadores. Está disponible para suscriptores pagos e incluye grants de hasta USD 30.000.
¿Por qué se llama “guerra de precios” a lo que pasó en junio 2026?
Porque cuatro anuncios grandes coincidieron con recortes agresivos de precio en todos los segmentos a la vez. Los modelos abiertos chinos como Qwen (recortes de hasta 80%) y DeepSeek V4 (USD 0,14/USD 0,28) presionaron a los proveedores cerrados a bajar o justificar sus precios. La competencia forzó el ajuste generalizado.
¿Puede una PYME usar IA avanzada con presupuesto limitado?
Sí. Con modelos como Gemini 3.5 Flash (USD 1,50/USD 9) o DeepSeek V4 (USD 0,14/USD 0,28), una PYME corre análisis y generación de contenido por decenas de dólares al mes. La clave es asignar cada tarea al modelo más barato que la resuelva, en vez de usar un frontier para todo.
Conclusión
Lo que cambió en junio-julio de 2026 es que el costo dejó de ser la barrera. Antes elegías modelo por lo que te alcanzaba el bolsillo. Ahora elegís por la tarea, porque hay un modelo competente en cada rango de precio, desde USD 0,035 hasta USD 30 el millón de salida.
¿Qué hacer con esto? Auditá para qué usás cada modelo. Si estás mandando todo a un frontier, casi seguro estás pagando de más. Armá un esquema de routing, medí el gasto real por token de salida y probá los modelos abiertos para las tareas de volumen. La guerra de precios modelos IA 2026 te da margen: aprovechalo antes de que el próximo recorte de Gartner haga que este análisis quede viejo.
Fuentes
- Anthropic – Anuncio oficial de Claude Science
- BenchLM – Comparativa de precios de modelos LLM 2026
- AIWorld – Gemini 3.5 Flash: rendimiento y precio frontier
- MIT Technology Review – Claude Science, el nuevo producto insignia de Anthropic
- SCMP – Alibaba recorta los costos de Qwen
