DeepSeek confirmó que el descuento del 75% en el DeepSeek API descuento permanente 75% para su modelo V4-Pro dejó de ser una promoción temporal: es el precio de lista nuevo. Lo que iba a expirar el 31 de mayo de 2026 quedó como estructura de precios permanente, con input tokens a USD 0.435 por millón y output a USD 0.87 por millón, según la documentación oficial de la API.
En 30 segundos
- El descuento del 75% en DeepSeek V4-Pro, que vencía el 31 de mayo de 2026, quedó como precio permanente.
- Input tokens: USD 0.435/M (no cacheados) y USD 0.044/M (cacheados). Output: USD 0.87/M.
- V4-Pro cuesta aproximadamente 1/6 del precio de Claude Opus 4.7 y GPT-5.5 según VentureBeat.
- La API es compatible con el SDK de OpenAI, lo que significa migración con cambios mínimos de código.
- Hay 5 millones de tokens gratuitos al crear cuenta, sin necesidad de tarjeta de crédito.
DeepSeek V4-Pro: qué es y por qué importa
DeepSeek es una empresa china de inteligencia artificial fundada en 2023 por High-Flyer, un fondo de inversión cuantitativo. En poco tiempo pasó de ser un actor desconocido a uno de los nombres que más se nombran en conversaciones sobre modelos de lenguaje de frontera. V4-Pro es su modelo de razonamiento avanzado, el de mayor capacidad de la línea actual, pensado para tareas complejas que requieren cadenas de pensamiento largas.
No es el único de la familia. V4-Flash apunta a velocidad y costo mínimo para tareas simples. V4-Pro es el que compite de frente con los modelos premium de Anthropic y OpenAI (al menos en benchmarks). La diferencia ahora es que ya no cuesta lo mismo.
De descuento temporal a estrategia permanente: el timeline
La historia es así: DeepSeek lanzó una promoción de 75% de descuento sobre los precios originales de V4-Pro con una fecha de expiración explícita, el 31 de mayo de 2026. La lectura obvia era que después de esa fecha los precios iban a volver a su nivel original.
No pasó eso.
Días antes del vencimiento, DeepSeek confirmó que el descuento se convierte en precio permanente. Los precios previos, USD 1.74 por millón de tokens de entrada y USD 3.48 por millón de salida, quedan como referencia histórica. El precio actual, según la documentación oficial, es:
- Input no cacheado: USD 0.435/M tokens
- Input cacheado (cache hit): USD 0.044/M tokens (descuento adicional del 90%)
- Output: USD 0.87/M tokens
¿Por qué tomaron esta decisión? La presión competitiva es la respuesta corta. Los precios de los modelos de frontera bajaron de forma sostenida durante 2025 y el primer semestre de 2026. Mantener un precio más alto después de la promo hubiera sido salir a contramano de la tendencia, especialmente cuando modelos más baratos de otras empresas compiten en el segmento intermedio.
Tabla de precios: antes, ahora y con caché
| Concepto | Precio original | Precio actual (permanente) |
|---|---|---|
| Input tokens (no cacheados) | USD 1.74/M | USD 0.435/M |
| Input tokens (cache hit) | USD 0.174/M | USD 0.044/M |
| Output tokens | USD 3.48/M | USD 0.87/M |

El dato que más importa para aplicaciones con prompts largos es el cache hit. Si tu aplicación manda system prompts repetidos o documentos de referencia en cada request, el costo de input cacheado baja a USD 0.044 por millón, lo que hace que el costo real sea casi ridículo para ciertos patrones de uso. Tema relacionado: en la seguridad de APIs empresariales.
DeepSeek V4-Pro vs Claude Opus 4.7 vs GPT-5.5: la comparativa que importa
Ponele que tenés un pipeline procesando 10 millones de tokens de entrada por mes. Con DeepSeek V4-Pro, eso sale USD 4.35. Con los modelos premium de Anthropic o OpenAI, el mismo volumen puede costar entre USD 150 y USD 300 dependiendo del modelo, según los datos de VentureBeat. La relación es de 1 a 6, en el mejor caso.
| Modelo | Input (USD/M tokens) | Output (USD/M tokens) | Mejor caso de uso |
|---|---|---|---|
| DeepSeek V4-Pro | 0.435 | 0.87 | RAG, pipelines de alto volumen, síntesis a escala |
| Claude Opus 4.7 | ~15 | ~75 | Razonamiento complejo, código crítico, tareas de alta precisión |
| GPT-5.5 | ~10 | ~30 | Integraciones con el ecosistema OpenAI, multimodal avanzado |
¿Significa que DeepSeek reemplaza a Claude o GPT? No necesariamente. La brecha de calidad existe en tareas de razonamiento muy complejo, código con lógica intrincada o casos donde cada error tiene costo real. Pero para RAG, análisis de documentos, chatbots de soporte, generación de contenido estructurado o cualquier aplicación donde el volumen importa más que la precisión absoluta, la diferencia de precio cambia el análisis completamente.
Casos donde el 75% de descuento cambia el análisis
Los números concretos ayudan a entender dónde esto tiene impacto real.
Pipelines RAG con documentos largos
Si armás un sistema de retrieval-augmented generation donde cada query manda varios chunks de documentos como contexto, el token count de entrada se dispara rápido. Con 100.000 queries mensuales de 2.000 tokens cada una, estás en 200 millones de tokens de input. Con DeepSeek y cache hit (asumiendo que los documentos base son consistentes), ese costo baja a USD 8.80 por mes. Con Claude Opus 4.7, el mismo volumen puede superar los USD 3.000.
Chatbots de atención al cliente a escala
Cualquiera que haya calculado el costo de un chatbot de soporte para una empresa mediana sabe que el ítem más pesado es el de API calls. Con un volumen de 500.000 conversaciones al mes de 1.500 tokens promedio, la diferencia entre USD 0.435 y USD 15 por millón de tokens no es un detalle de presupuesto, es la diferencia entre un proyecto viable y uno que no cierra.
Síntesis de contenido a escala editorial
Medios, agencias o equipos de marketing que procesan decenas de artículos por día para resumir, clasificar o reformatear tienen un case de uso evidente. El costo de procesar 500 artículos de 3.000 palabras con DeepSeek V4-Pro entra cómodamente en el rango de pocos dólares mensuales.
Cómo integrar DeepSeek V4-Pro en tu proyecto
La parte técnica es más simple de lo que parece. DeepSeek expone una API compatible con el formato de OpenAI, lo que significa que si ya tenés código usando el SDK de OpenAI, la migración es cambiar el base URL y el nombre del modelo. Cubrimos ese tema en detalle en como ocurre con ChatGPT.
Paso a paso:
- Crear cuenta en platform.deepseek.com
- Generar una API key desde el panel (el proceso toma dos minutos)
- Los primeros 5 millones de tokens son gratuitos, sin requerir tarjeta de crédito
- Cambiar el endpoint en tu código
Un snippet básico en Python:
from openai import OpenAI
client = OpenAI(api_key="tu-api-key", base_url="https://api.deepseek.com")
response = client.chat.completions.create(model="deepseek-reasoner", messages=[{"role": "user", "content": "Tu prompt acá"}])
Si ya tenés infraestructura de hosting en donweb.com y un backend Python o Node en producción, el cambio de endpoint es literalmente una línea de código. No hay que instalar nada adicional ni modificar la lógica de la aplicación.
Limitaciones y consideraciones reales
Eso sí: el precio bajo no viene sin sus consideraciones.
La latencia de DeepSeek V4-Pro es más alta que la de los modelos de OpenAI o Anthropic en tareas de razonamiento, especialmente cuando el modelo activa su cadena de pensamiento interna. Para aplicaciones donde el tiempo de respuesta importa (asistentes en tiempo real, interfaces conversacionales), eso puede ser un problema. Para procesamiento en batch o pipelines asíncronos, no tanto.
Los rate limits en el tier gratuito son restrictivos. Para producción con volumen, hay que pasar a un plan de pago. Y aunque la API es estable, DeepSeek es una empresa china con exposición a restricciones regulatorias. La confiabilidad a largo plazo de cualquier proveedor de infraestructura de IA tiene ese componente de riesgo, y DeepSeek más que otros dado el contexto geopolítico actual. Tomalo en cuenta si estás evaluando dependencia crítica. No es un factor que descalifique el uso, pero conviene tenerlo en el radar y no construir sin un plan B.
¿Alguien verificó de forma independiente los benchmarks que DeepSeek publica sobre V4-Pro? Los números de terceros están alineados en general, pero los benchmarks internos siempre hay que leerlos con algo de distancia. Complementá con en nuestro análisis de modelos de lenguaje.
Qué está confirmado y qué no
| Item | Estado |
|---|---|
| Descuento del 75% permanente en V4-Pro | Confirmado por DeepSeek |
| Precios actuales de API (input/output/cache) | Confirmado en documentación oficial |
| Compatibilidad con SDK de OpenAI | Confirmado |
| 5M tokens gratuitos sin tarjeta | Confirmado |
| Ventana de contexto exacta de V4-Pro en 2026 | Pendiente de verificación en documentación actualizada |
| Disponibilidad regional sin restricciones | Parcialmente confirmado (algunos países tienen limitaciones) |
Errores comunes al integrar DeepSeek API
Asumir que “compatible con OpenAI” significa idéntico. El formato de la API es compatible, pero los parámetros de sampling, los nombres de los modelos y algunos comportamientos de streaming tienen diferencias menores que pueden romper código si asumís paridad total. Probá en staging antes de mandar a producción.
Subís el modelo, lo probás en local, funciona bárbaro, lo mandás a producción y de repente los outputs tienen un formato diferente porque el campo reasoning_content que devuelve V4-Pro cuando el razonamiento está activo no lo estabas esperando y tu parser se rompe en silencio.
No activar el prefill de caché para prompts repetidos. El cache hit reduce el costo de input a USD 0.044/M, pero no es automático en todos los casos. Si mandás system prompts largos en cada request y no los estructurás para aprovechar el caché, pagás el precio no cacheado. Es la diferencia entre 0.435 y 0.044, o sea, 10 veces. Vale la pena revisar la documentación de caching antes de escalar.
Calcular el ahorro solo sobre el precio de lista sin incluir latencia. Si tu aplicación tiene SLAs de respuesta, el ahorro de costo puede ser parcialmente compensado por la necesidad de infraestructura adicional para manejar timeouts o reintentos en tareas de razonamiento largo. El análisis de costo real incluye el costo operativo, no solo el de la API.
Preguntas Frecuentes
¿Es permanente el descuento del 75% de DeepSeek V4-Pro?
Sí. DeepSeek confirmó que la reducción de precios que iba a expirar el 31 de mayo de 2026 se convierte en el precio permanente del modelo. Los precios actuales son USD 0.435/M para input no cacheado y USD 0.87/M para output. En como ha hecho Google profundizamos sobre esto.
¿Cuánto ahorrás usando DeepSeek en lugar de Claude Opus 4.7 o GPT-5.5?
Según VentureBeat, V4-Pro cuesta aproximadamente 1/6 del precio de Claude Opus 4.7 y GPT-5.5. Para 10 millones de tokens de entrada mensuales, la diferencia puede ser de USD 4.35 con DeepSeek contra USD 150-300 con los modelos premium de Anthropic u OpenAI.
¿Cómo integro DeepSeek API en un proyecto que ya usa OpenAI SDK?
La migración es mínima. Cambiás el base_url a https://api.deepseek.com y el nombre del modelo a deepseek-reasoner. El resto del código sigue igual. Hay 5 millones de tokens gratuitos para testear sin necesidad de tarjeta.
¿DeepSeek V4-Pro es tan bueno como los modelos caros?
Depende de la tarea. Para RAG, síntesis de documentos y chatbots de volumen, la calidad es competitiva y la diferencia de costo justifica la elección. Para razonamiento muy complejo, código crítico o tareas donde cada error tiene consecuencias, los modelos premium de Anthropic y OpenAI todavía tienen ventaja.
¿Qué riesgos tiene usar DeepSeek en producción?
DeepSeek es una empresa china, lo que implica exposición a posibles restricciones regulatorias y preguntas sobre soberanía de datos. La API tiene rate limits que pueden ser restrictivos en volúmenes altos. Y la latencia en tareas de razonamiento complejo es mayor que en modelos equivalentes de Anthropic u OpenAI.
Conclusión
El DeepSeek API descuento permanente 75% en V4-Pro no es un movimiento de marketing, es una redefinición del precio de acceso a modelos de razonamiento avanzado. Antes de este anuncio, la pregunta era si valía la pena migrar temporalmente. Ahora la pregunta es distinta: si tu aplicación procesa volumen y no necesita el nivel de calidad tope de Claude Opus 4.7 o GPT-5.5, ¿por qué pagarías 6 veces más?
Para equipos en Latinoamérica con presupuestos ajustados o startups que recién están escalando, esto cambia el análisis de viabilidad de proyectos completos. La barrera de entrada a modelos de frontera baja de forma concreta. Lo que antes requería un presupuesto de infrastructure significativo ahora entra en el rango de experimentación.
Eso sí: hacé tus propias pruebas antes de comprometerte. Los benchmarks de DeepSeek son prometedores pero son del propio fabricante (que no es poco, pero tampoco es independiente). Y mantené siempre algún grado de portabilidad en tu arquitectura, porque el mercado de APIs de IA en 2026 sigue moviéndose.
