NVIDIA Blackwell: 3.500 tokens/seg con DeepSeek V4

NVIDIA lanzó soporte Day-0 para DeepSeek V4 en GPUs Blackwell el 26 de abril de 2026, alcanzando 3.500 tokens por segundo en modelos de 1,6 billones de parámetros con la arquitectura NVFP4. Es el primer proveedor en soportar el modelo desde el día de su lanzamiento, usando cuantización de 4 bits que reduce el consumo de memoria 3,5 veces frente a FP16 sin perder precisión relevante.

En 30 segundos

  • DeepSeek V4 tiene dos modelos: Pro (1,6T parámetros, 49B activos) y Flash (284B parámetros, 13B activos), lanzados el 26 de abril de 2026.
  • NVIDIA ofrece soporte Day-0 con Blackwell usando NVFP4, logrando 3.500 tokens/seg en GB300 y 150+ en GB200 NVL72.
  • NVFP4 reduce la memoria 3,5x respecto a FP16 y 1,8x respecto a FP8, con menos del 1% de degradación en precisión.
  • DeepSeek V4 usa 73% menos FLOPs y 90% menos KV cache que V3.2 en contextos de 1 millón de tokens.
  • El modelo está disponible bajo licencia MIT: podés desplegarlo en tu propia infraestructura con los pesos en Hugging Face.

Nvidia es una empresa de semiconductores fundada en 1993 que diseña y fabrica procesadores gráficos (GPUs) para inteligencia artificial, computación de alto rendimiento y videojuegos. Sus procesadores se utilizan en centros de datos para entrenar y ejecutar modelos de lenguaje.

¿Qué es NVIDIA Blackwell y por qué es la GPU elegida para DeepSeek V4?

NVIDIA Blackwell es la arquitectura de GPU de nueva generación diseñada para inferencia de modelos de lenguaje a escala de billones de parámetros, con 208 mil millones de transistores y un Transformer Engine de segunda generación que soporta precisiones FP4, FP8 y BF16 en la misma pasada. Frente a H100, Blackwell entrega hasta 30x más rendimiento en inferencia LLM según el blog oficial de NVIDIA.

El punto clave para DeepSeek V4 es específico: los modelos de 1 billón de parámetros o más requieren escala de memoria y latencia baja simultáneamente. La mayoría de las GPUs anteriores podían darte una o la otra. Blackwell, particularmente en configuraciones NVL72 (72 GPUs GB200 conectadas con NVLink) o en el GB300 (Blackwell Ultra), tiene el ancho de banda de memoria para sostener ventanas de contexto de 1 millón de tokens sin que el throughput se caiga al piso.

Eso sí: no cualquier Blackwell es igual. La diferencia entre GB200 y GB300 en este contexto específico es grande.

DeepSeek V4: dos modelos, especificaciones técnicas y cuándo salió

Ponele que alguien te manda un manual técnico de 900 páginas y te pide que respondas preguntas sobre él en tiempo real. Eso es exactamente el tipo de tarea para la que DeepSeek V4 fue diseñado.

DeepSeek V4 se lanzó entre el 23 y el 26 de abril de 2026 con dos variantes concretas:

  • DeepSeek V4-Pro: 1,6 billones de parámetros totales, 49 mil millones activos por inferencia (arquitectura Mixture of Experts). Contexto máximo de 384K tokens vía API de DeepSeek. Orientado a razonamiento avanzado, coding y agentes de contexto largo.
  • DeepSeek V4-Flash: 284 mil millones de parámetros, 13 mil millones activos. Contexto similar. Diseñado para chat, routing, resumen y tareas donde el costo de inferencia importa más que la capacidad máxima.

Las mejoras respecto a V3.2 son concretas: 73% menos FLOPs en inferencia de un solo token y 90% menos KV cache cuando usás una ventana de 1 millón de tokens. En la práctica eso se traduce en que podés correr el modelo en menos hardware, o correr más consultas en paralelo con el mismo hardware.

El contexto de 1 millón de tokens existe en infraestructura propia; vía API pública de DeepSeek el límite actual es 384K tokens, que sigue siendo bastante para la mayoría de los casos de uso empresariales.

NVFP4: el formato de 4 bits que cambia la ecuación de memoria

NVFP4 es el formato numérico de precisión reducida de NVIDIA que usa 1 bit de signo, 2 bits de exponente y 1 bit de mantisa, con un rango representable de -6 a 6. No es solo “cuantización de 4 bits” a la antigua, donde perdías precisión de forma más o menos aleatoria.

Lo que lo diferencia es el escalado en dos niveles: un factor de escala en E4M3 de grano fino por bloque de pesos, más un factor global en FP32. Eso permite que la red “recuerde” rangos distintos en distintas partes del modelo sin que todo colapse a la misma resolución numérica. Según el análisis de NVIDIA, la degradación en precisión es menor al 1% frente a BF16 en los benchmarks estándar.

Los números de memoria son los que hacen atractiva la propuesta: NVFP4 reduce el footprint 3,5 veces frente a FP16 y 1,8 veces frente a FP8. Para un modelo de 1,6T parámetros, eso pasa de ser algo que solo podría correr en un clúster enorme a algo que cabe en una configuración NVL72 razonable. Y en throughput, según reportes independientes, NVFP4 logra 2,3x más throughput que FP8 en LLMs de 4 bits.

Rendimiento real: qué significa NVIDIA Blackwell DeepSeek V4 a 3.500 tokens por segundo

3.500 tokens por segundo es el número del GB300 (Blackwell Ultra). No es el número de una sola GPU sino de la configuración de servidor completa. En GB200 NVL72 (que es la configuración más común en centros de datos enterprise que ya adoptaron Blackwell), el número es 150+ TPS.

¿Por qué tanta diferencia? El GB300 tiene mayor ancho de banda de memoria y más capacidad de HBM que el GB200, lo que es el cuello de botella dominante en inferencia de modelos grandes. En un modelo MoE como DeepSeek V4-Pro, donde solo se activan 49B parámetros por token pero hay que tener los 1,6T disponibles en memoria, ese ancho de banda es lo que determina cuánto podés hacer por segundo.

Para ponerlo en contexto práctico: 150 TPS en GB200 NVL72 es más que suficiente para respuestas conversacionales en tiempo real (donde el usuario percibe latencia a partir de latencias mayores a 50ms por token, o sea alrededor de 20 TPS mínimo para fluidez). Lo que cambia con 3.500 TPS es la cantidad de usuarios simultáneos que podés atender con un mismo servidor, que es lo que importa si estás desplegando esto como servicio.

En throughput agregado, Blackwell logra 4x más velocidad que BF16 en GB200 y hasta 6x en GB300 para este modelo específico.

Casos de uso prácticos para empresas

La ventana de contexto larga y el costo reducido de NVFP4 abren casos de uso que antes o no eran viables o salían muy caros:

Análisis de documentos legales y técnicos

Un contrato de 400 páginas, un manual de producto, un expediente regulatorio completo: todo entra en contexto sin fragmentar. Esto elimina el principal problema de los RAG systems para documentos extensos, donde la fragmentación y recuperación introduce errores de contexto que después hay que depurar a mano.

Desarrollo sobre repositorios completos de código

Podés pasar un repositorio entero como contexto y pedirle que entienda dependencias entre módulos, refactorice con conciencia del sistema completo, o escriba tests de integración que sepan lo que existe. El límite de 384K tokens via API cubre repositorios de tamaño mediano completos.

Infraestructura self-hosted con datos sensibles

La licencia MIT de DeepSeek V4 permite desplegarlo en tu propia infraestructura, con los pesos disponibles en Hugging Face. Para empresas con requisitos de compliance (GDPR, datos de salud, financiero) donde no podés mandar datos a una API externa, esto es el argumento principal. Si tenés GPUs Blackwell propias o acceso a instancias en la nube que las soporten, podés correr el modelo en tu datacenter. Si necesitás el hosting de la infraestructura, donweb.com tiene opciones de servidores dedicados que podés evaluar para el stack de soporte.

Comparativa: DeepSeek V4 frente a Claude, GPT-4o y otros

ModeloParámetros activosContexto máximoLiveCodeBenchPrecio input (aprox)Licencia
DeepSeek V4-Pro49B (MoE 1.6T)384K tokens (API)93,5%$0,27/M tokensMIT (open)
Claude Opus 4.7No publicado200K tokens88,8%~$15/M tokensPropietaria
GPT-4oNo publicado128K tokens~85%~$2,5/M tokensPropietaria
DeepSeek V4-Flash13B (MoE 284B)384K tokens (API)No publicado$0,07/M tokensMIT (open)
nvidia blackwell deepseek v4 diagrama explicativo

La ventaja de DeepSeek V4-Pro en LiveCodeBench (93,5% vs 88,8% de Claude Opus en programación) es el dato más llamativo. En otras dimensiones el panorama es más parejo y la evaluación depende del caso de uso específico; para razonamiento matemático complejo o tareas de instrucción muy matizadas, los modelos propietarios siguen siendo competitivos o superiores.

El argumento real de DeepSeek no es que sea mejor en todo. Es que cuesta 7x menos que GPT-4o de OpenAI en inferencia API, tiene licencia abierta con pesos descargables, y en coding específicamente supera a modelos mucho más caros. Para startups que construyen productos de código o análisis documental, la ecuación económica es bastante clara.

¿Alguien lo verificó de forma independiente en condiciones de producción a escala? Los benchmarks publicados son de NVIDIA y DeepSeek. Los números de terceros en contextos reales todavía son escasos, dado que el modelo tiene días de vida.

Cómo implementar DeepSeek V4 en infraestructura Blackwell

Tres rutas, según tu situación:

  • API cloud de DeepSeek: acceso inmediato, sin infraestructura propia. Límite de 384K tokens, precios desde $0,07/M tokens (Flash) a $0,27/M tokens (Pro). Bueno para prototipado y volúmenes moderados.
  • Self-hosted con pesos MIT: bajás los pesos desde Hugging Face (modelo en deepseek-ai/DeepSeek-V4-Pro), necesitás hardware Blackwell (GB200 o GB300). NVFP4 es la cuantización por defecto para estos modelos en TensorRT-LLM. Control total de datos.
  • NVIDIA NIM microservices: instancias gestionadas que abstraen la infraestructura Blackwell. Menos control que self-hosted, más simple que armar todo desde cero. Disponibles desde el día de lanzamiento según el anuncio de NVIDIA.

Para el caso self-hosted, el stack recomendado es TensorRT-LLM con NVFP4 habilitado, que es donde se consiguen los números de throughput publicados. Correrlo en FP16 o BF16 es posible pero necesitás significativamente más GPUs para el mismo throughput, lo que destruye la ventaja económica.

Tomalo con pinzas: los requisitos de hardware son considerables. Una configuración GB200 NVL72 no es algo que una startup arranque en semanas. Para la mayoría de los casos de uso, la API o NIM son el punto de entrada realista en el corto plazo.

Errores comunes al evaluar este anuncio

Confundir 3.500 TPS con latencia de usuario: ese número es throughput agregado del servidor, no velocidad que experimenta un usuario individual. Un usuario en un sistema bien diseñado debería ver primeros tokens en menos de 500ms independientemente del throughput total.

Asumir que NVFP4 funciona igual en todos los modelos: la degradación menor al 1% es para DeepSeek V4 específicamente, con los factores de escala calibrados para ese modelo. Aplicar NVFP4 a otro modelo sin recalibrar los factores de escala puede dar resultados significativamente peores.

Creer que “licencia MIT” significa sin restricciones de uso: la licencia MIT aplica al código. El modelo en sí tiene términos de uso separados de DeepSeek que vale revisar antes de desplegarlo en productos comerciales, especialmente en lo que refiere a atribución y uso comercial a escala.

Comparar precio de API con costo total de self-hosted: $0,27/M tokens suena barato hasta que calculás el costo de hardware Blackwell, electricidad, mantenimiento y el equipo que lo opera. El self-hosted conviene a partir de volúmenes muy altos o cuando el compliance de datos justifica el costo operativo independientemente del precio.

Preguntas Frecuentes

¿Cuál es la velocidad de DeepSeek V4 en NVIDIA Blackwell?

En GB300 (Blackwell Ultra) se alcanzan 3.500 tokens por segundo. En GB200 NVL72, la configuración enterprise más común, el número es 150+ TPS. La diferencia se debe al mayor ancho de banda de memoria y capacidad HBM del GB300. Ambos números son con cuantización NVFP4 habilitada; con BF16 el throughput baja entre 4x y 6x.

¿Qué es NVFP4 y cómo mejora la inferencia?

NVFP4 es el formato numérico de 4 bits de NVIDIA con 1 bit de signo, 2 de exponente y 1 de mantisa, que usa escalado de dos niveles (E4M3 por bloque + FP32 global) para mantener precisión. Reduce el footprint de memoria 3,5 veces frente a FP16 y 1,8 veces frente a FP8, con menos del 1% de degradación en benchmarks estándar. Esto permite correr modelos de 1,6T parámetros en configuraciones que antes hubieran necesitado el doble de hardware.

¿Cuántos parámetros tiene DeepSeek V4 y qué diferencia hay entre Pro y Flash?

V4-Pro tiene 1,6 billones de parámetros totales con 49 mil millones activos por inferencia (arquitectura MoE). V4-Flash tiene 284 mil millones totales con 13 mil millones activos. Pro está orientado a razonamiento complejo, coding y agentes de contexto largo; Flash cubre chat, resumen y routing donde el costo de inferencia es prioritario. Ambos comparten la misma ventana de contexto de 384K tokens vía API.

¿Cuál es el contexto máximo que soporta DeepSeek V4?

384K tokens vía API pública de DeepSeek. En infraestructura propia (self-hosted), la arquitectura soporta hasta 1 millón de tokens, con mejoras de eficiencia del 90% en KV cache frente a V3.2. Para la mayoría de los casos de uso empresariales, 384K tokens equivale a documentos de varios cientos de páginas o repositorios de código medianos completos.

¿Cómo instalar y usar DeepSeek V4 en infraestructura Blackwell?

Los pesos están disponibles bajo licencia MIT en Hugging Face (deepseek-ai/DeepSeek-V4-Pro). El stack recomendado es TensorRT-LLM de NVIDIA con NVFP4 habilitado. Necesitás hardware Blackwell (GB200 o GB300); en hardware anterior la cuantización NVFP4 no está disponible y el throughput cae significativamente. Alternativamente, NVIDIA NIM microservices ofrece acceso gestionado desde el día de lanzamiento sin gestionar la infraestructura directamente.

Conclusión

El soporte Day-0 de NVIDIA para DeepSeek V4 en Blackwell no es solo un anuncio de marketing. Es la demostración de que la combinación NVFP4 + Blackwell resuelve el problema que tenía el modelo: un modelo de 1,6T parámetros que en hardware anterior hubiera requerido recursos fuera del alcance de la mayoría, ahora corre con eficiencia real a 3.500 tokens por segundo en las configuraciones top.

Para quienes evalúan opciones de inferencia en 2026, el cuadro quedó más claro: DeepSeek V4-Pro es la opción más competitiva en pricing con capacidad de coding comparable o superior a modelos propietarios de mayor costo, con licencia abierta y posibilidad de self-hosting. El hardware necesario sigue siendo caro, pero la brecha se redujo. Mirando los próximos meses, habría que ver cómo se instalan los benchmarks de terceros en condiciones reales antes de hacer apuestas grandes en producción.

Fuentes

Desplazarse hacia arriba