DiffusionGemma: 1000 tokens/seg en H100 de Google

Google DeepMind acaba de largar DiffusionGemma, un modelo abierto que genera texto por difusión y alcanza más de 1000 tokens por segundo en una NVIDIA H100. Lo anunciaron el 10 de junio de 2026 y ya está disponible en Hugging Face con licencia Apache 2.0. La novedad no es solo la velocidad —es que usa el mismo mecanismo de DALL-E o Midjourney pero aplicado a lenguaje natural, refinando bloques enteros de 256 tokens en vez de escribir palabra por palabra.

DiffusionGemma es un modelo experimental de la familia Gemma que genera texto mediante un proceso de difusión: arranca con un bloque aleatorio de tokens y lo pule en iteraciones sucesivas hasta darle coherencia. A diferencia de los modelos autorregresivos tradicionales —que escriben un token, después otro, después otro—, este labura toda la respuesta en paralelo dentro de ventanas de 256 tokens. El resultado: una inferencia hasta 4 veces más rápida que Gemma 4 en entornos locales, aunque sacrificando algo de calidad de salida, según admite el propio Google en su anuncio oficial.

En 30 segundos

Más de 1000 tokens por segundo en H100 y más de 700 en una RTX 5090 de escritorio, según los benchmarks publicados por DeepMind.
Modelo Mixture of Experts de 26 mil millones de parámetros totales, pero solo activa 3.8 mil millones durante la inferencia —cabe en GPUs con 18 GB de VRAM.
Genera texto por difusión, refinando bloques de 256 tokens en paralelo, en vez del clásico token-por-token autorregresivo.
Licencia Apache 2.0, descargable desde Hugging Face; el soporte para llama.cpp viene en camino.
Google lo recomienda para prototipado rápido y edición en tiempo real —para máxima calidad de salida, Gemma 4 sigue siendo la opción.

Google es una empresa de tecnología fundada por Larry Page y Sergey Brin, que desarrolla servicios de búsqueda en internet, publicidad digital y sistemas de inteligencia artificial como DeepMind.

¿Qué es DiffusionGemma y en qué se diferencia de Gemma 4?

DiffusionGemma es la apuesta experimental de Google DeepMind por llevar la generación de texto al terreno de la difusión, la misma técnica que hace años domina la generación de imágenes (DALL-E 3, Midjourney, Stable Diffusion). La diferencia de base con Gemma 4 es arquitectónica: Gemma 4 es autorregresivo —produce un token, mira lo que generó, produce el siguiente— mientras que DiffusionGemma arranca con ruido textual y lo limpia en varias pasadas hasta que emerge una respuesta coherente.

El modelo está basado en la investigación de Gemini Diffusion que DeepMind viene cocinando hace rato (y que varios papers internos ya anticipaban). Pertenece a la familia Gemma, pero ojo: no es un reemplazo de Gemma 4 ni una evolución lineal. Es un experimento con licencia abierta pensado para que desarrolladores e investigadores metan mano en flujos de generación no lineales —edición en línea, completado de código, secuencias biológicas o grafos matemáticos donde la atención bidireccional cambia las reglas de juego.

¿Qué velocidad alcanza DiffusionGemma y en qué hardware?

Acá los números que publicó DeepMind: más de 1000 tokens por segundo en una NVIDIA H100 y más de 700 tokens por segundo en una RTX 5090. Para ponerlo en perspectiva, Gemma 4 en el mismo hardware entrega alrededor de 250 tokens por segundo en escenarios locales. La diferencia es un 4x en inferencia que se nota apenas largás una consulta.

El tema es que esta ganancia de velocidad aplica sobre todo en entornos locales o de baja concurrencia —tu máquina de escritorio, tu laptop con GPU, un servidor con una sola consulta a la vez—. En servidores con alta cantidad de queries por segundo (QPS), la ventaja se diluye porque el cuello de botella pasa a ser otro. Si estás corriendo un chatbot que atiende a diez personas al mismo tiempo, probablemente no veas una mejora tan drástica. Pero si estás iterando solo, editando texto en tiempo real o prototipando rápido, DiffusionGemma vuela. Ya lo cubrimos antes en en nuestra guía completa de Google.

¿Y de dónde salen estos benchmarks? Del propio Google. Nadie externo los verificó todavía de forma independiente. Tomalo con pinzas, pero los números cierran con lo que cabría esperar de un modelo que procesa 256 tokens en paralelo en lugar de secuencialmente.

¿Cómo funciona la generación de texto por difusión?

Ponele que tenés un bloque de 256 posiciones vacías. El modelo las llena con tokens al azar y después, en digamos 32 iteraciones (el paper original de Gemini Diffusion hablaba de algo así, aunque Google no confirmó el número exacto para este release), aplica un proceso de refinamiento: mira el bloque entero, evalúa qué tokens no encajan, los reemplaza, repite. En cada pasada el texto se vuelve más coherente, hasta que al final tenés una respuesta que se lee de corrido. Nada que ver con el método tradicional de “escribo una palabra, leo lo que puse, escribo otra”.

Lo interesante es la atención bidireccional. En un modelo autorregresivo, cada token solo puede mirar hacia atrás —lo que ya se escribió—. En difusión, el modelo ve los 256 tokens simultáneamente, adelante y atrás, todo el tiempo. Eso abre la puerta a tareas donde el contexto completo importa: completado de código donde necesitás entender tanto lo que viene antes como después de un bloque, edición de secuencias de aminoácidos (sí, en serio, lo mencionan en los ejemplos de uso), o grafos matemáticos donde las relaciones no son lineales.

El mecanismo es el mismo que hace años vemos en generación de imágenes —arrancás con ruido gaussiano, aplicás un modelo que predice cómo “limpiar” ese ruido, iterás—, pero aplicado a tokens discretos de texto. La “innovación” acá (y las comillas van porque la difusión para texto se investiga desde hace varios años) es haberlo empaquetado en un modelo abierto, funcional y rápido que corre en hardware de consumo.

¿Cuáles son los requisitos de hardware para ejecutar DiffusionGemma localmente?

El modelo usa arquitectura Mixture of Experts: 26 mil millones de parámetros totales, pero durante la inferencia solo activa 3.8 mil millones. Esto es clave porque mantiene el uso de VRAM bajo control. Con 18 GB de VRAM alcanza, así que corre en una RTX 4090, una RTX 5090, o cualquier GPU moderna de gama alta de los últimos dos años. Cubrimos ese tema en detalle en la guía de Google para AI Overviews.

No necesitás infraestructura de servidor ni cluster ni nada raro. Una computadora personal con buena GPU basta. Si configuraste modelos locales antes, sabés que el verdadero dolor de cabeza no suele ser la GPU sino el ecosistema de dependencias —pero Google está trabajando con vLLM, MLX (para Mac) y Hugging Face Transformers para que la integración sea directa.

GPU recomendada: NVIDIA RTX 4090 o superior (18+ GB de VRAM). Funciona en RTX 5090 con margen de sobra.
VRAM mínima: 18 GB —el modelo ocupa bastante menos durante inferencia por el MoE, pero necesitás espacio para el contexto.
RAM del sistema: 32 GB alcanzan holgados para la mayoría de los casos de uso.
Almacenamiento: unos 50 GB entre pesos del modelo y dependencias.

Si estás del lado Mac, MLX ya tiene soporte inicial y el rendimiento en Apple Silicon con 64 GB de memoria unificada pinta bien, aunque los benchmarks oficiales de Google se hicieron todos sobre NVIDIA.

¿Dónde descargar DiffusionGemma y cómo integrarlo?

El modelo está en Hugging Face con licencia Apache 2.0. Pesos abiertos, sin restricciones comerciales, podés bajarlo y correrlo en tu máquina sin pedirle permiso a nadie.

Para integrarlo, Google ya publicó adaptadores para vLLM (inferencia de alto rendimiento), MLX (Apple Silicon) y Hugging Face Transformers. El soporte para llama.cpp está confirmado pero no disponible todavía —el equipo de Google dijo que “llegará próximamente” sin dar fecha concreta. Si tu stack depende de llama.cpp para correr modelos cuantizados en CPU o edge devices, vas a tener que esperar un toque.

Para los que vienen del ecosistema Python, la integración con Hugging Face es el camino más directo: cargás el modelo con el pipeline estándar de Transformers, le pasás un prompt, y en lugar de generar token por token te devuelve el bloque completo después de N iteraciones de refinamiento. El tiempo de respuesta es notablemente más bajo que con un modelo autorregresivo del mismo tamaño —la primera vez que lo probás, la diferencia te hace levantar una ceja.

¿Cuáles son las limitaciones de DiffusionGemma frente a Gemma 4?

Google no se anda con vueltas en este punto y lo dice explícitamente en la documentación oficial: DiffusionGemma prioriza velocidad sobre calidad de salida. Para aplicaciones donde la precisión factual, la coherencia de largo alcance o el razonamiento complejo son críticos, Gemma 4 estándar sigue siendo la opción recomendada.

El modelo es experimental. Está pensado para prototipado rápido, edición en tiempo real y experimentación con flujos no lineales, no para ponerlo en producción en un chatbot de atención al cliente donde una alucinación te puede costar plata. Dicho esto, para tareas como completado de código, edición colaborativa de documentos o generación de secuencias estructuradas (tipo aminoácidos o notación matemática), la combinación de velocidad y atención bidireccional es un golazo. Lo explicamos a fondo en el artículo sobre Google Antigravity.

Otra limitación práctica: el bloque fijo de 256 tokens. Para respuestas cortas, va como piña. Pero si necesitás generar textos largos, el modelo tiene que encadenar múltiples bloques, y ahí la latencia acumulada empieza a comerse la ventaja. No es un dealbreaker, pero es un detalle de diseño que conviene tener presente antes de entusiasmarse demasiado.

Comparativa: DiffusionGemma vs Gemma 4

Característica	DiffusionGemma	Gemma 4
Método de generación	Difusión (bloques de 256 tokens en paralelo)	Autorregresivo (token por token secuencial)
Velocidad en H100	+1000 tokens/segundo	~250 tokens/segundo
Velocidad en RTX 5090	+700 tokens/segundo	No publicado oficialmente para esta GPU; estimado en ~150-200 tokens/segundo
Parámetros totales	26B (MoE, 3.8B activos en inferencia)	Varía según la variante; la más grande ronda los 27B
VRAM necesaria	18 GB	Depende de la variante; la versión grande pide ~24 GB
Atención	Bidireccional (ve todo el bloque a la vez)	Unidireccional (causal, solo hacia atrás)
Calidad de salida	Menor prioridad; optimizado para velocidad	Mayor calidad factual y coherencia larga
Casos de uso ideales	Prototipado, edición en tiempo real, secuencias estructuradas	Chatbots, asistentes, razonamiento complejo
Licencia	Apache 2.0	Apache 2.0 (variantes abiertas)
Disponibilidad	Hugging Face, junio 2026	Hugging Face, lanzado anteriormente en 2026

DiffusionGemma velocidad diagrama explicativo

Errores comunes al usar DiffusionGemma

1. Tratarlo como un drop-in replacement de Gemma 4. Si agarrás tu pipeline actual, sacás Gemma 4 y ponés DiffusionGemma esperando el mismo comportamiento, te vas a llevar una sorpresa. La API de generación es distinta: en lugar de streamear tokens uno por uno, recibís bloques completos después de que el modelo terminó de refinarlos. Si tu frontend espera streaming token-por-token, vas a tener que adaptarlo.

2. Medir la velocidad con prompts larguísimos. El bloque fijo de 256 tokens implica que textos más largos requieren múltiples pasadas encadenadas. Si le pedís que te escriba un ensayo de 2000 palabras, la latencia total puede ser peor que con un modelo autorregresivo porque cada bloque arranca de cero. Este modelo brilla en respuestas cortas y edición iterativa, no en generación de novelas.

3. Ignorar que los benchmarks son del fabricante. Los +1000 tokens/segundo en H100 son números de Google corriendo su propio modelo en condiciones óptimas. Cuando lo bajes a tu RTX 4090 con drivers no actualizados, otras aplicaciones corriendo de fondo y un prompt particularmente enredado, los números van a ser más bajos. No es que mientan —es que tu setup no es el laboratorio de DeepMind.

4. No cachear los pesos del modelo. DiffusionGemma es pesado (26B parámetros en disco) y cargarlo cada vez que arranca tu aplicación te mata los tiempos de cold start. Si planeás usarlo seguido, mantenelo en memoria o usá un servidor de inferencia como vLLM que lo mantenga caliente. Es una boludez, pero más de uno se va a clavar con esto la primera semana. En la comparativa entre Google y OpenAI profundizamos sobre esto.

Si querés profundizar en esto, tenemos un artículo sobre Google DeepMind releases DiffusionGemma, a model that runs l.

Si querés profundizar en esto, te dejamos un artículo sobre modelos open-source Apache 2.0 que trata el tema.

Preguntas Frecuentes

¿Qué velocidad tiene DiffusionGemma en una GPU?

Más de 1000 tokens por segundo en una NVIDIA H100 y más de 700 tokens por segundo en una RTX 5090, según los benchmarks oficiales de Google DeepMind publicados en junio de 2026. En GPUs con menos VRAM el rendimiento baja proporcionalmente.

¿DiffusionGemma reemplaza a los modelos autorregresivos?

No. Google lo presenta como un modelo complementario y experimental, optimizado para velocidad en entornos locales. Para aplicaciones que exigen máxima calidad de salida y coherencia factual, los modelos autorregresivos como Gemma 4 siguen siendo la recomendación oficial.

¿Dónde descargo DiffusionGemma?

Está disponible en Hugging Face bajo la organización de Google, con licencia Apache 2.0. El repositorio incluye los pesos del modelo, documentación de integración con vLLM, MLX y Hugging Face Transformers, y ejemplos de uso.

¿Qué GPU necesito para ejecutar DiffusionGemma?

Necesitás una GPU con al menos 18 GB de VRAM. Las NVIDIA RTX 4090 y RTX 5090 cumplen holgadamente. En Apple Silicon con 64 GB de memoria unificada también funciona mediante MLX, aunque los benchmarks oficiales se hicieron sobre hardware NVIDIA.

¿Para qué sirve la difusión en texto?

La difusión aplicada a texto permite generar bloques completos de tokens en paralelo refinándolos iterativamente, en lugar de producir un token a la vez. Esto acelera la inferencia en entornos locales y habilita tareas con atención bidireccional como completado de código, edición de secuencias biológicas o grafos matemáticos donde el contexto completo importa más que la generación secuencial.

Conclusión

DiffusionGemma no es el futuro de todos los modelos de lenguaje, ni Google lo vende como tal. Es una apuesta concreta por un caso específico: velocidad en entornos locales con hardware de consumo, para tareas donde la generación secuencial token-por-token es un cuello de botella innecesario. El 4x de mejora sobre Gemma 4 en inferencia local es real sobre el papel —habrá que ver cuánto se sostiene cuando la comunidad lo pruebe fuera del laboratorio de DeepMind.

Lo que cambió acá es la validación: hasta ahora la difusión para texto era tema de papers y experimentos académicos. Verla empaquetada en un modelo abierto, con adaptadores para los frameworks más usados y corriendo en GPUs que cualquiera puede comprar (bueno, casi cualquiera —una RTX 4090 no es barata) marca un punto de inflexión. Si laburás con modelos locales y la latencia te viene frenando, bajate DiffusionGemma de Hugging Face y probalo en tu propio hardware. En 15 minutos te sacás la duda.

DiffusionGemma: Google genera texto 4x más rápido