DiffusionGemma: Google genera texto 4x más rápido

Google liberó DiffusionGemma en junio de 2026, un modelo abierto bajo licencia Apache 2.0 que apuesta todo a la generación de texto rápida: en vez de escribir un token por vez, genera bloques enteros en paralelo y llega a entre 4 y 5 veces la velocidad de Gemma 4 estándar. Es experimental, corre local y no es para todo.

DiffusionGemma es un modelo de lenguaje abierto de Google con arquitectura Mixture-of-Experts de 26.000 millones de parámetros totales y unos 3,8B activos (de ahí el “A4B” del nombre del repo). Usa difusión de texto discreta para generar varios tokens a la vez, en lugar del enfoque autorregresivo clásico. Está pensado para tareas donde la velocidad pesa más que la calidad máxima.

En 30 segundos

  • Qué es: modelo abierto de Google (26B MoE, 3,8B activos) con difusión de texto, lanzado en junio de 2026 bajo Apache 2.0.
  • Por qué importa: genera bloques de 256 tokens en paralelo y alcanza 1000+ tokens/seg en una H100, contra el goteo token por token de los modelos autorregresivos.
  • Velocidad real: 4 a 5 veces más rápido que Gemma 4 estándar, según los números que publicó Google.
  • El catch: pierde calidad en benchmarks generales. Google mismo recomienda Gemma 4 cuando necesitás máxima precisión.
  • Hardware: arranca con 18GB de VRAM cuantizado en placas NVIDIA (RTX 4090, H100, RTX PRO).

¿Qué es DiffusionGemma y por qué Google lo liberó como open source?

Veníamos viendo difusión en imágenes hace años. DALL-E, Stable Diffusion, todo eso arranca con ruido y lo va limpiando hasta que aparece la foto. Lo que hizo Google con DiffusionGemma fue traer esa misma idea al texto.

Según el anuncio oficial de Google, el modelo nació como un experimento para responder una pregunta concreta: ¿y si en vez de predecir la próxima palabra una y otra vez, generamos un bloque entero y lo refinamos de golpe? La respuesta es DiffusionGemma, publicado bajo Apache 2.0, o sea que lo podés descargar, modificar y usar en producción sin pedir permiso.

Google fue claro en una cosa: esto es exploración, no reemplazo. Lo etiquetan como “enfoque experimental” y no lo presentan como el sucesor de nada. Es una rama distinta del árbol. Más contexto dentro del ecosistema de modelos de lenguaje.

¿Cómo genera texto DiffusionGemma en paralelo en lugar de token por token?

Un modelo autorregresivo (Gemma 4, la familia GPT, casi todos los que usás) escribe como vos cuando dictás: palabra, palabra, palabra, cada una depende de la anterior. Funciona, pero es secuencial por diseño.

DiffusionGemma trabaja distinto. Arranca con un bloque de hasta 256 tokens lleno de ruido aleatorio y, a lo largo de varias iteraciones de denoising, lo va refinando hasta que el bloque entero tiene sentido. Mira el contexto hacia adelante y hacia atrás al mismo tiempo (atención bidireccional), algo que un modelo token por token no puede hacer porque todavía no escribió lo que viene.

Hay un detalle que me parece lo más interesante de toda la arquitectura, según la documentación técnica en ai.google.dev: si durante el refinamiento un token pierde confianza, el modelo puede “autorepararlo” en la siguiente iteración. No queda clavado con un error porque ya lo escribió. Eso es algo que un autorregresivo, una vez que largó el token, no puede deshacer sin volver a generar todo.

¿Qué velocidad de generación de texto rápida tiene DiffusionGemma?

Acá viene lo bueno. Los números que publicó Google son fuertes.

  • 1000+ tokens por segundo en una NVIDIA H100, según las mediciones del equipo de Google sobre inferencia en placas de datacenter.
  • 700+ tokens por segundo en una RTX 5090, o sea hardware de consumidor de gama alta, no solo equipos de servidor.
  • 4 a 5 veces más rápido que Gemma 4 estándar en las mismas condiciones, que es el dato que más se va a citar.
  • 18GB de VRAM cuantizado, lo que lo mete dentro de placas como la RTX 4090.

Ojo con esto: la velocidad es un benchmark del propio fabricante, medido sobre GPUs NVIDIA. Habría que ver qué pasa con verificación independiente y en cargas reales mezcladas. Pero aun tomándolo con pinzas, la diferencia de arquitectura justifica que sea mucho más veloz. No es marketing puro.

DiffusionGemma vs Gemma 4 vs modelos cerrados: ¿cuál elegir?

Esta es la decisión real que vas a tener que tomar. No hay un ganador absoluto, hay un ganador por caso. Para más detalles técnicos, mirá nuestro análisis de Gemini.

CriterioDiffusionGemmaGemma 4 estándarModelo cerrado de frontera (familia GPT)
VelocidadMuy alta (1000+ tok/seg en H100)MediaMedia, depende de la API
Calidad generalInferior por diseñoAltaLa más alta en razonamiento complejo
DeploymentLocal, abierto (Apache 2.0)Local, abiertoCerrado, vía API
Hardware mínimo18GB VRAM cuantizadoVariable según versiónNo corre local
Mejor paraVelocidad crítica, edición inlineBalance localRazonamiento complejo
diffusiongemma generación de texto diagrama explicativo

La matriz de decisión es simple. Si lo que te quema es la velocidad, DiffusionGemma. Si querés la mejor calidad posible y no te importa pagar por API, un modelo cerrado de frontera. Si buscás un equilibrio que corra en tu propia placa, Gemma 4 estándar sigue siendo la opción cuerda.

¿En qué tareas sobresale DiffusionGemma sobre los autorregresivos?

Ponele que estás completando una función a la mitad y el modelo necesita ver el código que va antes y el que va después del hueco. Un autorregresivo no ve lo de adelante. DiffusionGemma sí. Ahí es donde brilla.

  • Code infilling: al ser bidireccional, ve el contexto previo y posterior al mismo tiempo, ideal para rellenar código en el medio de un archivo.
  • Edición inline: genera bloques sin atarse a una secuencia fija, así que reescribir un fragmento puntual sale más natural.
  • Visión y PDFs: maneja imágenes y hasta video (60 segundos a 1 fps), según la ficha del modelo.
  • Problemas con restricciones estrictas: casos tipo Sudoku, donde la solución tiene que cumplir reglas duras y el refinamiento iterativo ayuda.

Eso sí: la diversidad y la coherencia en textos largos siguen siendo el flanco débil frente a los autorregresivos. No esperes que te escriba un ensayo de 3000 palabras impecable.

¿Cómo ejecutar DiffusionGemma localmente y qué necesitás?

Lo bueno de que sea open source y local-first es que no dependés de ninguna nube para probarlo. Bajás los pesos y listo. Para superar sus limitaciones, mirá cómo hacerlo con GPT.

  • Hardware: 18GB de VRAM cuantizado en placas NVIDIA (RTX 4090, H100, RTX PRO, DGX).
  • Software: compatible con Hugging Face Transformers, vLLM, MLX (para Mac) y Unsloth.
  • Pesos: los descargás de el repo oficial en Hugging Face (google/diffusiongemma-26B-A4B-it) o versiones GGUF cuantizadas si andás justo de memoria.
  • Sistemas: corre en Linux, Windows y Mac (vía MLX).

Si no tenés una placa con 18GB de VRAM en casa, una opción es levantarlo en un servidor con GPU. Para infraestructura cloud en Argentina podés mirar donweb.com y armar el entorno sin comprar hardware. Subís los pesos, instalás vLLM, lo exponés como endpoint y lo consumís desde tu app.

¿Cuál es el catch? Las limitaciones de DiffusionGemma

Nada es gratis. La velocidad se paga en otro lado, y conviene saber dónde antes de meterlo en producción.

  • Calidad inferior en benchmarks: rinde por debajo de Gemma 4 estándar en pruebas generales. Es el trade-off central, no un bug.
  • Problemas de diversidad en el muestreo: aparece el fenómeno de “token collapse”, donde las salidas tienden a repetirse o aplanarse.
  • El denoising puede ser lento: 200 pasos de refinamiento todavía pueden quedar por detrás de un autorregresivo single-pass en ciertos casos cortos.
  • Es experimental: Google mismo recomienda Gemma 4 para aplicaciones que exigen máxima calidad. Se esperan mejoras con el tiempo.

Qué está confirmado y qué todavía no

  • Confirmado: el lanzamiento en junio de 2026, la licencia Apache 2.0, la arquitectura 26B MoE y la disponibilidad de los pesos en Hugging Face. Todo está en los canales oficiales de Google.
  • Confirmado por Google: los números de velocidad (1000+ tok/seg en H100, 4-5x sobre Gemma 4), aunque son mediciones del propio fabricante.
  • Pendiente: verificación independiente de los benchmarks de velocidad y calidad en cargas reales.
  • Pendiente: cuánto mejora la diversidad de salida en futuras versiones. Hoy el token collapse es un límite real.

Errores comunes al evaluar DiffusionGemma

  • Creer que reemplaza a Gemma 4: no lo hace. Es una arquitectura paralela para casos de velocidad, no un upgrade general. Usá cada uno donde rinde.
  • Comparar solo por velocidad: si mirás únicamente los tokens por segundo, te va a encantar. Sumá la calidad al análisis o vas a terminar con salidas pobres en producción.
  • Subdimensionar la VRAM: el modelo arranca en 18GB cuantizado. Si lo tirás en una placa de 12GB esperando que ande, no va a cargar. Verificá el hardware antes.
  • Ignorar el token collapse: mucha gente prueba un prompt corto, ve que anda y lo manda a generar texto largo. Ahí aparece la repetición. Testealo con tu caso real primero.

Preguntas Frecuentes

¿Qué es DiffusionGemma?

DiffusionGemma es un modelo de lenguaje abierto de Google lanzado en junio de 2026 bajo licencia Apache 2.0. Usa difusión de texto para generar bloques de tokens en paralelo, en lugar de uno por uno como los modelos autorregresivos. Tiene 26.000 millones de parámetros totales (MoE) con unos 3,8B activos.

¿Cuánto más rápido es que Gemma 4?

Entre 4 y 5 veces más rápido que Gemma 4 estándar, según las mediciones de Google. En una NVIDIA H100 supera los 1000 tokens por segundo, y en una RTX 5090 pasa los 700. Son cifras del fabricante, todavía sin verificación independiente.

¿Debo usar DiffusionGemma o Gemma 4 para mi proyecto?

Usá DiffusionGemma si la velocidad es crítica o trabajás con code infilling y edición inline. Elegí Gemma 4 si necesitás máxima calidad de salida en tareas generales. El propio Google recomienda Gemma 4 para aplicaciones que exigen precisión. Junto con Claude y otros modelos profundizamos sobre esto.

¿Qué hardware necesito para ejecutarlo?

Necesitás 18GB de VRAM cuantizado en una placa NVIDIA como la RTX 4090, H100 o RTX PRO. Corre en Linux, Windows y Mac (vía MLX), y es compatible con Hugging Face Transformers, vLLM y Unsloth. No requiere nube: es local-first.

¿Dónde descargo DiffusionGemma?

Los pesos están en Hugging Face bajo el repo google/diffusiongemma-26B-A4B-it, con versiones GGUF cuantizadas disponibles. La licencia Apache 2.0 permite uso comercial, modificación y redistribución sin pedir autorización a Google.

Conclusión

DiffusionGemma no vino a destronar a nadie. Vino a abrir una puerta que estaba cerrada para el texto: generar en paralelo, mirar el contexto en las dos direcciones y autorepararse en el camino. Para velocidad pura y casos como completar código, es un golazo.

Pero seamos honestos con el trade-off. La calidad general queda por debajo de Gemma 4, el token collapse es real y todavía falta verificación independiente de los números. Mi recomendación práctica: descargalo, probalo con tu caso concreto (code infilling, edición, restricciones duras) y medí vos mismo antes de moverlo a producción. Si lo tuyo es razonamiento complejo o texto largo de alta calidad, quedate con lo que ya usás. Si lo tuyo es velocidad, acabás de ganar una herramienta nueva y gratis.

Fuentes

Desplazarse hacia arriba