DiffusionBench: evaluación de difusión generativa

En pocas palabras: DiffusionBench es un framework open source del grupo End2End-Diffusion en GitHub que unifica la evaluación de transformadores de difusión: corre las mismas métricas (FID, GenEval, VQAScore) sobre ImageNet y Text-to-Image cambiando una sola línea de configuración, terminando con la evaluación fragmentada entre papers.

DiffusionBench es un framework open source que unifica la evaluación de modelos de difusión generativos: corre las mismas métricas (FID, GenEval, VQAScore) tanto sobre ImageNet como sobre Text-to-Image cambiando una sola línea de configuración. Está publicado en GitHub bajo el grupo End2End-Diffusion y apunta a terminar con la evaluación fragmentada.

Si alguna vez entrenaste un modelo generativo, sabés el problema: cada paper mide distinto, con scripts distintos, sobre datasets distintos, y comparar dos resultados termina siendo un acto de fe.

DiffusionBench es una librería de evaluación holística para transformadores de difusión generativos. Reúne en un mismo código las métricas de generación condicionada por clase (ImageNet) y las de generación a partir de texto (Text-to-Image), junto con arquitecturas, métodos de transporte y codificadores de espacio latente. Su objetivo es que entrenar, medir y comparar modelos sea reproducible y consistente.

En 30 segundos

Una sola config para dos mundos: evalúa difusión sobre ImageNet y Text-to-Image cambiando una línea, sin reescribir el pipeline.
Métricas para cada contexto: FID e IS para ImageNet; GenEval, DPGBench, GenAIBench y VQAScore para T2I; rFID, PSNR, SSIM y LPIPS para reconstrucción.
Arquitecturas listas: LightningDiT, JiT y DDT, con transporte Rectified-Flow o MeanFlow.
Muchos espacios latentes: más de 30 codificadores (RAE y VAE), según la documentación del repositorio.
Pensado para escalar: entrenamiento distribuido con DDP, precisión BF16, compilación optimizada y logging a Weights & Biases.

¿Por qué la evaluación de modelos de difusión generativos estaba tan fragmentada?

Ponele que leés dos papers de difusión la misma semana. Uno reporta FID sobre ImageNet 256×256. El otro reporta GenEval sobre prompts de texto. ¿Cuál modelo es “mejor”? No se sabe. Están midiendo cosas distintas, sobre datos distintos, con repos que ni se parecen.

Ese es el agujero que ataca DiffusionBench. Durante años la investigación de difusión se concentró en ImageNet porque era el banco de pruebas cómodo: clases conocidas, métricas establecidas, papers comparables. El tema es que lo que la gente usa en producción es Text-to-Image, donde lo que importa es si el modelo entendió el prompt, no si clavó una clase de ImageNet. Esa brecha entre “lo que medimos” y “lo que usamos” venía creciendo. Sobre eso hablamos en consideraciones de seguridad en IA.

“Holística” acá significa algo concreto: medir el modelo en los dos regímenes con el mismo código, en vez de armar un Frankenstein de scripts sueltos por cada métrica. ¿Suena obvio? Capaz. Pero cualquiera que haya intentado reproducir un FID ajeno sabe que entre versiones de librerías, preprocesados y semillas, el “mismo” número se mueve.

¿Qué métricas usa DiffusionBench para evaluar?

Acá viene lo bueno: no hay una métrica única, porque ninguna alcanza sola. DiffusionBench agrupa tres familias según para qué estés entrenando.

Generación sobre ImageNet: FID (Fréchet Inception Distance), que compara la distribución de imágenes generadas contra las reales (cuanto más bajo, mejor), e IS (Inception Score), que mira calidad y diversidad (cuanto más alto, mejor).
Generación Text-to-Image: GenEval para composición (¿están los objetos, los colores, las cantidades que pediste?), DPGBench para prompts densos y complejos, GenAIBench alineado con preferencia humana, y VQAScore, que usa un modelo de pregunta-respuesta visual para chequear si la imagen responde al texto.
Reconstrucción del autoencoder: rFID, PSNR, SSIM y LPIPS, que miden qué tan fiel reconstruye el codificador antes de que el modelo de difusión siquiera entre en juego.

¿Por qué tantas? Porque cada una tapa el punto ciego de la otra. El FID te dice si las imágenes “parecen reales” en distribución, pero no si respetaron el prompt. VQAScore y GenEval sí miran el alineamiento texto-imagen, pero no te avisan si el autoencoder está perdiendo detalle. Si querés el detalle fino de qué mide cada una, la documentación de evaluación de Diffusers es una buena referencia complementaria.

Tabla: qué mide cada métrica y cuándo

Métrica	Qué mide	Contexto	Mejor cuando
FID	Distancia entre distribución generada y real	ImageNet	Valor más bajo
IS	Calidad y diversidad de muestras	ImageNet	Valor más alto
GenEval	Composición: objetos, colores, conteo	Text-to-Image	Valor más alto
DPGBench	Cumplimiento de prompts densos	Text-to-Image	Valor más alto
VQAScore	Alineamiento texto-imagen vía VQA	Text-to-Image	Valor más alto
rFID / LPIPS	Fidelidad de reconstrucción del autoencoder	Espacio latente	Valor más bajo

evaluación de modelos de difusión generativos diagrama explicativo

ImageNet vs Text-to-Image: ¿en qué se diferencia la evaluación?

La gracia técnica de DiffusionBench es que pasás de un régimen al otro con un cambio de configuración, no reescribiendo medio repo. Eso cambia bastante el flujo de trabajo.

En ImageNet generás condicionado por clase: le decís “perro”, “auto”, “hongo”, y medís contra el dataset con FID e IS. Es controlado, comparable, y tiene años de baselines publicados. Como referencia histórica, el clásico DiT-XL/2 reportó un FID de 2.27 en ImageNet 256×256 en el paper original de transformadores de difusión, y ese número sigue siendo un ancla habitual para comparar.

En Text-to-Image el juego es otro. Ya no alcanza con que la imagen sea bonita: tiene que decir lo que el prompt pidió. Por eso entran GenEval, DPGBench y VQAScore, que castigan al modelo cuando se “olvida” un objeto o le pifia al conteo. Un modelo puede tener un FID hermoso y un GenEval flojo, y ahí entendés que generaba imágenes lindas pero desobedientes. Cubrimos ese tema en detalle en cómo evaluar modelos generativos.

¿La limitación? ImageNet no captura la complejidad de los prompts reales, y las métricas de T2I dependen de otros modelos (el VQA, por ejemplo) que tienen sus propios sesgos. Tomalo con pinzas: ninguna ventana sola te da la foto completa, y por eso conviene mirar las dos.

¿Qué arquitecturas y métodos de transporte soporta?

Del lado de arquitectura, el repositorio ofrece tres opciones de transformador de difusión, según su documentación:

LightningDiT: una variante DiT orientada a entrenamiento rápido y eficiente.
JiT: otra opción de transformador para difusión incluida en el framework.
DDT: un transformador de difusión con diseño desacoplado.

Para el “transporte” (cómo el modelo lleva ruido hacia imagen) hay dos caminos: Rectified-Flow, que endereza las trayectorias para muestrear más rápido, y MeanFlow, una alternativa más nueva pensada para generación en pocos pasos. Poder cambiar entre ambos sin rehacer el resto es justo lo que falta cuando comparás métodos a mano.

Sumale el soporte de más de 30 codificadores para el espacio latente, entre RAE y VAEs distintos. Eso importa porque el autoencoder define el terreno donde el modelo de difusión aprende: un latente malo arruina al mejor transformador, y poder intercambiarlos te deja aislar dónde está el cuello de botella.

¿Cómo optimiza el entrenamiento de los modelos?

Entrenar difusión es caro. Y largo. DiffusionBench trae varias decisiones de ingeniería para que las iteraciones no se te vayan de las manos. En arquitecturas de modelos de lenguaje profundizamos sobre esto.

Entrenamiento distribuido (DDP): reparte el trabajo entre varias GPU para que escalar no implique reescribir el loop.
Precisión BF16: usa media precisión para acelerar y ahorrar memoria sin el dolor de cabeza numérico del FP16 clásico.
Compilación optimizada: compila el grafo para exprimir el hardware en cada paso.
Logging a Weights & Biases: seguís métricas y curvas en vivo, sin parsear logs a mano.

Todo esto apunta a lo mismo: que el ciclo “cambio una idea, entreno, mido, comparo” sea corto. Cuando ese ciclo es lento, terminás probando menos hipótesis y avanzando a ciegas. Eso sí: nada de esto te salva del costo de cómputo. Para entrenar en serio vas a necesitar GPU potentes, y si manejás la infraestructura desde Latinoamérica, conviene mirar opciones de donweb.com para el alojamiento y los servidores cloud que sostienen este tipo de cargas.

Cómo entrenar un transformador de difusión con DiffusionBench, paso a paso

El flujo conceptual es bastante directo. No es magia, es ordenar lo que ya hacías disperso.

Elegí el régimen: definís en la config si entrenás sobre ImageNet o Text-to-Image.
Seleccioná arquitectura y transporte: por ejemplo, LightningDiT con Rectified-Flow para arrancar rápido.
Configurá el espacio latente: elegís el codificador (RAE o VAE) que va a representar las imágenes.
Definí las métricas: FID e IS si es ImageNet; GenEval y VQAScore si es T2I.
Entrená y compará: con DDP y BF16, y seguís los resultados en Weights & Biases contra tus baselines.

Un ejemplo concreto: un equipo entrena LightningDiT sobre ImageNet 256, obtiene su FID y lo contrasta contra el 2.27 de DiT-XL/2 como referencia. Después cambia una línea de config, pasa a Text-to-Image, reusa el mismo pipeline y ahora mide GenEval. Mismo código, dos preguntas distintas respondidas.

Otro caso: antes de elegir el latente, comparás dos autoencoders por rFID y LPIPS. Si uno reconstruye mejor, arrancás el entrenamiento de difusión sobre ese, y te ahorrás descubrir tarde que el problema nunca fue el transformador.

Ventajas frente a la evaluación manual y fragmentada

La diferencia principal es la reproducibilidad. Cuando todos corren el mismo código de evaluación, los números empiezan a ser comparables de verdad y no “comparables si tenés fe”. A eso se suma el soporte para múltiples modelos y arquitecturas en un solo lugar, el logging integrado, y la facilidad de saltar entre tipos de entrenamiento. El impacto real es velocidad de investigación: menos tiempo plomeando scripts, más tiempo probando ideas.

Errores comunes al evaluar modelos de difusión

Comparar FID entre repos distintos como si fueran iguales. El FID es sensible al preprocesado, al backbone y a la cantidad de muestras. Si no corriste ambos con el mismo código, no estás comparando lo mismo. Por eso un framework unificado ayuda.
Mirar una sola métrica. Un FID bajo no garantiza que el modelo siga el prompt. Si entrenás T2I y solo reportás FID, te estás escondiendo el problema de alineamiento. Sumá GenEval o VQAScore.
Ignorar la calidad del autoencoder. Mucha gente culpa al transformador cuando el cuello de botella es el latente. Medí rFID y LPIPS del codificador antes de sacar conclusiones del modelo de difusión.
Usar pocas muestras para el FID. Con un set chico, el número baila. Mantené un protocolo fijo de cantidad de imágenes para que los resultados sean estables entre corridas.

Preguntas Frecuentes

¿Qué es DiffusionBench y para qué sirve?

DiffusionBench es un framework open source para evaluar y entrenar transformadores de difusión generativos de forma unificada. Sirve para medir un modelo con las mismas métricas sobre ImageNet y Text-to-Image, comparar arquitecturas y reproducir resultados sin armar scripts sueltos por cada experimento. Te puede servir nuestra cobertura de innovaciones de Google en generación.

¿Qué métricas incluye DiffusionBench?

Incluye FID e IS para generación sobre ImageNet; GenEval, DPGBench, GenAIBench y VQAScore para Text-to-Image; y rFID, PSNR, SSIM y LPIPS para medir la reconstrucción del autoencoder. La idea es cubrir calidad de imagen, alineamiento con el texto y fidelidad del espacio latente.

¿Cómo cambio entre entrenar en ImageNet y Text-to-Image?

Se cambia desde la configuración, sin reescribir el pipeline. Según la documentación del repositorio, pasás de un régimen al otro modificando la config, y el mismo código de entrenamiento y evaluación se reusa con las métricas que correspondan a cada caso.

¿Qué arquitecturas de transformadores soporta?

Soporta LightningDiT, JiT y DDT como arquitecturas de transformador, y permite elegir el método de transporte entre Rectified-Flow y MeanFlow. También admite más de 30 codificadores de espacio latente, entre RAE y VAEs, según su documentación.

¿Dónde se descarga DiffusionBench?

Está disponible en GitHub bajo el grupo End2End-Diffusion, en el repositorio diffusion-bench. Es código abierto, así que podés clonarlo, revisar la configuración y correrlo con entrenamiento distribuido (DDP) y precisión BF16.

Conclusión

Lo que cambia con DiffusionBench no es una métrica nueva, es el orden. Tener el mismo código para medir difusión sobre ImageNet y Text-to-Image, con arquitecturas y autoencoders intercambiables, ataca el dolor real de la investigación generativa: que comparar resultados ajenos era casi imposible. Si trabajás en difusión, vale la pena clonarlo, correr tus baselines con su protocolo y dejar de confiar en números que no podés reproducir. La evaluación seria empieza por medir todos con la misma regla.

DiffusionBench: cómo evaluar modelos de difusión generativos