AI2 lanza Olmo Hybrid: modelo open source con 2x eficiencia

AI2 (Allen Institute for AI) lanzó Olmo Hybrid 7B, un modelo de lenguaje completamente abierto que combina capas transformer con capas recurrentes lineales. El resultado: la misma precisión que su predecesor Olmo 3 en benchmarks como MMLU, pero usando casi la mitad de los tokens. Es el primer modelo abierto de esta escala que publica pesos, código de entrenamiento, datos y checkpoints intermedios bajo una arquitectura híbrida. Olmo Hybrid modelo abierto marca un punto de inflexión para quienes buscan alternativas reales a los modelos cerrados.

El entrenamiento se hizo sobre 512 GPUs NVIDIA Blackwell con 3 trillones de tokens, en colaboración con Lambda. AI2 no solo liberó el modelo final, sino también las variantes base, Instruct-SFT y Think-SFT, junto con todo el pipeline reproducible. Eso lo pone en una liga distinta a la de Meta o Mistral, que publican pesos pero no el proceso completo.

En 30 segundos

  • AI2 liberó Olmo Hybrid 7B, un modelo que mezcla atención transformer con capas recurrentes Gated DeltaNet, logrando la misma precisión que Olmo 3 con 49% menos tokens en MMLU.
  • Es 100% abierto: pesos, código de entrenamiento, datos y checkpoints intermedios están disponibles en Hugging Face y GitHub.
  • Se entrenó con 3 trillones de tokens en 512 GPUs Blackwell, y AI2 publicó las métricas de infraestructura completas.
  • Para desarrolladores y empresas que corren modelos on-premise, la eficiencia en contextos largos puede traducirse en menos costo de inferencia sin sacrificar calidad.

Qué es Olmo Hybrid y por qué importa

AI2 es el brazo de investigación en inteligencia artificial del Allen Institute, fundado por Paul Allen (cofundador de Microsoft). Llevan años publicando modelos abiertos como OLMo 1 y OLMo 2, pero siempre con arquitecturas transformer puras. Olmo Hybrid rompe con eso.

¿Qué significa “100% abierto”? Que podés descargar los pesos, clonar el repositorio de entrenamiento, reproducir el proceso desde cero y auditar cada checkpoint intermedio. No es lo mismo que lo que hace Meta con Llama, donde publicás los pesos pero no el código de entrenamiento completo ni los datos. Tampoco es lo de Mistral, que libera pesos pero con licencias restrictivas para uso comercial en ciertos casos.

Eso sí: que sea abierto no lo hace automáticamente mejor. Lo que hace interesante a Olmo Hybrid es la combinación de apertura total con una arquitectura que resuelve problemas concretos de eficiencia. No es open-washing.

La arquitectura híbrida: transformer + capas recurrentes lineales

Los transformers puros tienen un problema conocido: la atención escala cuadráticamente con la longitud de la secuencia. Eso significa que procesar contextos largos se vuelve caro, rápido. Olmo Hybrid ataca esto con un patrón 3:1: tres capas de Gated DeltaNet (recurrente lineal) por cada capa de atención multi-head.

Diagrama de arquitectura hibrida mostrando capas transformer combinadas con capas recurrentes lineales en un modelo de l

¿Por qué esa combinación? Cada tipo de capa aporta algo distinto. Las capas recurrentes comprimen el estado de la secuencia de forma eficiente. Son buenas para mantener contexto a lo largo de secuencias largas sin que el costo computacional explote. Pero tienen una debilidad: les cuesta hacer “recall” preciso de información puntual que apareció muchos tokens atrás.

Ahí entra la atención transformer clásica. Una capa de atención cada cuatro bloques le permite al modelo “volver atrás” y recuperar datos específicos cuando los necesita. El resultado es un modelo que mantiene la eficiencia de las capas recurrentes para el grueso del procesamiento, pero no sacrifica la capacidad de recuperar información precisa.

Pensalo así: las capas recurrentes son como leer un libro y retener las ideas principales. La capa de atención es como poder volver a una página específica cuando necesitás un dato exacto. Solas, cada una tiene limitaciones. Juntas, se complementan.

Qué es Gated DeltaNet y cómo funciona

Gated DeltaNet es una capa recurrente lineal. Si venís del mundo de las RNNs clásicas (LSTM, GRU), la diferencia principal es que DeltaNet opera con complejidad lineal respecto a la longitud de secuencia, no cuadrática como la atención ni con los cuellos de botella secuenciales de las RNNs tradicionales.

El mecanismo “gated” agrega una compuerta que controla cuánta información del estado anterior se retiene y cuánta se actualiza. Es conceptualmente similar al gate de un LSTM, pero implementado de forma que permite paralelización durante el entrenamiento. Eso es clave: las RNNs clásicas son rápidas en inferencia pero lentas de entrenar porque cada paso depende del anterior. DeltaNet logra entrenarse en paralelo como un transformer.

El “Delta” en el nombre refiere a que la actualización del estado se computa como un delta (diferencia) respecto al estado anterior, no como una reescritura completa. Eso le da estabilidad numérica y mejor convergencia en secuencias largas.

Ahora bien, la implementación eficiente de Gated DeltaNet en hardware moderno no es trivial. AI2 tuvo que escribir kernels CUDA optimizados específicamente para las GPUs Blackwell. Esos kernels también están liberados, lo cual es relevante si querés adaptar la arquitectura a tu propio hardware.

Benchmarks: Olmo Hybrid vs Olmo 3 y otros modelos 7B

Los números son concretos y vienen del paper de AI2. En MMLU, Olmo Hybrid iguala la precisión de Olmo 3 pero necesita 49% menos tokens para llegar al mismo resultado. Eso no es un benchmark cherry-picked: MMLU es uno de los estándares más usados para medir conocimiento general.

Grafico comparativo de rendimiento entre modelos de lenguaje open source de 7 billones de parametros

Donde Olmo Hybrid se destaca es en las subcategorías de MMLU. En STEM llega a 70.8% contra 66.3% de Olmo 3, una diferencia de 4.5 puntos. En Humanidades: 73.9% vs 69.2%, un delta de 4.7 puntos. Son mejoras notorias para un modelo del mismo tamaño de parámetros.

En Common Crawl (evaluación de perplexity sobre texto web), logra paridad con Olmo 3 usando 35% menos tokens. Lo interesante es que la eficiencia varía según el dominio: en tareas que requieren tracking de estado largo (código, razonamiento matemático paso a paso), la ventaja de la arquitectura híbrida es más pronunciada.

El tema es que estos benchmarks son del propio equipo de AI2, así que tomalo con pinzas hasta que aparezcan evaluaciones independientes. No hay todavía una comparación directa con Llama 3.1 8B o Mistral 7B usando las mismas condiciones de evaluación, aunque AI2 promete publicar más datos.

ModeloParámetrosMMLU (precisión)MMLU STEMMMLU HumanidadesEficiencia vs Olmo 3Open source completo
Olmo Hybrid 7B7BIgual a Olmo 370.8%73.9%49% menos tokensSí (pesos, código, datos, checkpoints)
Olmo 3 7B7BBaseline66.3%69.2%Baseline
Llama 3.1 8B8B~68% (reportado por Meta)N/AParcial (pesos sí, datos no)
Mistral 7B v0.37B~62% (reportado)N/AParcial (pesos sí, entrenamiento no)

Los datos de Llama y Mistral en la tabla son referenciales y provienen de sus propias publicaciones, no de una comparación controlada. Falta que alguien los corra a todos con el mismo harness.

Infraestructura de entrenamiento: 512 GPUs Blackwell y 3 trillones de tokens

Olmo Hybrid se entrenó en un clúster de 512 GPUs NVIDIA Blackwell provisto por Lambda. AI2 reporta un 97% de tiempo activo de entrenamiento (MFU), que es un número alto para un run de esta escala. Quiere decir que las GPUs estuvieron computando útilmente el 97% del tiempo, con solo un 3% perdido en comunicación, checkpointing o fallos de hardware.

El dataset de entrenamiento usa el mismo data mix que Olmo 3 32B: 3 trillones de tokens curados por el equipo de AI2. Usaron el mismo mix del modelo más grande para darle al 7B exposición a la misma distribución de datos, lo cual es una decisión interesante. No siempre se hace así; muchos equipos usan mixes distintos según el tamaño del modelo.

Lo que publicaron de infraestructura va más allá de los números: liberaron logs de entrenamiento, curvas de loss, y métricas de utilización de GPU. Para equipos de investigación que quieran replicar o escalar la arquitectura, tener esos datos es tan valioso como el modelo mismo. Habría que ver si otras organizaciones reproducen estos resultados con hardware distinto. Si te interesa, podes leer mas sobre modelos de lenguaje abierto como Gemma 3.

Qué incluye el release open source

El release de Olmo Hybrid es de los más completos que se vieron en el espacio de LLMs abiertos. Esto es lo que está disponible:

  • Pesos del modelo en Hugging Face: versión base, Instruct-SFT (fine-tuned para seguir instrucciones) y Think-SFT (optimizada para razonamiento paso a paso).
  • Código de entrenamiento completo en GitHub, incluyendo los kernels CUDA para Gated DeltaNet.
  • Código de inferencia compatible con transformers y vLLM.
  • Checkpoints intermedios del entrenamiento (cada cierta cantidad de steps), útiles para estudiar la dinámica de aprendizaje.
  • Documentación del data mix y pipeline de preprocesamiento de datos.

La licencia es Apache 2.0, que permite uso comercial sin restricciones. Comparalo con Llama 3, que tiene una licencia custom que prohíbe ciertos usos si tenés más de 700 millones de usuarios mensuales, o con Mistral, que fue variando sus licencias entre releases.

¿Significa que es el modelo más abierto que existe? Probablemente sí en la categoría 7B de arquitectura híbrida. Modelos como BLOOM también fueron muy abiertos en su momento, pero con arquitectura transformer pura. En el espacio híbrido, no hay precedente de esta apertura.

Implicaciones para el futuro de las arquitecturas de LLMs

La industria viene explorando alternativas al transformer puro desde hace rato. Mamba (state space model), RWKV (RNN moderna), y Jamba (híbrido de AI21 Labs) son algunos ejemplos. Olmo Hybrid se suma a esa tendencia, pero con un diferencial: es el primero totalmente abierto y reproducible.

¿Por qué importa la eficiencia? Porque el costo de inferencia en producción es directamente proporcional a la cantidad de cómputo por token. Si un modelo necesita la mitad de tokens para llegar a la misma respuesta, el costo operativo baja. Para empresas que corren modelos on-premise o pagan por token en APIs, eso se traduce en plata.

El tema es que la adopción de arquitecturas no-transformer tiene un obstáculo práctico: el ecosistema de herramientas está optimizado para transformers. Frameworks como vLLM, TensorRT-LLM y otros engines de inferencia tuvieron que agregar soporte específico para capas recurrentes. Olmo Hybrid ya tiene integración con vLLM, lo cual baja la barrera de entrada, pero no todo el tooling está al mismo nivel de madurez.

Para desarrolladores, el mensaje es: no hace falta migrar ya. Pero sí conviene tener en el radar estas arquitecturas híbridas. Si los números de eficiencia se confirman con evaluaciones independientes, van a empezar a aparecer más modelos con este patrón.

Qué significa para empresas y equipos en Latinoamérica

Si tu empresa o equipo está evaluando correr modelos de lenguaje on-premise (por regulación, costos o latencia), Olmo Hybrid es una opción que vale la pena mirar. Un modelo 7B ya corre en hardware accesible: una GPU con 16 GB de VRAM es suficiente con cuantización de 4 bits.

La eficiencia en tokens tiene un impacto directo en costo. Si tu caso de uso involucra procesar documentos largos (contratos, normativas, reportes técnicos), un modelo que maneja contextos largos con menos cómputo te puede ahorrar entre un 30% y 50% de infraestructura respecto a un transformer puro equivalente.

La licencia Apache 2.0 sin restricciones comerciales también simplifica la evaluación legal, algo que en empresas medianas de la región suele ser un cuello de botella. No hay letra chica ni umbrales de usuarios como en Llama.

Cómo probar Olmo Hybrid hoy

El modelo está disponible en Hugging Face en tres variantes: base (para fine-tuning), Instruct-SFT (para uso directo con instrucciones) y Think-SFT (para tareas de razonamiento). Para la mayoría de los casos de uso, la variante Instruct es el punto de partida.

En cuanto a hardware, un 7B en precisión completa (FP16) necesita unos 14 GB de VRAM. Con cuantización GPTQ o AWQ de 4 bits, baja a unos 4-5 GB. Una NVIDIA RTX 3060 12 GB o superior lo corre cómodamente cuantizado.

Para inferencia rápida, AI2 recomienda vLLM, que ya tiene soporte para la arquitectura híbrida. Un ejemplo básico con la librería transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "allenai/OLMo-2-0325-7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

prompt = "Explicame qué es una capa recurrente lineal en un LLM."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs, skip_special_tokens=True))

Los casos de uso más recomendados para un 7B híbrido son: análisis de documentos largos, chatbots internos, generación de reportes, y asistentes de código. Para tareas que requieren conocimiento muy especializado o razonamiento complejo multi-paso, los modelos más grandes siguen teniendo ventaja.

Preguntas Frecuentes

¿Qué es Olmo Hybrid y en qué se diferencia de otros modelos open source?

Olmo Hybrid 7B es un modelo de lenguaje de AI2 que combina capas transformer con capas recurrentes Gated DeltaNet en un patrón 3:1. Se diferencia de otros modelos abiertos como Llama o Mistral en dos aspectos: usa una arquitectura híbrida (no transformer puro) y es completamente abierto, incluyendo código de entrenamiento, datos y checkpoints intermedios, no solo los pesos.

¿Cómo logra Olmo Hybrid ser el doble de eficiente que un transformer tradicional?

La eficiencia viene de las capas Gated DeltaNet, que procesan secuencias con complejidad lineal en lugar de cuadrática. Al usar tres capas recurrentes por cada capa de atención, el modelo comprime el estado de forma eficiente para la mayoría del procesamiento y solo recurre a la atención costosa cuando necesita recuperar información precisa. En la práctica, esto se traduce en necesitar 49% menos tokens para alcanzar la misma precisión en MMLU.

¿Qué libera AI2 como open source de Olmo Hybrid?

AI2 publicó los pesos del modelo (base, Instruct-SFT y Think-SFT) en Hugging Face, el código de entrenamiento e inferencia en GitHub, los checkpoints intermedios del entrenamiento, y la documentación del data mix. Todo bajo licencia Apache 2.0, que permite uso comercial sin restricciones.

¿Vale la pena usar Olmo Hybrid en lugar de Llama o Mistral?

Depende de tu caso de uso. Si procesás documentos largos o necesitás eficiencia en inferencia, Olmo Hybrid tiene ventaja por su arquitectura. Si necesitás el ecosistema de fine-tuning más maduro y mayor disponibilidad de adapters LoRA preconstruidos, Llama sigue teniendo la comunidad más grande. La recomendación es probarlo en tu tarea específica antes de decidir.

Conclusión

Olmo Hybrid 7B cambia dos cosas concretas. Primero, demuestra que la arquitectura híbrida transformer + recurrente lineal funciona a escala, con números de eficiencia medibles (49% menos tokens en MMLU, 35% menos en Common Crawl). Segundo, establece un nuevo estándar de apertura: publicar el proceso completo, no solo el producto final.

Para desarrolladores y equipos que evalúan modelos abiertos, conviene descargarlo y correr benchmarks en sus propias tareas. Los números de AI2 son prometedores, pero todavía faltan evaluaciones independientes que confirmen las ventajas en escenarios diversos. Mientras tanto, el repositorio de GitHub y los checkpoints intermedios son un recurso valioso para entender cómo se entrena un modelo híbrido desde cero.

Lo que viene: esperá ver más modelos adoptando patrones similares en los próximos meses. Jamba de AI21, los experimentos de Mamba 2 y RWKV-6 van en la misma dirección. Olmo Hybrid, por su apertura, probablemente sea el que más tracción genere en la comunidad de investigación.

Fuentes

Te puede interesar

Desplazarse hacia arriba