ZAYA1-8B modelo IA reasoning 2026: review en AMD

En pocas palabras: ZAYA1-8B es el modelo de reasoning MoE que Zyphra liberó el 6 de mayo de 2026 bajo Apache 2.0: 8.4B parámetros totales y ~760M activos por token, entrenado 100% en GPUs AMD Instinct MI300X sin una sola NVIDIA, con 89.6 en HMMT 2025.

Zyphra liberó ZAYA1-8B el 6 de mayo de 2026 bajo licencia Apache 2.0, y lo raro no es el tamaño sino dónde se entrenó: 100% en GPUs AMD Instinct MI300X, sin una sola NVIDIA en el cluster. Es un ZAYA1-8B modelo IA reasoning 2026 de tipo Mixture-of-Experts con 8.4B parámetros totales pero solo ~760M activos por token, y pega scores de matemática que se codean con modelos mucho más grandes.

ZAYA1-8B es un modelo de razonamiento open weights de Zyphra, con arquitectura Mixture-of-Experts (MoE) de 8.4B parámetros totales y ~760M activos por token, publicado el 6 de mayo de 2026 bajo Apache 2.0 con pesos en Hugging Face y un reporte técnico en arXiv. Su diferencial es que fue preentrenado por completo en GPUs AMD Instinct MI300X en vez de hardware NVIDIA.

En 30 segundos

Qué es: modelo de reasoning MoE de Zyphra, 8.4B totales / ~760M activos, Apache 2.0, lanzado el 6 de mayo de 2026.
Lo distinto: entrenado 100% en AMD Instinct MI300X, no en NVIDIA.
Qué tan bueno: según Zyphra, 89.6 en HMMT 2025 y 89.1 en AIME 2026, números de frontera para su tamaño.
El problema: hoy necesita forks custom de vLLM o transformers para correr. No hay GGUF oficial (junio 2026), así que en Ollama no entra.
Para quién: ideal si te bancás AMD o compilás desde un fork. Si querés algo andando esta noche, hay opciones más cómodas.

¿Qué es ZAYA1-8B y quién lo desarrolló?

ZAYA1-8B salió de Zyphra, la misma gente que viene laburando en arquitecturas eficientes de modelos chicos. Lo liberaron el 6 de mayo de 2026 con licencia Apache 2.0, pesos en Hugging Face y un reporte técnico en arXiv. Apache 2.0 importa: lo podés usar comercialmente, modificar y redistribuir sin la letra chica que traen otras licencias “abiertas”.

El pitch de Zyphra es “máxima densidad de inteligencia por parámetro”. Suena a marketing, pero el número lo respalda: con apenas ~760M de parámetros activos por token, este ZAYA1-8B modelo IA reasoning 2026 rinde como modelos que activan varias veces eso.

¿Por qué te debería importar un modelo de 8.4B en un año donde todos hablan de cosas de 70B para arriba? Porque la pelea cambió. Ya no se trata de quién tiene más parámetros, sino de quién saca más razonamiento por watt. Y acá Zyphra apuntó justo a eso. Más contexto en entender los modelos de Claude.

¿Por qué ZAYA1-8B fue entrenado en AMD Instinct MI300X?

Acá viene lo bueno: casi todos los modelos open weights se entrenan en clusters NVIDIA. El stack de software está armado para CUDA, las librerías asumen CUDA, los tutoriales asumen CUDA. Zyphra fue para el otro lado y preentrenó ZAYA1-8B sobre AMD Instinct MI300X, de punta a punta, con networking de Pensando (NICs) en IBM Cloud.

Ese detalle no es decorativo. Demostrar que se puede entrenar un modelo de frontera-adyacente en silicio AMD, de punta a punta, le mete presión real al cuasi-monopolio de hardware que hay en IA. Si funciona en MI300X, los que arman datacenters tienen una segunda opción seria.

El tema es que esa misma decisión que lo hace interesante hoy te complica la vida. El ecosistema de inferencia maduro vive en NVIDIA, así que correr ZAYA1-8B fuera de su entorno nativo requiere trabajo extra. Volvemos a esto más abajo.

¿Cómo funciona la arquitectura Mixture of Experts de ZAYA1-8B?

Un modelo dense activa todos sus parámetros en cada token. Uno MoE no. Tenés un router que, por cada token, elige un subconjunto chico de “expertos” y solo enciende esos. Por eso ZAYA1-8B tiene 8.4B totales pero mueve ~760M por token. Para más detalles técnicos, mirá comparación de modelos de razonamiento.

La ventaja: pagás cómputo de un modelo de ~760M en cada paso, pero te llevás la capacidad de uno bastante más grande. La contra: tenés que tener los 8.4B de pesos cargados en algún lado, aunque uses una fracción a la vez.

Zyphra combinó este ruteo con bloques de atención eficientes (en el reporte aparece la sigla CCA junto al router de MLP). El objetivo de diseño es siempre el mismo: que cada parámetro activo rinda lo máximo posible. Ponele que es como tener un equipo grande pero llamar solo a los dos especialistas que el problema necesita, en vez de poner a laburar a todos para cada tarea.

¿Qué rendimiento tiene ZAYA1-8B en reasoning y matemáticas?

Acá es donde el modelo se pone serio. En matemática y razonamiento los números que reporta Zyphra son fuertes para el tamaño. Ojo: son benchmarks del propio fabricante, así que tomalos con pinzas hasta que haya verificación independiente.

HMMT 2025: 89.6, por encima del 88.3 que Zyphra le atribuye a un Claude 4.5 en la misma prueba.
AIME 2026: 89.1, por encima de Qwen3-4B-Thinking-2507 en la comparación de la empresa.
Densidad por parámetro: el reporte enfatiza que estos scores salen activando ~760M, no varios miles de millones.

La metodología de entrenamiento que destacan es una variante de RL para reasoning que llaman Markovian RSA. La idea, a grandes rasgos, es enseñarle al modelo a encadenar pasos de razonamiento de forma más estable. ¿Alguien lo verificó de forma independiente todavía? No del todo, así que conviene esperar las réplicas de la comunidad antes de cantar victoria. Sobre eso hablamos en capacidades avanzadas de reasoning.

¿Cómo se compara ZAYA1-8B con Qwen3-4B, DeepSeek-R1 y Claude?

Cada uno juega un partido distinto. ZAYA1-8B es el especialista en matemática-por-parámetro. Qwen3-4B-Thinking-2507 es lo cómodo para correr en local sin sufrir. Los modelos cerrados grandes te dan multimodal y un ecosistema pulido. La pregunta es qué necesitás vos.

Modelo	Parámetros activos	Fuerte en	Facilidad de uso local
ZAYA1-8B	~760M (8.4B MoE)	Matemática y reasoning denso	Baja (fork custom vLLM/transformers)
Qwen3-4B-Thinking-2507	4B (dense)	Reasoning listo para Ollama	Alta (drop-in)
DeepSeek-R1 (clase)	Modelo grande	Reasoning de propósito general	Media (pesa mucho)
Claude (clase frontier)	Cerrado	Multimodal + uso fácil vía API	No aplica (no es local)

El trade-off es claro: ZAYA1-8B brilla en lo cuantitativo, pero en creatividad y en seguir instrucciones complejas (tipo IFBench) viene más flojo que algunos rivales. Si tu caso de uso es escritura creativa o asistente generalista, no es tu primera opción. Si es resolver problemas matemáticos o de código con poco cómputo, ahí pega.

¿Cuáles son los requisitos técnicos para ejecutar ZAYA1-8B?

Los pesos pesan alrededor de 17 GB. Pero si lo levantás con vLLM y sus valores por defecto, la reserva de memoria se va a unos ~48 GB por el manejo de KV cache y el overhead del runtime. Eso cambia mucho qué placa necesitás.

Solo pesos: ~17 GB en disco, descargados desde Hugging Face.
En memoria con vLLM default: ~48 GB, así que apuntá a una GPU de data center o ajustá la config para bajar ese número.
Hardware: pensado para AMD (Instinct), pero corre en NVIDIA usando los forks de Zyphra.
Dependencias: el branch zaya1-pr de vLLM o el branch zaya1 de transformers, ambos de Zyphra.
Conexión: internet para bajar el modelo la primera vez.

Si vas a hostear esto en un servidor propio para una app, vas a necesitar infraestructura con GPU de verdad y ancho de banda decente. Para ese tipo de despliegues, donweb.com tiene opciones de cloud y servidores en Argentina que te ahorran la latencia de mandar todo afuera.

¿Cómo instalar y poner a funcionar ZAYA1-8B en local?

No hay magia de un comando, todavía. El camino corto, usando el fork de vLLM:

Cloná el fork de vLLM de Zyphra y pasate al branch correcto: el branch zaya1-pr ya trae el soporte del modelo.
Instalá desde ese branch en un entorno limpio, para no pisar tu vLLM de producción.
Bajá los pesos desde el repo en Hugging Face (Zyphra/ZAYA1-8B).
Levantá el servidor de vLLM apuntando al modelo y testealo con una request simple de chat.

¿Preferís transformers? Mismo esquema, pero con el branch zaya1 del fork de transformers. Subís el fork, cargás el modelo, corrés un prompt de prueba y verificás que el tokenizer sea el del repo y no uno cualquiera. Ese detalle del tokenizer es el que rompe todo cuando alguien lo saltea.

¿Qué limitaciones y desafíos tiene ZAYA1-8B actualmente?

Buenos pesos, despliegue incómodo. Esa es la frase que resume el estado a junio de 2026. Cubrimos ese tema en detalle en procesamiento de código a escala.

Sin GGUF oficial: al no haber conversión a GGUF, no corre en Ollama ni en llama.cpp out of the box. Para mucha gente, eso es un freno de mano.
Forks obligatorios: dependés del vLLM o transformers de Zyphra. Si esos branches se desactualizan, vas a tener que mergear a mano.
Penalidad de AMD: según reportes, el stack AMD puede correr más lento que un equivalente NVIDIA bien optimizado, así que medí en tu hardware antes de prometer números.
Cuantizaciones no oficiales: hay versiones de la comunidad dando vueltas, pero sin el sello de Zyphra, andá con cuidado.

Errores comunes al usar ZAYA1-8B

Usar el vLLM o transformers estándar: el modelo no carga en las versiones del repo oficial. Tenés que instalar los branches de Zyphra, si no te tira error de arquitectura desconocida.
Calcular memoria solo por los 17 GB: con vLLM default la reserva trepa a ~48 GB. Si dimensionás la GPU por el peso en disco, te vas a quedar corto.
Esperar que ande en Ollama: sin GGUF oficial no hay import directo. Buscar un GGUF comunitario sin validarlo te puede dar resultados raros por un tokenizer mal mapeado.

Preguntas Frecuentes

¿Qué es ZAYA1-8B?

ZAYA1-8B es un modelo de reasoning open weights de Zyphra con arquitectura Mixture-of-Experts: 8.4B parámetros totales y ~760M activos por token. Salió el 6 de mayo de 2026 bajo Apache 2.0.

¿ZAYA1-8B funciona en GPU AMD o solo en MI300X?

Fue entrenado en AMD Instinct MI300X, pero corre tanto en AMD como en NVIDIA usando los forks de vLLM o transformers de Zyphra. La inferencia no está limitada a MI300X.

¿Cuánta memoria necesita ZAYA1-8B?

Los pesos pesan ~17 GB en disco. Cargado con vLLM y sus defaults, la reserva sube a unos ~48 GB por el overhead del runtime y el KV cache.

¿Se puede usar ZAYA1-8B en Ollama?

No de forma oficial. A junio de 2026 no existe un GGUF oficial, que es el formato que usan Ollama y llama.cpp. Hay que correrlo con vLLM o transformers desde los forks de Zyphra.

¿Qué licencia tiene ZAYA1-8B?

Apache 2.0. Eso te permite uso comercial, modificación y redistribución sin las restricciones que traen otras licencias de modelos “abiertos”.

Conclusión

ZAYA1-8B prueba dos cosas a la vez. Una, que se puede entrenar un modelo de razonamiento competitivo enteramente en AMD. Dos, que la densidad por parámetro ya es un campo de batalla real, con un modelo de ~760M activos peleándole en matemática a rivales mucho más pesados.

El asterisco es el despliegue. Sin GGUF oficial y con dependencia de forks custom, hoy no es plug-and-play. Si tenés hardware AMD o no te asusta compilar desde un branch, bajá los pesos y probalo: el upside en reasoning vale el laburo. Si necesitás algo andando esta misma noche con cero fricción, esperá a que la comunidad saque un GGUF estable o quedate con un modelo drop-in mientras tanto.

ZAYA1-8B: el modelo de reasoning entrenado en AMD