GLM 5.2: cómo usarlo, instalarlo y para qué sirve

GLM 5.2 es el modelo de lenguaje que Zhipu AI (bajo su marca Z.ai) publicó el 13 de junio de 2026, con 744.000 millones de parámetros, ventana de contexto de 1 millón de tokens y licencia MIT. Lo podés usar por API en chat.z.ai, descargar los pesos de Hugging Face o correrlo en tu propia máquina.

GLM 5.2 es un modelo de inteligencia artificial con arquitectura Mixture of Experts (MoE) desarrollado por la empresa china Zhipu AI. Tiene 744.000 millones de parámetros totales, de los cuales unos 44.000 millones se activan durante la inferencia, una ventana de contexto de 1 millón de tokens y se distribuye con pesos abiertos bajo licencia MIT. Eso último es lo importante: podés bajarlo y ejecutarlo en hardware propio sin pagar licencia.

En 30 segundos

  • Qué es: modelo MoE de Zhipu AI (Z.ai), 744B de parámetros, 44B activos, lanzado el 13/06/2026.
  • Contexto: 1 millón de tokens de entrada y hasta 131k de salida (vs 200K de GLM-5).
  • Cómo accederlo: API en chat.z.ai (USD 1 / USD 3,20 por millón de tokens entrada/salida), pesos en Hugging Face, OpenRouter o Vertex AI.
  • Local: corre con Ollama, llama.cpp o vLLM; necesitás 128GB de RAM como piso práctico.
  • Para qué brilla: tareas agénticas largas, código y refactoring. El propio fabricante reporta 77,8% en SWE-bench Verified.

¿De dónde sale GLM 5.2 y por qué importa?

Zhipu AI no es la nueva de la cuadra. Vienen empujando la familia GLM hace varias generaciones, y GLM 5.2 es la actualización de mitad de ciclo sobre GLM-5 (no un salto de versión mayor, sino un refinamiento con bastante músculo).

El posicionamiento es claro: pelear de igual a igual con Claude Opus 4.6 y GPT-5.3, pero con pesos abiertos. Esa es la diferencia que mueve la aguja. Mientras los modelos de frontera cerrados solo te dejan tocarlos por API, acá podés bajar el modelo entero y meterlo en tu infraestructura.

Hay un detalle geopolítico que conviene nombrar sin dramatizar: buena parte del entrenamiento y la inferencia de Zhipu corre sobre hardware Huawei, no NVIDIA. Para el usuario final cambia poco, pero explica por qué el ecosistema de soporte local todavía está más verde que el de modelos entrenados en stacks NVIDIA. Para más detalles técnicos, mirá soluciones de seguridad a nivel empresarial.

¿Qué tiene de nuevo frente a GLM-5?

El cambio que más se nota es el contexto. Pasar de 200K a 1 millón de tokens no es cosmético: te deja meter un codebase mediano entero, o miles de páginas de documentación, sin trocear nada.

CaracterísticaGLM-5GLM 5.2
LanzamientoGeneración anterior13/06/2026
Contexto (entrada)200K tokens1M tokens
Salida máximamenor131k tokens
Parámetros totales~744B744B (44B activos)
Expertos (MoE)256 expertos
Modos de razonamientoúnicodual (Alto y Máximo)
LicenciaabiertaMIT
glm 5.2 diagrama explicativo

Los dos “thinking modes” (Alto y Máximo) te dejan regular cuánto razona el modelo antes de responder. El modo Máximo piensa más y consume más tokens. Ojo con eso: si lo dejás siempre en Máximo, la factura sube rápido.

La velocidad reportada ronda los 17 a 19 tokens por segundo. No es un rayo, pero para un modelo de este tamaño con razonamiento profundo, zafa.

¿Dónde usar GLM 5.2? Las cuatro vías de acceso

No hay una sola puerta de entrada. Según tu caso, conviene una u otra.

1. Z.ai / chat.z.ai (la vía rápida)

Es la opción para probar sin instalar nada. Tenés interfaz web y API compatible con el formato OpenAI. El precio que figura en la documentación oficial de Z.ai es de USD 1 por millón de tokens de entrada y USD 3,20 por millón de salida. Los usuarios del GLM Coding Plan (planes Lite, Pro, Max y Team) tuvieron acceso prioritario.

2. Hugging Face (los pesos completos)

Si querés el modelo de verdad para correrlo vos, los pesos están en el repositorio oficial de Zhipu en Hugging Face bajo licencia MIT. Esto es lo que habilita el self-hosting. Es gratis bajar el modelo; lo que cuesta es el hardware para moverlo.

3. OpenRouter (terceros)

Si ya laburás con OpenRouter para enrutar entre varios modelos, GLM 5.2 aparece ahí como un endpoint más. Útil para comparar respuestas contra otros modelos sin cambiar tu código.

4. Vertex AI y NVIDIA NIM (empresas)

Para equipos que ya viven en Google Cloud o en el stack de NVIDIA, el modelo está disponible como servicio gestionado. Pagás más por token, pero te ahorrás mantener la infraestructura. Ya lo cubrimos antes en alternativas populares como ChatGPT.

¿Cómo instalar GLM 5.2 en tu máquina?

Acá viene lo bueno. Hay tres caminos según cuánto fierro tengas y cuánto quieras pelearte con la configuración.

Opción A: Ollama (la más simple)

Si nunca corriste un modelo local, empezá por acá. Instalás Ollama, bajás el modelo y listo.

curl -fsSL https://ollama.com/install.sh | sh
ollama pull glm-5.2 # verificá el tag exacto en el repo oficial
ollama run glm-5.2

El endpoint te queda en http://localhost:11434/v1, compatible con el SDK de OpenAI. Cambiás la base URL en tu código y nada más.

Opción B: llama.cpp (control fino)

Para máquinas con menos RAM, la versión cuantizada de llama.cpp pesa alrededor de 241GB y te deja ajustar la cuantización al hardware que tengas. Compilás con soporte CUDA, bajás el archivo cuantizado y levantás el servidor.

./server -m glm-5.2-Q4.gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99

Opción C: vLLM (máximo rendimiento)

Si tenés varias GPU y querés servir el modelo a un equipo, vLLM es la apuesta. Requiere un build reciente (nightly al momento de escribir esto) y configuración multi-GPU. Es la ruta con más curva de aprendizaje, pero la que te da throughput de producción. Apidog tiene una guía paso a paso para correrlo local que conviene tener al lado.

¿Requisitos mínimos para que esto sea usable? 128GB de RAM como piso práctico, y una GPU NVIDIA de 24GB o más, o una Mac con chip de la serie M y bastante memoria unificada. Te puede servir nuestra cobertura de como explicamos en nuestra guía sobre modelos de lenguaje.

Si no querés (o no podés) tener un server con 128GB de RAM prendido en tu oficina, una alternativa es levantar la inferencia en un VPS o cloud con GPU. Para infraestructura alojada en Argentina podés mirar donweb.com y dimensionar según el tamaño de cuantización que vayas a usar.

¿Para qué sirve GLM 5.2 en concreto?

El modelo está pensado para trabajo agéntico, no para tirar una frase y listo. Su fuerte son las tareas largas que requieren planificar, ejecutar y corregir.

Ponele que le pedís que migre un codebase de Python 2 a 3, o que documente una API REST entera leyendo el código fuente. Según los datos de Zhipu, GLM 5.2 puede encadenar alrededor de 1.700 pasos de agente autónomo y sostener loops de planificación, ejecución y prueba de hasta 8 horas sin que un humano intervenga. Tomalo con pinzas (8 horas sin supervisión es algo que conviene verificar en tu propio flujo antes de confiarle nada serio), pero la dirección es esa.

  • Ingeniería de software compleja: refactoring de codebases grandes y desarrollo de APIs REST con muchas dependencias.
  • Agentes autónomos: tool calling encadenado para tareas que se resuelven en muchos pasos.
  • Documentación extensa: el contexto de 1M tokens le deja “leer” repos enteros antes de escribir.
  • Debugging profundo: análisis de logs y rastreo de errores a lo largo de archivos múltiples.

¿Cómo se compara con Claude y GPT?

La pregunta del millón. Y la respuesta corta es: GLM 5.2 compite en calidad y gana por goleada en precio, pero con asteriscos.

ModeloContextoPrecio (entrada / salida por 1M)SWE-bench Verified
GLM 5.21M tokensUSD 1 / USD 3,2077,8% (según Zhipu)
Claude Opus 4.6amplio~USD 15 / USD 45
GPT-5.3ampliosegún OpenAI

El 77,8% en SWE-bench Verified, de ser correcto, sería el mayor entre los modelos de pesos abiertos. Zhipu también reporta una tasa de alucinación del 34%, contra el 42% que atribuyen a Claude Sonnet. Acá va la salvedad de siempre: estos benchmarks salen del propio fabricante. ¿Alguien los verificó de forma independiente? Al momento de escribir esto, todavía no del todo.

La cuenta es simple igual. Si GLM 5.2 te da el 90% de la calidad de Opus 4.6 a un quince por ciento del precio, para muchos workflows la ecuación cierra sola. El trade-off real está en la latencia y la madurez del tooling, no en la inteligencia bruta. En propuestas de Google en IA profundizamos sobre esto.

Requisitos y limitaciones antes de largarte

Seamos honestos sobre lo que todavía no está pulido.

  • El self-hosting completo es pesado: los pesos sin cuantizar ocupan cerca de 1,51TB. No es algo que tirás en una notebook.
  • No es plug-and-play: la API es cómoda, pero correrlo local requiere configurar drivers, cuantización y servidor. Subís el modelo, lo probás en local, anda bárbaro, lo mandás a producción y de golpe el throughput no rinde porque la cuantización era demasiado agresiva, las dependencias de vLLM cambiaron y nadie documentó el tag exacto del modelo.
  • Los thinking modes cuestan tokens: el modo Máximo razona más, y eso se paga (literal, en la factura de la API).
  • Mercado muy nuevo: al publicarse, había menos de 48 horas de uso comunitario real. Los reportes de la comunidad recién empiezan a aparecer.

Para producción seria, validá con tus propios casos. Los benchmarks son una guía, no una garantía.

Errores comunes al empezar con GLM 5.2

  • Querer correr los pesos completos sin el fierro: mucha gente baja el modelo full y se choca con que no entra en su GPU. Solución: arrancá con una versión cuantizada (Q4) en llama.cpp antes de pensar en el modelo completo.
  • Dejar el modo Máximo siempre prendido: consume tokens de más en tareas simples. Reservá el razonamiento profundo para los problemas que de verdad lo necesitan y usá el modo Alto para el resto.
  • Confiar en el tag del modelo sin verificar: los nombres en Ollama y Hugging Face cambian. Si un pull falla, andá al repo oficial de zai-org y copiá el identificador exacto en vez de adivinar.
  • Asumir que 1M de contexto es gratis: meter un millón de tokens de entrada en cada llamada infla el costo y la latencia. Usá el contexto largo cuando aporta, no por default.

Preguntas Frecuentes

¿Qué es GLM 5.2 y para qué sirve?

GLM 5.2 es un modelo de lenguaje de pesos abiertos de Zhipu AI (Z.ai), lanzado el 13 de junio de 2026, con 744B de parámetros y 1M de contexto. Sirve sobre todo para tareas agénticas largas: programación, refactoring, debugging y agentes autónomos con tool calling.

¿Cómo descargo e instalo GLM 5.2?

Bajás los pesos del repositorio oficial de Zhipu en Hugging Face (zai-org) bajo licencia MIT. Para correrlo local, lo más simple es Ollama; para más control, llama.cpp con cuantización; y para producción multi-GPU, vLLM. Necesitás 128GB de RAM como piso práctico.

¿Cuál es la diferencia entre GLM-5 y GLM 5.2?

La diferencia principal es el contexto: GLM 5.2 sube de 200K a 1 millón de tokens. Además agrega modos de razonamiento dual (Alto y Máximo), 256 expertos en su arquitectura MoE y licencia MIT explícita. Mantiene los 744B de parámetros.

¿Cuánto cuesta usar GLM 5.2?

Por API en Z.ai cuesta USD 1 por millón de tokens de entrada y USD 3,20 por millón de salida. Descargar los pesos de Hugging Face es gratis bajo licencia MIT; ahí el costo está en el hardware para ejecutarlo.

¿Puedo ejecutar GLM 5.2 en mi computadora?

Sí, con una versión cuantizada y suficiente memoria. El piso práctico son 128GB de RAM y una GPU NVIDIA de 24GB o una Mac con chip M. Los pesos completos sin cuantizar ocupan unos 1,51TB, así que para una máquina personal conviene la ruta cuantizada con llama.cpp.

Conclusión

GLM 5.2 mueve la conversación de los modelos abiertos hacia adelante. Un modelo que pelea contra Opus y GPT en calidad, con 1M de contexto, licencia MIT y un precio de API que es una fracción del de los cerrados, no es poca cosa para cualquiera que arme productos con IA.

¿Qué hacer ahora? Si solo querés probarlo, andá a chat.z.ai y tirale tus casos reales. Si te interesa el self-hosting, arrancá con una cuantización en Ollama antes de comprometerte con los pesos completos. Y antes de mandar nada a producción, corré tus propios tests: los benchmarks del fabricante son prometedores, pero la validación con tu carga real es la que manda. El modelo es nuevo (junio de 2026), así que esperá que el tooling madure en las próximas semanas.

Fuentes

Desplazarse hacia arriba