Si venís siguiendo el tema de los agentes autónomos, hay novedad concreta: Hermes Agent ahora corre con Qwen 3.5 gratis, el nuevo modelo abierto de Alibaba, y lo podés montar en tu propia máquina sin pagar API. Nous Research sumó soporte para Qwen 3.5 y para Nemotron en su Agent OS, así que armás un agente que ejecuta tareas reales pagando solo la luz y el servidor.
Hermes Agent es el framework de agentes autónomos de Nous Research, agnóstico respecto al modelo, que conserva memoria entre sesiones y ejecuta acciones reales (mandar emails, consultar bases de datos, hacer reservas) en vez de solo responder texto. Qwen 3.5 es el modelo abierto de Alibaba lanzado en febrero de 2026, con arquitectura Mixture of Experts y soporte multilingüe nativo, que se integra como motor de razonamiento del agente.
En 30 segundos
- Qué cambió: Hermes Agent OS sumó soporte oficial para Qwen 3.5 y Nemotron, ambos gratis en su versión local.
- El modelo: Qwen 3.5 es un MoE de 397B parámetros con 17B activos, lanzado por Alibaba en febrero de 2026.
- El costo: en local solo pagás servidor y electricidad. Las versiones chicas corren en un VPS de USD 5/mes.
- La licencia: Apache 2.0, así que lo podés usar en proyectos comerciales.
- El límite: las versiones de 4B y 9B flaquean en razonamiento largo. Para multimodal pesado necesitás la 397B y una GPU seria.
¿Qué es Hermes Agent y cómo funciona?
Pensá en la diferencia entre pedirle algo a un chatbot y delegarle algo a un empleado. ChatGPT te contesta y se olvida. Un agente de verdad arranca una tarea, la sigue paso a paso y vuelve cuando terminó.
Hermes Agent es lo segundo. Nous Research lo construyó como un sistema que toma un objetivo, lo descompone en pasos, ejecuta acciones contra herramientas externas (una API, tu base de datos, un cliente de mail) y guarda lo que aprendió para la próxima sesión. Esa memoria que se conserva entre sesiones es la diferencia que importa: el agente no parte de cero cada vez que lo invocás. Tema relacionado: en temas de seguridad.
Lo interesante es que es agnóstico respecto al modelo. Le podés enchufar el cerebro que quieras. Y ahí entra la novedad.
Qwen 3.5: el nuevo modelo de Alibaba para agentes
Alibaba presentó Qwen 3.5 en febrero de 2026. Según el anuncio recogido por Infobae, la versión insignia es un Mixture of Experts de 397B parámetros totales con 17B activos por inferencia (de ahí el nombre 397B-A17B). La gracia del MoE: tenés un modelo enorme en capacidad pero solo se “prende” una fracción en cada respuesta, así que sale más barato de correr.
Los datos que vale la pena retener, según el análisis de EcosistemaStartup:
- Multimodal nativo: procesa texto, imagen y video sin módulos pegados aparte.
- 201 idiomas: incluye español, lo cual no es menor si trabajás contenido en castellano.
- Velocidad: los reportes hablan de hasta 19x más rápido que Qwen 3-Max en contexto largo.
- Eficiencia: alrededor de 60% más barato de operar que la generación anterior.
Tomá los números de velocidad con pinzas: el benchmark de los 19x es del propio fabricante. Habría que ver pruebas independientes antes de tatuárselo. Pero la tendencia de fondo (modelos más chicos y más eficientes ganándole a los gigantes) la viene marcando todo el sector en 2026.
Por qué Qwen 3.5 es ideal para usar Hermes Agent gratis
Un agente necesita una cosa que un chatbot no: tool calling. O sea, la capacidad de decir “llamá a esta función con estos parámetros” en un formato que tu código pueda parsear. Sin eso, no hay agente que valga.
Qwen 3.5 trae tool calling integrado. Esa es la razón técnica por la que encaja tan bien con Hermes Agent. Sumale que es open source bajo Apache 2.0 y que las versiones chicas corren en local con Ollama, y tenés la receta de un agente funcional sin tarjeta de crédito de por medio. Ya lo cubrimos antes en nuestra guía sobre ChatGPT.
¿Y frente a otros modelos gratuitos como Gemma o las variantes de Llama? La ventaja de Qwen 3.5 acá es el soporte multilingüe serio y el tool calling pulido. Para un agente que tiene que entender instrucciones en español rioplatense y después ejecutar acciones, no es un detalle menor.
Requisitos mínimos y cómo instalarlo en local
La parte buena: no necesitás una bestia. Para uso ligero zafás con un VPS de USD 5/mes (1 vCPU, 1 GB de RAM) corriendo las versiones chicas del modelo. Si querés algo en serio para trabajar, conseguite un servidor con más RAM o una GPU. Para hosting y VPS en Argentina podés mirar donweb.com.
Sobre el sistema: corre en Linux (Ubuntu 20.04 o superior), en macOS, o en Windows con WSL2. Los pasos, a grandes rasgos:
- Instalá Ollama: es el runtime que va a servir el modelo en local.
- Descargá Qwen 3.5: arrancá con una versión mediana si tenés con qué; la chica para probar.
- Configurá Hermes Agent: apuntá el endpoint del agente al servidor local de Ollama.
- Probá una tarea simple: antes de delegarle algo crítico, dale algo chico y mirá qué hace.
La instalación en sí toma un par de minutos. Lo que te va a comer tiempo es la descarga del modelo y, sobre todo, el ajuste fino de los prompts del agente. Esa parte nadie te la regala.
¿Para qué lo usan las empresas?
Ponele que tenés un área de facturación que cada fin de mes hace lo mismo: juntar datos, armar el reporte, mandarlo. Un agente como Hermes hace ese circuito solo. Casos concretos donde lo usan:
- Atención al cliente multi-agente: un agente clasifica el ticket, otro lo resuelve o lo escala.
- Procesamiento de pagos y facturación: el agente consulta, valida y genera el comprobante.
- Reportes financieros: levanta datos de varias fuentes y arma el resumen sin que nadie copie y pegue.
- Gestión de inventario: monitorea stock y dispara la reposición.
El movimiento de fondo es claro: pasar de chatbots pasivos a sistemas que ejecutan. Los pronósticos para 2026 ponen a los agentes autónomos como una de las tendencias centrales del año, y la estandarización con el Model Context Protocol de Anthropic está ayudando a que estos agentes hablen con cualquier herramienta sin reinventar la rueda cada vez.
¿Cuánto cuesta de verdad frente a la IA propietaria?
Acá viene lo bueno. La cuenta cambia bastante según uses API propietaria o modelo local. Te armo el escenario para 10.000 llamadas al mes, con números de referencia (los costos de API varían según el plan y el tamaño de cada llamada):
| Opción | Modelo | Costo aproximado / mes | Notas |
|---|---|---|---|
| Hermes + Qwen 3.5 local | Qwen 3.5 (open source) | USD 5 a 50 | Solo servidor y electricidad |
| API propietaria gama media | Tipo GPT-4 class | Variable, escala con tokens | Pagás por cada 1K tokens |
| API premium | Tipo Claude gama alta | USD 3 a 15 por 1M tokens | Mejor calidad, más caro a volumen |

El punto es que con uso intensivo, el modelo local se paga solo rápido. Eso sí: la API propietaria te ahorra la parte de mantener infraestructura, que también es plata y tiempo. No todo es el ticket del modelo.
Limitaciones y cuándo conviene otra cosa
Seamos honestos. Qwen 3.5 en sus tamaños chicos (4B, 9B) se complica con razonamiento largo en cadenas de agente muy profundas. Si tu tarea encadena veinte pasos con decisiones complejas, las versiones livianas se pierden.
¿Cuándo saltar a otra cosa? Si necesitás multimodal avanzado o multilingüe pesado, vas a querer la 397B, y eso pide GPU de verdad. Si buscás otra opción gratuita, Hermes Agent también soporta Nemotron (gratis en el portal de Nous Research, según su documentación) y hay alternativas como MiniMax dando vueltas. Probá un par y quedate con el que mejor responda a tu caso, no con el que tenga el benchmark más lindo.
Errores comunes al armar el agente
Cosas que pasan de verdad cuando arrancás con esto:
Tenemos más detalles en nuestro artículo sobre Hermes Agent Free Adds N2 And Qwen 3.5 To Agent OS.
- Elegir el modelo más grande “por las dudas”: terminás con un servidor caro corriendo lento para tareas que una versión chica resolvía igual. Empezá por abajo y subí si hace falta.
- Saltearse la memoria persistente: mucha gente prueba Hermes como si fuera un chatbot y no aprovecha lo único que lo hace agente. Configurá la persistencia desde el día uno.
- No poner límites a las acciones: un agente con permiso para ejecutar cualquier cosa contra producción es un problema esperando a pasar. Definí qué herramientas puede tocar y cuáles no.
- Confiar en el benchmark del fabricante: probá el modelo con tus propias tareas antes de decidir. El 19x más rápido puede no aplicar a tu caso.
Preguntas Frecuentes
¿Qué es Hermes Agent y para qué sirve?
Hermes Agent es el framework de agentes autónomos de Nous Research que ejecuta tareas reales y guarda memoria entre sesiones. Sirve para automatizar circuitos completos: facturación, atención al cliente, reportes o gestión de datos, en vez de solo generar texto como un chatbot. Más contexto en en el portfolio de Google.
¿Cómo instalo Hermes Agent con Qwen 3.5 sin pagar?
Instalás Ollama en Linux, macOS o Windows con WSL2, descargás el modelo Qwen 3.5 y apuntás el endpoint de Hermes Agent a tu servidor local. El software es gratis y Qwen 3.5 es open source bajo Apache 2.0, así que solo pagás el servidor donde lo corras.
¿Puedo ejecutar Hermes Agent en mi propia computadora?
Sí. Las versiones chicas de Qwen 3.5 (4B y 9B) corren en equipos modestos, incluyendo Mac con chips M1 o M2 y un VPS de USD 5/mes. Para las versiones grandes o multimodales pesadas vas a necesitar una GPU dedicada.
¿Cuánto cuesta usar Hermes Agent con Qwen 3.5?
En local el costo es solo el del servidor y la electricidad, desde unos USD 5 al mes para uso ligero. No hay cargo por token ni licencia, porque Qwen 3.5 usa licencia Apache 2.0 que permite uso comercial.
¿En qué se diferencia Qwen 3.5 de otros modelos para agentes?
Qwen 3.5 trae tool calling integrado y soporte para 201 idiomas, incluido el español, lo que lo hace cómodo para agentes que ejecutan acciones. Frente a Gemma o Llama, su ventaja es la combinación de multimodalidad nativa y eficiencia del Mixture of Experts.
Conclusión
Lo que cambió es simple de resumir: hoy podés armar un agente autónomo que ejecuta tareas reales sin pagar API, juntando Hermes Agent con Qwen 3.5 gratis. La barrera de entrada se corrió fuerte hacia abajo, y con un VPS de USD 5 ya estás jugando.
¿Qué hacer con esto? Si tenés algún proceso repetitivo que hoy hace una persona copiando datos de un lado a otro, montá una prueba chica. Arrancá con la versión liviana del modelo, definí bien qué puede tocar el agente y medí con tus propias tareas antes de escalar. La tecnología ya está; lo que falta es que alguien en tu equipo le dedique una tarde a probarla.
