Hermes Desktop con Ollama gratis: agente IA local en 2026

Sí, podés correr Hermes Desktop con Ollama gratis en tu propia máquina, sin pagar por API ni mandar tus datos a la nube. Hermes Desktop es la app de escritorio que Nous Research liberó bajo licencia MIT en junio de 2026, y conectada a Ollama te deja un agente local que ejecuta herramientas, busca en la web y guarda memoria entre sesiones.

Hermes Desktop es una aplicación de agente de IA open source (licencia MIT, de Nous Research) que corre en Windows, macOS y Linux, y se conecta a un modelo de lenguaje local vía un endpoint compatible con OpenAI. Con Ollama de backend, el modelo vive en tu GPU, no en un servidor ajeno: cero costo por token, los archivos no salen de tu disco y el agente puede llamar funciones y herramientas como lo haría uno en la nube.

En 30 segundos

  • Costo cero: Hermes Desktop es MIT y Ollama es gratis. No hay suscripción ni cobro por token.
  • Hardware real: con 8 GB de VRAM corrés Gemma 4 E4B; para Qwen 27B necesitás 24 GB o más.
  • El paso que casi todos olvidan: subir el contexto de Ollama a 64K con OLLAMA_NUM_CTX, o la app falla después de 3-4 tool calls.
  • Conexión simple: en Hermes apuntás a http://localhost:11434 como endpoint OpenAI-compatible y listo.
  • No es un chatbot: ejecuta código y herramientas, así que el flujo es distinto al de ChatGPT.

¿Qué es Hermes Desktop y por qué conviene usarlo con Ollama?

Ponele que querés un asistente que te arme un script, busque algo en internet y se acuerde de lo que hablaron ayer, pero sin que cada consulta te cueste plata ni mande tu código a un servidor de Estados Unidos. Para eso está Hermes Desktop. Más contexto en evitar costos de APIs externas.

Nous Research ya tenía una versión CLI de Hermes, pensada para gente cómoda en la terminal. La versión Desktop, según el reporte de The Decoder, es la jugada para que cualquiera lo use: instalador gráfico, ventana de chat, configuración por menús. Misma cabeza de agente, otra puerta de entrada.

¿Por qué Ollama y no una API? Tres razones concretas. Privacidad: el modelo corre local, tus datos no viajan. Costo: no pagás por token, algo que se nota cuando un agente encadena veinte llamadas para resolver una sola tarea. Y control: elegís el modelo, la versión y cuándo actualizar.

Las capacidades centrales son tres: ejecución de herramientas (puede correr código y llamar funciones), integración con la web (busca y trae información) y memoria persistente (las “skills” y el contexto sobreviven a la primera tarea). Eso es lo que lo separa de un simple chat local.

¿Qué requisitos de hardware y software pide Hermes Desktop?

Acá está la parte que define si la experiencia va a ser fluida o frustrante. El modelo que elijas manda sobre la VRAM que necesitás. Para más detalles técnicos, mirá mantener datos en tu máquina.

  • VRAM mínima: 8 GB alcanzan para Gemma 4 E4B; 12 a 16 GB para modelos medianos; 24 GB o más para un Qwen de 27B.
  • GPU recomendada: NVIDIA RTX, AMD con ROCm o Apple Silicon. Las tres andan con Ollama.
  • Software base: Python 3.11 o superior y Ollama 0.5 o superior.
  • Sin GPU también corre: usando CPU funciona, pero más lento. Para probar zafa; para trabajar diario, conseguite GPU.
ModeloVRAM aprox.Para qué sirve
Gemma 4 E4B8 GBVelocidad, equipos modestos
Modelos medianos (9B-13B)12-16 GBBalance uso general
Qwen 27B24 GB+Razonamiento pesado
hermes desktop ollama gratis diagrama explicativo

¿Cuáles son los mejores modelos gratuitos para Hermes Desktop?

No hay un “mejor” universal. Depende de tu GPU y de qué le vas a pedir. Estos tres cubren la mayoría de los casos.

ModeloParámetrosVRAMFuerte en
Qwen 3.5 27B27B24 GB+Razonamiento, tareas complejas
Gemma 49B-27B8-24 GBVelocidad, respuestas ágiles
DeepSeek R1variablesegún versiónCódigo y programación

Si tenés una placa modesta, arrancá con Gemma 4 en su variante chica. Anda rápido y para tareas de agente cotidianas alcanza. Si tu máquina banca un 27B y querés que el agente razone bien antes de actuar, Qwen 3.5 es la apuesta. ¿Programás todo el día? DeepSeek R1 está afinado para eso.

Cómo descargar e instalar Hermes Desktop (Windows, macOS, Linux)

  • Descargá el binario oficial: el .exe para Windows, el .dmg para macOS o el .AppImage para Linux desde los releases del proyecto.
  • Ejecutá el instalador: en Windows usa NSIS, así que es el típico “siguiente, siguiente, instalar”.
  • Instalá Ollama por separado: Hermes no lo trae adentro. Bajá Ollama de su sitio y dejalo listo antes de seguir.

El instalador se encarga de las dependencias pesadas (Python, Git, uv), así que no tenés que pelearte con cada una a mano. Eso sí: Ollama va aparte siempre. Ya lo cubrimos en nuestro artículo sobre alternativa gratuita a ChatGPT.

Configurar Ollama con Hermes Desktop paso a paso

Con todo instalado, la conexión es corta. Según la documentación de Ollama, el flujo es este:

  1. Iniciá Ollama en segundo plano. Tiene que estar corriendo para que Hermes lo encuentre.
  2. Descargá un modelo: ollama pull gemma4 (o el que hayas elegido).
  3. Abrí Hermes Desktop y andá a settings.
  4. Agregá un endpoint custom compatible con OpenAI apuntando a http://localhost:11434.
  5. Elegí el modelo que descargaste y probá con un “Hola, ¿estás funcionando?” para confirmar que responde.

Ajustar contexto y memoria en Ollama (el paso crítico)

Acá viene lo bueno, y es el error que arruina la experiencia de la mayoría. Ollama por defecto usa una ventana de 4.096 tokens. Hermes, como agente que encadena llamadas, necesita entre 32K y 64K. Si no lo cambiás, todo arranca bien, charlás un rato, parece que anda bárbaro, y de golpe después de tres o cuatro tool calls la app se rompe porque se quedó sin contexto y nadie te avisó qué pasó.

La solución es una variable de entorno antes de levantar Ollama:

  • Windows (PowerShell): $env:OLLAMA_NUM_CTX=64000
  • macOS / Linux: export OLLAMA_NUM_CTX=64000

Reiniciá Ollama después de setearla. Sin esto, no importa qué modelo tengas: el agente se cae en cuanto la tarea se pone seria.

Primeros pasos: tu primer agente local

Con todo conectado, tirale algo concreto. Un “generá un script en Python que renombre archivos por fecha” o un “buscá el clima de hoy y resumímelo”. Vas a ver que Hermes no te contesta y listo: piensa, decide qué herramienta usar, la ejecuta y te muestra el resultado. En entre otros modelos de lenguaje profundizamos sobre esto.

Probá la misma tarea con Gemma 4 y con Qwen 27B y compará. Gemma responde más rápido; Qwen se toma su tiempo pero razona mejor los pasos intermedios. La diferencia se nota en tareas de varios pasos. Y fijate que después de la primera tarea, las skills quedan guardadas: esa es la memoria persistente en acción.

Errores comunes al instalar Hermes Desktop con Ollama

  • No subir la ventana de contexto: síntoma, la app falla tras pocas llamadas. Causa, los 4.096 tokens por defecto. Solución, OLLAMA_NUM_CTX=64000.
  • Modelo demasiado chico: si tirás un 1B o 3B, las respuestas del agente vienen flojas y se confunde con las herramientas. Usá al menos un Gemma 4 decente.
  • VRAM insuficiente: cargar un 27B en una placa de 8 GB congela el sistema. Mirá la tabla de hardware antes de elegir.
  • Tratarlo como ChatGPT: Hermes ejecuta código y herramientas. Si esperás solo charla, te vas a confundir con el flujo. Pensalo como un agente, no como un chat.

Preguntas Frecuentes

¿Realmente puedo usar Hermes Desktop sin pagar nada?

Sí. Hermes Desktop tiene licencia MIT y Ollama es gratis, así que no hay suscripción ni cobro por token. El único costo es el hardware que ya tenés: la GPU de tu máquina.

¿Qué requisitos mínimos necesito para ejecutar Hermes Desktop localmente?

Con 8 GB de VRAM podés correr Gemma 4 E4B, además de Python 3.11+ y Ollama 0.5+. Funciona sin GPU usando CPU, pero anda bastante más lento. Para un Qwen 27B necesitás 24 GB de VRAM o más.

¿Cuál es el mejor modelo gratuito para Hermes Desktop?

Depende de tu hardware: Gemma 4 es el más veloz y liviano, Qwen 3.5 27B es el mejor en razonamiento, y DeepSeek R1 está afinado para código. Si tu GPU es modesta, arrancá con Gemma 4.

¿Cómo instalo Hermes Desktop en mi computadora?

Descargá el binario oficial según tu sistema (.exe, .dmg o .AppImage), ejecutá el instalador y, por separado, instalá Ollama. El instalador maneja las dependencias como Python, Git y uv automáticamente.

¿Por qué Hermes Desktop falla después de unas pocas respuestas?

Casi siempre es la ventana de contexto. Ollama usa 4.096 tokens por defecto y Hermes necesita entre 32K y 64K. Seteá OLLAMA_NUM_CTX=64000 antes de iniciar Ollama y el problema desaparece.

Conclusión

Hermes Desktop bajó la barrera de entrada a los agentes de IA locales: lo que antes pedía terminal y configuración a mano, ahora es un instalador gráfico más Ollama. La privacidad y el costo cero son el argumento fuerte, sobre todo para equipos que no quieren mandar código o datos a una API ajena.

El consejo práctico: elegí el modelo según tu VRAM, no al revés, y no te saltees el ajuste de contexto a 64K. Ese único paso es la diferencia entre un agente que trabaja y uno que se cae a la cuarta llamada. Si vas a montar infraestructura local más seria o necesitás un servidor para exponer algo, en donweb.com tenés opciones de hosting y cloud en Argentina.

Fuentes

Desplazarse hacia arriba