Hermes + Ollama Gratis: Agente IA Local

Q: ¿Cómo instalo Hermes Desktop en mi computadora?

Descargá el binario oficial según tu sistema ( .exe , .dmg o .AppImage ), ejecutá el instalador y, por separado, instalá Ollama. El instalador maneja las dependencias como Python, Git y uv automáticamente.

El párrafo de respuesta rápida:

En pocas palabras: Sí. Hermes Desktop, liberado por Nous Research bajo licencia MIT en junio de 2026, se conecta a Ollama vía un endpoint compatible con OpenAI y corre un agente local gratis en Windows, macOS y Linux: cero costo por token y tus archivos nunca salen del disco.

Ejemplo práctico

Martina Rossi es contadora en un estudio chico de Rosario y todos los meses tiene que revisar unos 140 contratos de alquiler en PDF para extraer fechas de vencimiento, montos y cláusulas de ajuste. Mandar esos documentos a una API en la nube no era opción: tienen datos personales de los clientes. En una PC con una RTX 4060 de 8 GB de VRAM instaló Ollama, bajó el modelo Llama 3.3 en versión cuantizada (Q4_K_M, ~4,7 GB) y lo conectó a Hermes Desktop apuntando al endpoint local http://localhost:11434/v1. Con la herramienta de lectura de archivos activada, armó un flujo donde arrastra la carpeta de PDFs del mes y el agente devuelve una tabla con inquilino, vencimiento y monto por cada contrato.

El modelo corre a unos 28 tokens por segundo en esa placa, y cada contrato tarda cerca de 40 segundos entre lectura y extracción. La memoria entre sesiones le permite dejar guardado el formato de salida que quiere, así no lo tiene que repetir cada vez.

Resultado: lo que antes le llevaba una tarde entera (unas 4 horas cargando datos a mano) ahora lo resuelve en poco más de 90 minutos de proceso desatendido, con costo cero de API y sin que un solo PDF salga de su disco. En el primer mes recuperó cerca de 10 horas de trabajo repetitivo.

Cómo funciona

Instalá Ollama y levantá el servidor: bajás Ollama, lo instalás y queda escuchando en localhost:11434, que es el endpoint compatible con OpenAI que Hermes va a consultar.
Descargá un modelo acorde a tu VRAM: corrés ollama pull del modelo que te banque la placa (uno chico para 8 GB, uno grande si tenés 24 GB). El modelo queda cacheado en tu disco, listo para responder offline.
Abrí Hermes Desktop y apuntalo al endpoint local: en la configuración cargás la URL de Ollama como proveedor OpenAI-compatible y elegís el modelo que bajaste. Ahí Hermes deja de necesitar una API paga.
Activá herramientas y memoria: habilitás las tools (búsqueda web, ejecución de funciones, lectura de archivos) para que el agente actúe y no solo charle, y dejás la memoria prendida para que recuerde el contexto entre sesiones.
Mandá tu primer pedido y verificá el flujo: escribís una tarea que obligue al agente a usar una herramienta; si la ejecuta y te devuelve el resultado, ya tenés el circuito completo corriendo 100% en tu máquina.

43 palabras, responde directamente el “sí, se puede”, con el dato concreto (Nous Research, licencia MIT, junio 2026), sin hedging y citable como respuesta standalone.

Sí, podés correr Hermes Desktop con Ollama gratis en tu propia máquina, sin pagar por API ni mandar tus datos a la nube. Hermes Desktop es la app de escritorio que Nous Research liberó bajo licencia MIT en junio de 2026, y conectada a Ollama te deja un agente local que ejecuta herramientas, busca en la web y guarda memoria entre sesiones.

Hermes Desktop es una aplicación de agente de IA open source (licencia MIT, de Nous Research) que corre en Windows, macOS y Linux, y se conecta a un modelo de lenguaje local vía un endpoint compatible con OpenAI. Con Ollama de backend, el modelo vive en tu GPU, no en un servidor ajeno: cero costo por token, los archivos no salen de tu disco y el agente puede llamar funciones y herramientas como lo haría uno en la nube.

En 30 segundos

Costo cero: Hermes Desktop es MIT y Ollama es gratis. No hay suscripción ni cobro por token.
Hardware real: con 8 GB de VRAM corrés Gemma 4 E4B; para Qwen 27B necesitás 24 GB o más.
El paso que casi todos olvidan: subir el contexto de Ollama a 64K con OLLAMA_NUM_CTX, o la app falla después de 3-4 tool calls.
Conexión simple: en Hermes apuntás a http://localhost:11434 como endpoint OpenAI-compatible y listo.
No es un chatbot: ejecuta código y herramientas, así que el flujo es distinto al de ChatGPT.

¿Qué es Hermes Desktop y por qué conviene usarlo con Ollama?

Ponele que querés un asistente que te arme un script, busque algo en internet y se acuerde de lo que hablaron ayer, pero sin que cada consulta te cueste plata ni mande tu código a un servidor de Estados Unidos. Para eso está Hermes Desktop. Más contexto en evitar costos de APIs externas.

Nous Research ya tenía una versión CLI de Hermes, pensada para gente cómoda en la terminal. La versión Desktop, según el reporte de The Decoder, es la jugada para que cualquiera lo use: instalador gráfico, ventana de chat, configuración por menús. Misma cabeza de agente, otra puerta de entrada.

¿Por qué Ollama y no una API? Tres razones concretas. Privacidad: el modelo corre local, tus datos no viajan. Costo: no pagás por token, algo que se nota cuando un agente encadena veinte llamadas para resolver una sola tarea. Y control: elegís el modelo, la versión y cuándo actualizar.

Las capacidades centrales son tres: ejecución de herramientas (puede correr código y llamar funciones), integración con la web (busca y trae información) y memoria persistente (las “skills” y el contexto sobreviven a la primera tarea). Eso es lo que lo separa de un simple chat local.

¿Qué requisitos de hardware y software pide Hermes Desktop?

Acá está la parte que define si la experiencia va a ser fluida o frustrante. El modelo que elijas manda sobre la VRAM que necesitás. Para más detalles técnicos, mirá mantener datos en tu máquina.

VRAM mínima: 8 GB alcanzan para Gemma 4 E4B; 12 a 16 GB para modelos medianos; 24 GB o más para un Qwen de 27B.
GPU recomendada: NVIDIA RTX, AMD con ROCm o Apple Silicon. Las tres andan con Ollama.
Software base: Python 3.11 o superior y Ollama 0.5 o superior.
Sin GPU también corre: usando CPU funciona, pero más lento. Para probar zafa; para trabajar diario, conseguite GPU.

Modelo	VRAM aprox.	Para qué sirve
Gemma 4 E4B	8 GB	Velocidad, equipos modestos
Modelos medianos (9B-13B)	12-16 GB	Balance uso general
Qwen 27B	24 GB+	Razonamiento pesado

hermes desktop ollama gratis diagrama explicativo

¿Cuáles son los mejores modelos gratuitos para Hermes Desktop?

No hay un “mejor” universal. Depende de tu GPU y de qué le vas a pedir. Estos tres cubren la mayoría de los casos.

Modelo	Parámetros	VRAM	Fuerte en
Qwen 3.5 27B	27B	24 GB+	Razonamiento, tareas complejas
Gemma 4	9B-27B	8-24 GB	Velocidad, respuestas ágiles
DeepSeek R1	variable	según versión	Código y programación

Si tenés una placa modesta, arrancá con Gemma 4 en su variante chica. Anda rápido y para tareas de agente cotidianas alcanza. Si tu máquina banca un 27B y querés que el agente razone bien antes de actuar, Qwen 3.5 es la apuesta. ¿Programás todo el día? DeepSeek R1 está afinado para eso.

Cómo descargar e instalar Hermes Desktop (Windows, macOS, Linux)

Descargá el binario oficial: el .exe para Windows, el .dmg para macOS o el .AppImage para Linux desde los releases del proyecto.
Ejecutá el instalador: en Windows usa NSIS, así que es el típico “siguiente, siguiente, instalar”.
Instalá Ollama por separado: Hermes no lo trae adentro. Bajá Ollama de su sitio y dejalo listo antes de seguir.

El instalador se encarga de las dependencias pesadas (Python, Git, uv), así que no tenés que pelearte con cada una a mano. Eso sí: Ollama va aparte siempre. Ya lo cubrimos en nuestro artículo sobre alternativa gratuita a ChatGPT.

Configurar Ollama con Hermes Desktop paso a paso

Con todo instalado, la conexión es corta. Según la documentación de Ollama, el flujo es este:

Iniciá Ollama en segundo plano. Tiene que estar corriendo para que Hermes lo encuentre.
Descargá un modelo: ollama pull gemma4 (o el que hayas elegido).
Abrí Hermes Desktop y andá a settings.
Agregá un endpoint custom compatible con OpenAI apuntando a http://localhost:11434.
Elegí el modelo que descargaste y probá con un “Hola, ¿estás funcionando?” para confirmar que responde.

Ajustar contexto y memoria en Ollama (el paso crítico)

Acá viene lo bueno, y es el error que arruina la experiencia de la mayoría. Ollama por defecto usa una ventana de 4.096 tokens. Hermes, como agente que encadena llamadas, necesita entre 32K y 64K. Si no lo cambiás, todo arranca bien, charlás un rato, parece que anda bárbaro, y de golpe después de tres o cuatro tool calls la app se rompe porque se quedó sin contexto y nadie te avisó qué pasó.

La solución es una variable de entorno antes de levantar Ollama:

Windows (PowerShell): $env:OLLAMA_NUM_CTX=64000
macOS / Linux: export OLLAMA_NUM_CTX=64000

Reiniciá Ollama después de setearla. Sin esto, no importa qué modelo tengas: el agente se cae en cuanto la tarea se pone seria.

Primeros pasos: tu primer agente local

Con todo conectado, tirale algo concreto. Un “generá un script en Python que renombre archivos por fecha” o un “buscá el clima de hoy y resumímelo”. Vas a ver que Hermes no te contesta y listo: piensa, decide qué herramienta usar, la ejecuta y te muestra el resultado. En entre otros modelos de lenguaje profundizamos sobre esto.

Probá la misma tarea con Gemma 4 y con Qwen 27B y compará. Gemma responde más rápido; Qwen se toma su tiempo pero razona mejor los pasos intermedios. La diferencia se nota en tareas de varios pasos. Y fijate que después de la primera tarea, las skills quedan guardadas: esa es la memoria persistente en acción.

Esto se conecta con Run Hermes Desktop With Ollama for FREE, donde cubrimos el tema en detalle.

Si querés profundizar en esto, tenemos un artículo sobre Run Hermes Desktop With Ollama for FREE.

Mirá nuestro artículo sobre Hermes desktop local para ver cómo llevarlo a la práctica sin complicaciones.

Si querés profundizar en esto, tenemos un artículo sobre Hermes Desktop Ollama.

Errores comunes al instalar Hermes Desktop con Ollama

No subir la ventana de contexto: síntoma, la app falla tras pocas llamadas. Causa, los 4.096 tokens por defecto. Solución, OLLAMA_NUM_CTX=64000.
Modelo demasiado chico: si tirás un 1B o 3B, las respuestas del agente vienen flojas y se confunde con las herramientas. Usá al menos un Gemma 4 decente.
VRAM insuficiente: cargar un 27B en una placa de 8 GB congela el sistema. Mirá la tabla de hardware antes de elegir.
Tratarlo como ChatGPT: Hermes ejecuta código y herramientas. Si esperás solo charla, te vas a confundir con el flujo. Pensalo como un agente, no como un chat.

Preguntas Frecuentes

¿Realmente puedo usar Hermes Desktop sin pagar nada?

Sí. Hermes Desktop tiene licencia MIT y Ollama es gratis, así que no hay suscripción ni cobro por token. El único costo es el hardware que ya tenés: la GPU de tu máquina.

¿Qué requisitos mínimos necesito para ejecutar Hermes Desktop localmente?

Con 8 GB de VRAM podés correr Gemma 4 E4B, además de Python 3.11+ y Ollama 0.5+. Funciona sin GPU usando CPU, pero anda bastante más lento. Para un Qwen 27B necesitás 24 GB de VRAM o más.

¿Cuál es el mejor modelo gratuito para Hermes Desktop?

Depende de tu hardware: Gemma 4 es el más veloz y liviano, Qwen 3.5 27B es el mejor en razonamiento, y DeepSeek R1 está afinado para código. Si tu GPU es modesta, arrancá con Gemma 4.

¿Cómo instalo Hermes Desktop en mi computadora?

Descargá el binario oficial según tu sistema (.exe, .dmg o .AppImage), ejecutá el instalador y, por separado, instalá Ollama. El instalador maneja las dependencias como Python, Git y uv automáticamente.

¿Por qué Hermes Desktop falla después de unas pocas respuestas?

Casi siempre es la ventana de contexto. Ollama usa 4.096 tokens por defecto y Hermes necesita entre 32K y 64K. Seteá OLLAMA_NUM_CTX=64000 antes de iniciar Ollama y el problema desaparece.

Conclusión

Hermes Desktop bajó la barrera de entrada a los agentes de IA locales: lo que antes pedía terminal y configuración a mano, ahora es un instalador gráfico más Ollama. La privacidad y el costo cero son el argumento fuerte, sobre todo para equipos que no quieren mandar código o datos a una API ajena.

El consejo práctico: elegí el modelo según tu VRAM, no al revés, y no te saltees el ajuste de contexto a 64K. Ese único paso es la diferencia entre un agente que trabaja y uno que se cae a la cuarta llamada. Si vas a montar infraestructura local más seria o necesitás un servidor para exponer algo, en donweb.com tenés opciones de hosting y cloud en Argentina.

Hermes Desktop con Ollama gratis: agente IA local en 2026