Agentes IA locales: Hermes + Gemma 4 sin APIs

Q: ¿Cómo construyo un agente de IA local sin usar una API externa?

Instalás Ollama, corrés Gemma 4 con ollama run gemma4 y conectás Hermes Agent al endpoint local en http://localhost:11434 . Todo el procesamiento ocurre en tu máquina, sin enviar consultas a ningún servicio en la nube.

Podés armar un agente de IA local combinando Hermes Agent (de Nous Research) con Gemma 4, el modelo abierto de Google, corriendo todo sobre Ollama en tu propia máquina. Sin API externa, sin costo por token y con los datos siempre adentro de tu infraestructura. Los agentes de IA locales dejaron de ser un experimento de fin de semana.

Hermes Agent es un agente de IA autoaprendible creado por Nous Research que escribe sus propias habilidades después de resolver una tarea. Gemma 4 es la familia de modelos abiertos de Google bajo licencia Apache 2.0. Juntos, corriendo en local con Ollama, forman un sistema de agentes de IA locales que automatiza trabajo real sin mandar un solo dato a servidores de terceros.

En 30 segundos

Lanzamientos 2026: Hermes Agent salió en febrero; Gemma 4, en abril, con licencia Apache 2.0.
Hardware accesible: con la variante E4B necesitás cerca de 8 GB de VRAM. Corre en una Mac Mini M4 Pro o una RTX 4090.
Instalación en un comando: Ollama (v0.20.0 o superior) y ollama run gemma4. Listo.
Aprende solo: Hermes guarda cada habilidad nueva en memoria episódica y trae más de 70 skills preinstalados.
Privacidad y costo: cero pago por token y los datos nunca salen de tu equipo (clave para RGPD).

¿Qué es Hermes Agent y por qué combinarlo con Gemma 4?

Hermes es un agente, no un modelo. Esa distinción es la que confunde a casi todos al arrancar. El modelo es el cerebro que predice texto; el agente es lo que decide qué herramientas usar, en qué orden, y qué hacer con el resultado.

Nous Research lo lanzó en febrero de 2026 con una idea que lo separa del resto: cuando Hermes resuelve un problema nuevo, escribe un archivo de habilidad reutilizable en Markdown y lo guarda. La próxima vez que aparezca algo parecido, no improvisa, levanta el skill que ya redactó. Es el único agente popular que hoy escribe sus propias habilidades de forma automática (si es que eso cuenta como aprendizaje real, y para muchos casos prácticos sí lo es). Tema relacionado: seguridad recomendada para agentes locales.

¿Y por qué Gemma 4 abajo y no otro modelo? Por la licencia. Gemma 4 es de Google, salió en abril de 2026 y viene bajo Apache 2.0, lo que significa que podés usarlo en producción, en una empresa, sin pagar regalías ni pedir permiso. Según la documentación oficial de Gemma, las variantes van desde versiones livianas pensadas para correr en el borde hasta modelos de 31B para cargas más pesadas. La combinación Hermes + Gemma 4 te da un agente capaz y un motor que podés mover a donde quieras.

¿Qué ventajas reales tienen los agentes de IA locales?

Ponele que trabajás en un estudio contable y querés que una IA clasifique facturas. Si usás un servicio cloud, cada factura (con CUIT, montos y nombres de clientes) viaja a un servidor que no controlás. En local, nada de eso sale de tu oficina.

Privacidad total: los datos se procesan en tu equipo. Cero transferencia a terceros, cero preguntas incómodas en una auditoría.
Costo plano: no hay facturación por token. Pagás el hardware una vez y después corrés lo que quieras.
Sin latencia de red: la respuesta no depende de tu conexión ni del estado de un proveedor externo.
Cumplimiento RGPD más simple: si los datos personales nunca salen de tu infraestructura, evitás buena parte del riesgo regulatorio.
Control real: elegís la versión del modelo y nadie te la cambia de un día para el otro.

Factor	IA local (Hermes + Gemma 4)	IA en la nube
Costo a 3 años	Hardware una vez, después gratis	Pago mensual por uso, crece con el volumen
Privacidad	Datos nunca salen del equipo	Datos viajan al proveedor
Latencia	Sin red de por medio	Depende de la conexión
Cumplimiento RGPD	Más fácil de garantizar	Requiere contratos y consentimiento
Actualizaciones	Las gestionás vos	Automáticas, sin esfuerzo
Capacidad bruta	Limitada por tu hardware	Mayor (modelos enormes a demanda)

agentes de ia locales diagrama explicativo

No todo es a favor de lo local. Si necesitás la capacidad bruta de un modelo gigante para una tarea puntual, la nube sigue ganando. La gracia está en saber cuándo usar cada cosa, y a eso llegamos más abajo.

¿Qué hardware necesitás para correr Hermes con Gemma 4?

Acá viene lo bueno: no hace falta un servidor con cuatro GPU. La variante que elijas define todo.

Gemma 4 E4B: ronda los 8 GB de VRAM. Es la puerta de entrada y la que baja Ollama por defecto.
Gemma 4 26B: cerca de 20 GB. Ya pide una GPU seria o memoria unificada generosa.
Gemma 4 31B: alrededor de 24 GB. Para cuando querés la máxima calidad en local.

Dispositivo	Variante recomendada	VRAM / Memoria	Para qué sirve
Mac Mini M4 Pro	E4B o 26B	24 GB unificados	Asistente personal y automatización de oficina
RTX 4090	26B o 31B	24 GB	Cargas pesadas y respuestas más finas
Notebook con GPU de 8 GB	E4B	8 GB	Pruebas y tareas livianas
Raspberry Pi con OpenClaw	E2B	Limitada	Experimentación y edge (lento, pero anda)

Sí, leíste bien lo de la Raspberry Pi. No esperes velocidad de rayo, pero como prueba de concepto para edge computing zafa. La Mac Mini M4 Pro con 24 GB de memoria unificada es, hoy, el punto dulce para la mayoría: silenciosa, eficiente y suficiente para correr E4B con holgura. Profundizamos sobre esto en nuestra guía sobre ChatGPT.

¿Cómo instalar Ollama y correr Gemma 4 paso a paso?

Esta es la parte que la gente cree difícil y termina siendo la más fácil. Tres pasos.

Descargá Ollama desde ollama.com. Asegurate de tener la versión 0.20.0 o superior, porque las anteriores no soportan Gemma 4.
Corré el modelo: abrí la terminal y tipeá ollama run gemma4. Eso baja la variante E4B por defecto y la deja lista para chatear.
Accedé por API: Ollama levanta un endpoint local en http://localhost:11434. Desde ahí Hermes (o tu propio script) le manda las consultas.

¿Querés una variante distinta? Cambiás el tag: ollama run gemma4:26b para la de 26B, por ejemplo. Todo es gratis y open source bajo Apache 2.0. No hay clave de API que pedir ni tarjeta que cargar.

¿Cómo aprende Hermes y crea sus propias habilidades?

Este es el corazón de la cosa. El bucle de aprendizaje de Hermes funciona así: recibe una tarea, la resuelve con las herramientas que tiene integradas, y si la resolución fue útil, escribe un archivo de skill en Markdown que describe cómo lo hizo. Ese skill se guarda en una memoria episódica (una base de datos vectorial), y la próxima vez que aparezca una tarea parecida, Hermes recupera ese conocimiento en lugar de empezar de cero, lo aplica, lo refina si hace falta, y así el agente que usás hoy es un poco mejor que el de ayer sin que vos toques nada.

Arranca con más de 70 skills preinstalados, así que no partís de un agente en blanco. Y trae un dashboard visual para revisar qué aprendió, sin tocar código. Eso último importa más de lo que parece: te conviene mirar las habilidades que escribe solo, porque a veces “aprende” un atajo que no es el que vos querías. Complementá con cómo razonan estos modelos locales.

IA local o IA en la nube: ¿cuándo conviene cada una?

La respuesta honesta es: depende de la tarea, y casi siempre el mejor esquema es híbrido.

Para datos sensibles (historiales médicos, nóminas, información de clientes) la decisión es obvia: local. Si mandás datos personales a un servicio cloud sin consentimiento explícito, te exponés a multas serias bajo RGPD, y ese riesgo no compensa el ahorro de armar la infra propia. Para análisis pesados que corrés una vez por mes y necesitan un modelo enorme, la nube tiene sentido. Si vas a montar un chatbot corporativo o procesar documentos de forma continua, alojarlo en un servidor propio o un VPS en Argentina con donweb.com te da control y previsibilidad de costos que el pago por token no ofrece.

Lo interesante es que con Hermes podés combinar las dos cosas: lo sensible se queda local, lo que necesita músculo bruto se delega. No es todo o nada.

¿Para qué sirve un agente local en la oficina?

Salgamos de la teoría. Estos son usos concretos que ya se están armando con agentes de IA locales:

Gestión de correo: que el agente lea los mails entrantes, los clasifique y prepare respuestas para los rutinarios.
Extracción de datos de PDF: sacar cifras y campos de facturas o contratos sin enviar un solo documento a terceros.
Análisis de datos sensibles: cruzar información de empleados o números financieros dentro de la empresa, sin fugas.
Chatbot interno sin costo de hosting externo: atención a empleados o clientes corriendo sobre tu propio hardware.

Un detalle práctico: Hermes conecta Telegram, Discord, Slack y WhatsApp desde un único gateway. O sea, armás el agente una vez y lo atás a los canales que ya usa tu equipo, sin reescribir nada para cada plataforma. Relacionado: herramientas que Google ofrece para IA.

Esto lo detallamos en I Built A Local AI Agent With Hermes Agent Gemma 4.

Esto se conecta con local AI agent Hermes, donde cubrimos el tema en detalle.

Errores comunes al armar tu primer agente local

Bajar la variante más grande sin tener VRAM: tirar el 31B en una notebook de 8 GB termina en swap, lentitud y frustración. Empezá por E4B y subí si el hardware da.
Usar una versión vieja de Ollama: si ollama run gemma4 te da error, casi siempre es porque tenés una versión anterior a la 0.20.0. Actualizá primero.
Mandar datos sensibles a la nube “solo para probar”: esa prueba rápida puede ser una violación de RGPD. Si el dato es personal, probá en local desde el día uno.
No revisar las skills que Hermes escribe solo: el agente aprende rápido, a veces aprende mal. Mirá el dashboard cada tanto y borrá lo que no sirve.

Preguntas Frecuentes

¿Cómo construyo un agente de IA local sin usar una API externa?

Instalás Ollama, corrés Gemma 4 con ollama run gemma4 y conectás Hermes Agent al endpoint local en http://localhost:11434. Todo el procesamiento ocurre en tu máquina, sin enviar consultas a ningún servicio en la nube.

¿Qué hardware mínimo necesito para Hermes con Gemma 4?

Para la variante E4B necesitás cerca de 8 GB de VRAM. La 26B pide unos 20 GB y la 31B alrededor de 24 GB. Una Mac Mini M4 Pro con 24 GB de memoria unificada o una RTX 4090 cubren la mayoría de los casos.

¿Puedo correr Gemma 4 en una Mac Mini o en una notebook común?

Sí. La Mac Mini M4 Pro con 24 GB unificados corre E4B con holgura e incluso la 26B. Una notebook con GPU de 8 GB sirve para E4B en tareas livianas. Hasta una Raspberry Pi con OpenClaw corre la E2B, aunque lenta.

¿Cuánto cuesta usar Gemma 4 con Ollama?

Cero en software. Gemma 4 es open source bajo licencia Apache 2.0 y Ollama es gratuito. El único costo es el hardware donde lo corrés, que pagás una sola vez. No hay facturación por token ni suscripción mensual.

¿Cómo aprende Hermes nuevas habilidades?

Cuando resuelve una tarea, Hermes escribe un archivo de skill en Markdown y lo guarda en una memoria episódica basada en vectores. La próxima vez que enfrenta algo parecido, recupera ese skill en lugar de empezar de cero. Viene con más de 70 habilidades preinstaladas.

Conclusión

Lo que cambió en 2026 es el umbral de entrada. Hasta hace poco, correr un agente capaz en tu propia máquina pedía hardware caro y mucha paciencia. Con Gemma 4 bajo Apache 2.0, Ollama en un comando y Hermes escribiendo sus propias habilidades, hoy armás un agente de IA local en una tarde y en una Mac Mini.

¿Por dónde empezar? Instalá Ollama, corré ollama run gemma4, y probá Hermes con una tarea chica y sin riesgo, como clasificar tus propios mails. Si la privacidad o el costo por token te venían frenando, esta es la combinación que saca esas dos excusas de la mesa. Para lo sensible, local. Para lo que necesita músculo, la nube. Y entre las dos, vos decidís.

Agentes de IA locales con Hermes y Gemma 4 en 2026