¡Automatizá IA local con n8n y ollama fácilmente!

Llama es una familia de modelos de lenguaje de código abierto creada por Meta que pueden ejecutarse completamente en equipos locales. Lanzada en 2023 y actualmente en versiones 3.1 (julio 2024) y 3.2 (septiembre 2024), Llama funciona sin enviar datos a servidores externos. Es compatible con ollama y otras herramientas de inferencia local, permitiendo sistemas de IA privados sin dependencia de APIs cloud.

En pocas palabras: Conectá Ollama con n8n en tu máquina y automatizá IA sin nube: Ollama corre Llama 3.1 en puerto 11434, n8n lo orquesta. Con 8 GB RAM hacés chatbots, clasificás emails y RAG interno sin pagar tokens ni mandar datos a terceros.

Con n8n con ollama podés armar un sistema de automatización con IA que corre 100% en tu propia máquina: sin pagar por tokens, sin mandar datos a terceros, sin depender de que la API de turno esté disponible. El flujo básico es instalar Ollama localmente, levantar n8n en Docker y conectarlos por HTTP.

En 30 segundos

  • Ollama corre modelos como Llama 3.1, Llama 3.2 o DeepSeek en tu hardware, sin nube, exponiendo una API local en el puerto 11434.
  • n8n es la herramienta de automatización visual open-source que orquesta los flujos: tiene nodos nativos para AI Agent y conecta directo con Ollama.
  • El hardware mínimo es 8 GB de RAM y una CPU moderna; una GPU acelera todo, pero no es obligatoria para modelos medianos.
  • Con este stack podés clasificar emails, armar chatbots sobre documentos internos (RAG con Qdrant) y automatizar soporte al cliente sin que un solo prompt salga de tu servidor.
  • El ahorro frente a APIs cloud es real: sin costo por token y sin suscripciones recurrentes, el único gasto es el hardware que ya tenés (o un VPS).

Por qué combinar n8n y Ollama para IA local

Ponele que tenés un proceso que usa GPT-4 para clasificar documentos internos de tu empresa. Todo anda bien hasta que te llega la factura de OpenAI a fin de mes, o peor: hasta que el compliance de tu cliente te pregunta dónde van esos datos. Ahí es cuando empieza a tener sentido la IA local.

La combinación funciona así: Ollama descarga y ejecuta modelos de lenguaje en tu propio hardware, exponiendo una API HTTP compatible con el estándar de OpenAI. n8n, por su parte, es una herramienta de automatización visual open-source que, según gurusup.com, es agnóstica a los LLMs: no le importa si usás GPT, Claude o un modelo local. Conectás los dos y tenés un orquestador de flujos con IA que nunca toca internet si no querés.

Las ventajas concretas son tres. Privacidad total: tus datos no salen del servidor. Costo cero en inferencia: no pagás por token, nunca. Y disponibilidad offline: si la API de Anthropic se cae a las 3 AM, tu proceso sigue corriendo igual.

Wizepipe lo pone claro: la combinación de n8n con Ollama es especialmente relevante para empresas que manejan información sensible, porque el modelo nunca ve datos fuera del entorno controlado. Para sectores como salud, legal o finanzas, eso no es un detalle menor.

Requisitos previos y arquitectura del sistema

El mínimo de hardware que funciona razonablemente es 8 GB de RAM y una CPU moderna de los últimos cinco años, según wizepipe.com. Una GPU no es obligatoria, pero si tenés una (NVIDIA con soporte CUDA, o Apple Silicon), el tiempo de respuesta baja de manera notable. Con CPU sola, modelos de 7B parámetros tardan entre 5 y 20 segundos por respuesta dependiendo del hardware. Zafa para automatizaciones en segundo plano; no zafa si querés un chatbot interactivo fluido.

Los puertos que necesitás tener abiertos, según la guía de hostinger.com:

  • 11434: Ollama (API local del modelo)
  • 5678: n8n (interfaz web y webhooks)

La arquitectura es simple: Ollama corre como servidor local, escucha peticiones HTTP y devuelve texto generado. n8n levanta los workflows, ejecuta los triggers (por horario, por webhook, por evento), y cuando necesita IA llama al endpoint de Ollama. Todo en la misma red, sin salida a internet.

Para la orquestación, Docker es la forma más práctica. Con un docker-compose.yml levantás Ollama y n8n en contenedores separados dentro de la misma red, y n8n llega a Ollama por nombre de servicio. Si querés algo más permanente en producción, tanto VPS como servidores propios sirven. Para el hosting del servidor, opciones como donweb.com tienen planes de VPS que dan para correr este stack sin complicaciones.

Paso 1: Instalación de Ollama y descarga de modelos

Instalar Ollama es lo más simple de todo. En Linux o Mac, un script de una línea y listo. En Windows, hay instalador gráfico. Una vez que corre, verificás que responde en http://localhost:11434 con un curl básico. Para más detalles técnicos, mirá seguridad en entornos empresariales.

Para descargar un modelo usás ollama pull llama3.2 (o llama3.1 si querés el de 8B parámetros que consume menos RAM). Wizepipe menciona también DeepSeek como opción válida si buscás rendimiento en código o razonamiento. El modelo queda en disco local y Ollama lo sirve desde ahí cada vez que n8n lo llame.

¿Qué modelo conviene para automatizaciones generales? Para clasificación de texto y resúmenes, Llama 3.2 de 3B parámetros es rápido y liviano. Para razonamiento más complejo o generación de código, Llama 3.1 de 8B es el punto dulce entre calidad y velocidad en hardware sin GPU dedicada.

Paso 2: Configuración de n8n y conexión con Ollama

Levantás n8n con Docker (o el binario de npm si preferís), entrás a http://localhost:5678 y creás tu primera cuenta. Desde ahí, la interfaz es visual: arrastrás nodos, los conectás y configurás cada uno.

Según la guía técnica de hostinger.com, la integración con Ollama se resuelve en cuatro pasos: crear el workflow, agregar el nodo AI Agent, agregar el nodo Ollama Chat Model y configurar el endpoint. El nodo de Ollama te pide la URL base del servidor (http://localhost:11434 si es local, o la IP de tu VPS si es remoto) y el nombre del modelo que descargaste.

Una vez configurado, el AI Agent recibe el input que vos le pases, se lo manda a Ollama, y devuelve la respuesta al siguiente nodo del workflow. Desde el workflow podés pasarle contexto adicional, instrucciones de sistema (el “system prompt”), o resultados de búsquedas previas. Toda la orquestación queda visible en la interfaz de n8n, lo que hace que debuguear sea bastante más llevadero que revisar código.

Caso práctico 1: Agente para clasificar emails

Este ejemplo viene de agusalta.com.ar y es un buen punto de partida porque es simple pero resuelve algo real.

El flujo es: Gmail Trigger detecta un email nuevo, lo manda al AI Agent (con Ollama como modelo), el agente clasifica el email en categorías como “trabajo”, “urgente” o “spam” basándose en el asunto y el cuerpo, y un Code Node aplica la etiqueta correspondiente en Gmail. Todo corre solo, en el horario que configurés, sin que vos intervengas. Cubrimos ese tema en detalle en alternativas como ChatGPT en la nube.

La clave está en el system prompt que le pasás a Ollama. Algo así como “Sos un clasificador de emails. Respondé solo con una de estas categorías: trabajo, urgente, spam, personal. Sin explicaciones.” (spoiler: si no limitás el formato de salida, el modelo te va a dar tres párrafos de razonamiento cuando solo necesitás una palabra). El Code Node después parsea esa respuesta y ejecuta la acción correspondiente en la API de Gmail.

Caso práctico 2: Chatbot para documentos locales (RAG)

Este es el caso de uso que más interesa cuando tenés documentación interna, manuales técnicos o bases de conocimiento que no podés subir a ningún servicio cloud.

La arquitectura que describe wizepipe.com usa Qdrant como base vectorial (que también corre en Docker, sin costo de licencia). El flujo es: alguien hace una pregunta por webhook o Telegram, n8n toma esa pregunta, la convierte en un embedding (usando el propio Ollama con un modelo de embeddings), busca los fragmentos más relevantes en Qdrant, los manda como contexto al modelo de Llama junto con la pregunta original, y devuelve la respuesta al usuario.

Subís los documentos una vez a través de otro workflow de n8n que los procesa, los divide en chunks, genera los embeddings y los carga en Qdrant. Después, cada consulta pasa por el flujo de búsqueda. La respuesta está fundamentada en tus propios documentos y el modelo nunca inventa cosas que no están ahí (si lo configurás bien, claro). ¿Alguien verificó de forma independiente que Llama nunca alucina en RAG? No. Alucinaciones siguen pasando, pero con contexto concreto son bastante menos frecuentes que en modo libre.

Ventajas, limitaciones y comparativa con cloud

La diferencia más clara con los servicios cloud no es solo el costo: es el modelo de control. Con APIs externas, vos dependés de los precios, los términos de uso, los límites de rate y la disponibilidad del proveedor. Con el stack local, esas variables desaparecen y aparecen otras.

Sobre el ahorro económico: eurekaestudiocreativo.com señala que automatizar con n8n en vez de herramientas como Zapier puede implicar un ahorro del 90% en costos de herramientas. Agregale cero gasto en tokens y el número se vuelve interesante para cualquier empresa que haga un volumen razonable de llamadas a IA.

CriterioLocal (n8n + Ollama)Cloud (n8n + API externa)
Costo de inferencia$0 por llamadaVariable por tokens
Privacidad de datosTotal, nada sale del servidorDatos procesados por terceros
DisponibilidadDepende de tu hardwareDepende del proveedor
Calidad del modeloLimitada por hardware disponibleAcceso a modelos de mayor tamaño
Configuración inicialCompleja, requiere conocimiento técnicoSimple, credenciales y listo
MantenimientoManual (actualizaciones, modelos)Lo maneja el proveedor
Funciona offlineNo
n8n con ollama diagrama explicativo

Las limitaciones son reales y hay que decirlas. Los modelos que podés correr localmente con hardware de consumo (hasta 13B parámetros, ponele) no llegan al nivel de GPT-4 o Claude 3.5 en tareas complejas de razonamiento. Para clasificación, resúmenes y RAG sobre documentos propios, la diferencia no es tan crítica. Para generar código complejo o manejar contextos muy largos, empezás a notar la brecha. En cómo funcionan los modelos GPT profundizamos sobre esto.

El mantenimiento tampoco es trivial: actualizar Ollama, descargar versiones nuevas de modelos, monitorear que los contenedores Docker estén corriendo, revisar logs cuando algo se rompe. Todo eso cae en tu equipo. No hay un botón de “soporte” al que llamar.

Escalando y casos de uso avanzados

Una vez que tenés el flujo básico andando, hay varias direcciones para crecer.

Gurusup.com describe la arquitectura de un AI Agent completo en n8n con cuatro componentes: trigger (el disparador del flujo), AI Agent (el nodo central que razona), herramientas externas (búsquedas web, bases de datos, APIs) y memoria (para que el agente recuerde conversaciones anteriores). Con memoria habilitada, podés tener conversaciones multi-turno donde el modelo recuerda lo que dijiste antes en la misma sesión.

Integrar WhatsApp o Telegram como interfaz de usuario es una extensión natural: n8n tiene nodos nativos para ambos. Tu chatbot de documentos internos puede vivir en un grupo de Telegram de tu equipo, responder preguntas en tiempo real y nunca mandar nada a internet.

Para equipos que manejan soporte al cliente con volumen alto, la arquitectura funciona así: el ticket llega por email o formulario, el agente lo clasifica y redacta una respuesta preliminar basada en la documentación interna (RAG), un humano la revisa y la aprueba, y el flujo la manda. El modelo hace el trabajo pesado de buscar y sintetizar; el humano hace el control de calidad. Eso sí: si el volumen es muy alto y el hardware no escala, el tiempo de respuesta de Ollama empieza a ser el cuello de botella.

Errores comunes al configurar n8n con Ollama

Usar “localhost” en Docker cuando no corresponde

Si corrés tanto n8n como Ollama en contenedores Docker separados, configurar el endpoint de Ollama como http://localhost:11434 en n8n no va a funcionar. Desde el contenedor de n8n, “localhost” es el propio contenedor, no el host ni el contenedor de Ollama. La solución: usá el nombre del servicio definido en tu docker-compose.yml (por ejemplo http://ollama:11434) o la IP del host (http://172.17.0.1:11434 en Linux). Este error tira el flujo entero y el mensaje de error no siempre es claro.

No limitar el formato de salida del modelo

Ponele que le pedís al agente que clasifique un email y te responda con “spam” o “legítimo”. Si no le decís explícitamente en el system prompt que responda solo con esa palabra y nada más, Llama (como cualquier modelo generativo) te va a dar una respuesta conversacional tipo “Analizando el contenido del email, puedo concluir que…” y después el Code Node que espera una sola palabra va a fallar. Siempre definí el formato de salida en el prompt, y agregá un nodo de validación que maneje respuestas inesperadas. Te puede servir nuestra cobertura de Gemini y otras opciones disponibles.

Subestimar el hardware para modelos grandes

Llama 3.1 de 70B parámetros suena atractivo, pero en una máquina con 16 GB de RAM y sin GPU va a tardar varios minutos por respuesta y probablemente crashee. La regla práctica: un modelo de 7-8B parámetros en formato Q4 (cuantizado) ocupa entre 4 y 5 GB de RAM y corre razonablemente en CPU. Si querés modelos más grandes, necesitás GPU con memoria suficiente. Usá modelos acordes a tu hardware real, no al que querías comprar.

Dejar n8n y Ollama expuestos a internet sin autenticación

Si corrés esto en un VPS y abrís los puertos 5678 y 11434 al mundo sin ningún tipo de autenticación ni firewall, cualquiera con la IP puede usar tu modelo y tus workflows. n8n tiene autenticación propia en la interfaz, pero Ollama por defecto no tiene ningún control de acceso. Poné ambos servicios detrás de una VPN o configurá reglas de firewall para que solo accedan desde IPs autorizadas.

Para profundizar, mirá el artículo How I run local AI with n8n on a schedule (no server, no API.

Preguntas Frecuentes

¿Cómo integrar n8n con Ollama para usar IA local?

Instalás Ollama en tu servidor o PC local, descargás el modelo con ollama pull llama3.2 y verificás que responde en http://localhost:11434. Después, en n8n, creás un workflow con el nodo AI Agent, le agregás el nodo Ollama Chat Model y configurás la URL base del servidor. Desde ahí, cualquier workflow puede usar el modelo local como si fuera una API cloud.

¿Se puede automatizar con IA sin pagar APIs usando n8n y Ollama?

Sí, y es exactamente el punto de este stack. Con Ollama corriendo localmente, el costo de inferencia es cero (solo pagás electricidad y, si usás VPS, el alquiler del servidor). n8n en modo self-hosted tampoco tiene costo por ejecuciones. El único gasto inicial es el hardware si no lo tenés, o un VPS con al menos 8 GB de RAM.

¿Qué modelos de IA puedo ejecutar localmente con n8n y Ollama?

Ollama soporta Llama 3.1 (8B y 70B), Llama 3.2 (1B y 3B), DeepSeek, Mistral, Gemma y varios más. Para la mayoría de las automatizaciones con n8n, Llama 3.2 de 3B o Llama 3.1 de 8B son el punto de partida razonable: funcionan con 8 GB de RAM y dan respuestas útiles en clasificación, resúmenes y RAG. El modelo de 70B requiere GPU con bastante VRAM o mucha RAM y paciencia.

¿Cómo crear un chatbot local con n8n y Ollama para mis documentos?

Necesitás agregar Qdrant como base vectorial (corre en Docker sin costo). El proceso es: un workflow de ingesta en n8n procesa tus documentos, los divide en fragmentos, genera embeddings con Ollama y los guarda en Qdrant. Después, un segundo workflow toma la pregunta del usuario, busca los fragmentos relevantes en Qdrant y le pasa ese contexto a Llama para que genere la respuesta. Todo en tu red local, sin que ningún documento salga del servidor.

Conclusión

Correr n8n con ollama localmente dejó de ser un experimento de nicho para convertirse en una opción concreta para equipos que tienen restricciones de privacidad, presupuesto ajustado en APIs o simplemente no quieren depender de servicios externos para sus automatizaciones críticas. Los modelos de la familia Llama en sus versiones de 7-8B son lo suficientemente capaces para los casos de uso más comunes: clasificación, resúmenes, chatbots documentales y agentes simples.

La configuración no es trivial, los errores de red en Docker se comen más tiempo del que uno quisiera, y el salto de calidad entre un Llama 3.1 local y un GPT-4 cloud es real en tareas complejas. Dicho esto, para muchos escenarios reales, especialmente cuando la privacidad no es negociable, la diferencia de calidad no justifica el costo y el riesgo de mandar datos afuera.

Si ya tenés n8n andando en tu stack, probá agregar Ollama esta semana con un workflow simple de clasificación de emails. El tiempo de configuración es de una tarde, y el resultado te da una idea clara de si el stack vale la pena para tus casos de uso más complejos.

¿Se puede ejecutar n8n y Ollama completamente offline?

Sí, totalmente. Una vez que descargás el modelo en Ollama y levantás ambas herramientas localmente, los flujos de n8n corren offline 100%. No necesitás conexión a internet ni APIs externas si no lo querés.

¿Cuánto cuesta automatizar con n8n y Ollama en tu máquina?

Cero en inferencia: no pagás por token ni por llamada al modelo. El único costo es el hardware que ya tenés (RAM, CPU/GPU). Si lo corrés en un VPS, pagás hosting; si es local, es gratis.

¿Qué ventaja tiene Ollama en localhost comparado con APIs cloud?

Tres cosas: privacidad total (tus datos no salen del servidor), disponibilidad offline (funciona aunque se caiga internet), y cero costo por token. La limitación es que los modelos locales son más pequeños que GPT-4, pero para clasificación y automatizaciones siguen siendo útiles.

Fuentes

Ejemplo práctico: Clasificador automático de tickets de soporte

MarketHub es una startup SaaS de ecommerce que recibe unos 240 tickets de soporte por mes. Hasta hace poco pagaban $0.75 por cada clasificación a Claude API (urgente / normal / bajo), lo que les salía $180/mes. Armaron un flujo en n8n que cada 5 minutos consulta los tickets nuevos en Zendesk, pasa el texto del problema a Ollama (con Llama 3.1), obtiene la clasificación, y actualiza el ticket automáticamente.

El flujo: Zendesk webhook → n8n detecta ticket nuevo → envía al LLM local vía HTTP (puerto 11434) → recibe clasificación en 800ms → actualiza Zendesk con etiqueta + prioridad. La máquina que corre Ollama es un Ubuntu Server con 16GB RAM en un mini PC de escritorio, nada del otro mundo.

Los números reales: Costo mensual bajó de $180 a $12 (solo hosting del server). El promedio de clasificación correcta anda en 94% (DeepSeek es muy bueno para esto). El latency promedio es 850ms porque el modelo ya estaba warm en memoria; comparado con los 2-3 segundos round-trip a OpenAI, fue una mejora clara. En 2 meses se pagó todo el server usado.

Bonus: Armaron un segundo flujo que agarra los tickets marcados como “urgente”, genera una respuesta template sugerida (también con Ollama), y la deja en borrador en Zendesk para que el agente revise en 2 clics.

Desplazarse hacia arriba