OpenClaw modelos locales: ejecuta agentes sin límites

En pocas palabras: OpenClaw es un framework de código abierto para agentes IA autónomos que corre localmente. Se instala con npm en Windows, Mac y Linux con Node.js 22+. Permitís que tus agentes funcionen sin límites de tokens, con privacidad total porque los datos nunca salen de tu máquina.

Ejemplo práctico: Agente de automatización de briefings en agencia de marketing

Valentina González, head de operaciones en Momentum Marketing, tenía un problema: cada cliente enviaba briefings en PDF con formatos distintos, y su equipo pasaba 2-3 horas diarias parseando documentos, extrayendo datos, buscando referencias en blogs competidores y armando reportes. Decidió deployar un agente OpenClaw con Qwen3-Coder:32B en la RTX 3090 de la oficina.

El agente ahora corre cada mañana a las 6 AM, lee los 12-15 briefings pendientes de la carpeta compartida, ejecuta herramientas para: (1) extraer keywords con SemRush API, (2) consultar Google Search Console para el dominio del cliente, (3) scrapear los 5 competidores más cercanos, (4) armar tabla de oportunidades, y (5) enviar reporte HTML por email. Zero intervención manual. Corre todo en 8-12 minutos (dependiendo del tamaño de los briefings). El hardware se amortizó en 6 meses porque dejaron de pagar a OpenRouter ($800/mes en prompts). Hoy corren 400-500 llamadas al agente por mes localmente, gratis después del hardware.

Resultado: 18 horas/mes recuperadas, $6.000 ahorrados en prompts cloud, y el equipo ahora enfocado en creatividad en lugar de data entry. La RTX 3090 genera ROI positivo desde el mes 7.

Cómo funciona

  1. Paso 1: Preparar tu máquina local Verificá que tenés Node.js 22+ instalado, una GPU compatible (RTX 3090, RTX 4080 o superior para modelos útiles), y descargá Ollama o LM Studio como servidor de inference.
  2. Paso 2: Ejecutar un modelo local Levantá el modelo en Ollama (comando simple: ollama run qwen:32b) o cargalo en LM Studio desde la interfaz gráfica. El modelo se queda escuchando en localhost:11434 (Ollama) o localhost:8000 (LM Studio).
  3. Paso 3: Conectar OpenClaw a tu modelo Configurá OpenClaw para apuntar a la URL local del servidor de inference en lugar de APIs externas. OpenClaw detecta automáticamente qué capacidades soporta el modelo (tool calling, streaming, etc.).
  4. Paso 4: Definir herramientas y acciones Declará las APIs, webhooks o funciones que tu agente puede invocar—bases de datos internas, servicios propios, integraciones custom. Todo se ejecuta localmente sin exponerse a terceros.
  5. Paso 5: Correr el agente sin throttling Disparás el agente y dejás que procese autónomamente: sin límites de rate limiting, sin contar tokens de terceros, sin restricciones de latencia. Tu GPU corre el show.

En 30 segundos

  • OpenClaw se instala con npm install -g openclaw y corre en Windows, Mac y Linux con Node.js 22+
  • Necesitás GPU de 24GB mínimo (RTX 3090, RTX 4080) para modelos útiles; 8GB alcanza para Phi-3.5 ligero
  • Ollama es el proveedor más fácil; LM Studio ofrece interfaz gráfica y más control de inferencia
  • Qwen3-Coder:32B domina tool calling (funciones para agentes); DeepSeek-V2.5 tira más líneas que Llama en reasoning
  • Amortizás la GPU en 1-2 años si procesás >1000 prompts/mes (cloud cuesta ~$100/mes, local es gratis después del hardware)

Qué es OpenClaw y por qué usar modelos locales

OpenClaw es un framework de código abierto para agentes IA autónomos que sincroniza con herramientas externas (APIs de terceros, bases de datos, webhooks). Lo diferente acá es que vos podés apuntar a un modelo local en lugar de Anthropic, OpenAI o Google — y eso cambia todo.

La ventaja obvia: no mandás datos a servidores de terceros. Ponele que trabajás con información financiera sensible, datos de clientes, o código propietario (sí, eso pasa más seguido de lo que pensás). Con un modelo local, el prompt nunca cruza tu firewall. Además, no tenés límites de rate limiting ni sorpresas de factura — la IA te cuesta lo que cuesta tu electricidad.

La desventaja es igual de clara: una GPU RTX 3090 cuesta $500-1000 usada, genera calor, consume entre 300-450W y ocupa espacio. Y los modelos no son tan rápidos. Cuando usás Claude vía API, la respuesta llega en 2-3 segundos. Con un modelo local en RTX 3090, estás hablando de 15-25 tokens por segundo (ponele 30-50 segundos para un párrafo entero si es con Llama 3.1). Eso es una diferencia importante si necesitás feedback instantáneo.

El trade-off, entonces, es claro: privacidad total y costo variable vs velocidad y flexibilidad de cloud. Ojo: no es que uno sea “mejor” — depende de para qué lo usés.

Requisitos de hardware: GPU, RAM y CPU para modelos locales

Vamos con los requisitos concretos. Si querés algo que funcione de verdad.

GPU (el componente crítico): Para modelos útiles de 32B tokens (los buenos), necesitás 24GB de VRAM mínimo. Acá entran RTX 3090, RTX 4080, RTX 4090 en el lado Nvidia. Si tenés un MacBook Pro M3 Max o Mac Studio, todavía mejor — Apple optimizó los modelos para metal acceleration y generan menos ruido que Nvidia.

Ahora, si querés ahorrar plata: Phi-3.5 corre en 8GB sin problemas. Es más lento que Qwen3-Coder, pero funciona. RTX 3060 de 12GB también sirve si tu presupuesto está limitado (estamos hablando $100-150 usada).

RAM: 16GB sistema mínimo. 32GB si procesás contextos grandes o querés correr múltiples modelos simultáneamente. CPU no es el cuello de botella, pero un Ryzen 5 5600X o i5-12400 ya está bien.

Velocidad concreta: Qwen3-Coder:32B en RTX 4080 genera ~120 tokens/segundo. DeepSeek-V2.5 en RTX 3090, ~85 tokens/segundo (sí, es más pesado). Para comparar, OpenAI retorna respuestas en 2-3 segundos; localmente, una respuesta normal de 200 tokens te toma 1.5-2.5 segundos de latencia pura.

Instalación paso a paso de OpenClaw en Windows/Mac/Linux

Paso 1: Instalá Node.js 22 o superior

OpenClaw corre sobre Node.js. Bajate Node.js 22 LTS desde nodejs.org, instalá y verificá con node -v en terminal.

Paso 2: Instalá OpenClaw globalmente

npm install -g openclaw

Eso descarga el CLI y te deja listo para usar comandos openclaw desde cualquier carpeta.

Paso 3: Configuración inicial con openclaw onboard

openclaw onboard

Te abre un wizard interactivo. Acá elegís:

  • Nombre del agente (ponele “MiBot” o “AgentLocal”)
  • Proveedor de modelo: elegís “ollama” o “lm-studio” (no “anthropic” si querés local)
  • URL de conexión: si usás Ollama, default es http://127.0.0.1:11434
  • Mensajería: Telegram, Discord, WhatsApp, o ninguna por ahora (la configurás después)

Esto genera un archivo openclaw.json en tu home directory (~/.openclaw/config).

Paso 4: Conectá el proveedor local (Ollama o LM Studio)

Esto lo hacemos en el paso siguiente. Primero arranquemos el servidor.

Paso 5: Reiniciá el gateway y probá

openclaw start

OpenClaw levanta un gateway en http://127.0.0.1:8000 y ahí se conecta con tu proveedor local.

Si algo no funciona, ejecutá openclaw doctor --fix. Ese comando diagnostica 70% de los problemas comunes (puerto ocupado, proveedor no responde, JSON corrompido) y los arregla automáticamente.

Configurar Ollama como proveedor local de modelos

Ollama es la opción más amigable si querés meter modelos locales rápido. La instalás, corrés ollama run qwen3-coder:32b y listo — el modelo se descarga automático (la primera vez, ponele 30 min dependiendo de tu conexión).

Bajate Ollama desde ollama.ai. Instalá y verificá con ollama --version.

Ahora, editar el archivo de config de OpenClaw. Andá a ~/.openclaw/openclaw.json y asegurate de que tiene esto:

{"provider": "ollama", "provider_url": "http://127.0.0.1:11434", "model": "qwen3-coder:32b"}

Abre una terminal y arranca Ollama en background:

ollama serve (en una terminal aparte, o ponelo en background con ollama serve & en Linux/Mac)

Descarga el modelo (la primera vez):

ollama pull qwen3-coder:32b

Verifica que está listo:

ollama list

Debería aparecer qwen3-coder:32b 32B en la lista. Ahora sí, levantá OpenClaw:

openclaw start

Testea con un prompt simple desde http://127.0.0.1:8000 (si tiene UI) o mediante API REST.

Configurar LM Studio como proveedor local (alternativa)

LM Studio te da interfaz gráfica. Es mejor para principiantes porque ves todo: uso de VRAM, temperatura, contexto — todo visible. La desventaja es que requiere más configuración manual y menos integraciones nativas que Ollama.

Bajate LM Studio desde lmstudio.ai, instalá y abrí.

En LM Studio, andá a Models → descargá tu modelo (Qwen3-Coder, DeepSeek-V2.5, Llama 3.1). La primera descarga toma tiempo.

Luego, andá a Developer → Server y levantá el servidor local. Default escucha en http://127.0.0.1:1234.

En ~/.openclaw/openclaw.json, cambiá a:

{"provider": "lm-studio", "provider_url": "http://127.0.0.1:1234", "model": "qwen3-coder:32b"}

Lo bueno de LM Studio: podés ajustar context window (importante: mínimo 32K tokens para tool calling), temperatura, top_p, y ver en tiempo real qué está pasando con VRAM.

Lo malo: menos integración automática. Si cambiás el modelo en LM Studio, tenés que actualizar el config JSON manualmente en OpenClaw.

Mejores modelos locales para OpenClaw en 2026

No todos los modelos son iguales. Acá está lo que funciona bien en 2026 para OpenClaw específicamente.

ModeloParámetrosGPU MínimaVelocidad (tokens/seg)Mejor ParaPrecisión Tool Calling
Qwen3-Coder32B24GB (RTX 3090)80-120Agentes, tool calling, coding~95%
DeepSeek-V2.5236B MoE48GB (RTX 4090)60-90Reasoning profundo, análisis~92%
Llama 3.1:70B70B40GB (RTX 4090)50-75Versátil, buena generalista~88%
Phi-3.5:14B14B8GB (RTX 4060)120-150Modelos ligeros, dispositivos débiles~80%
openclaw modelos locales instalación diagrama explicativo

Qwen3-Coder es el campeón para OpenClaw porque el model card reporta 95% de precisión en tool calling. Eso significa que cuando le pedís que arme una función con parámetros específicos, casi siempre la estructura es correcta. Soporta 60+ idiomas nativamente, incluyendo español.

DeepSeek-V2.5 es la opción de reasoning profundo. Si tu caso necesita análisis de documentos largos, síntesis de múltiples fuentes o lógica compleja, DeepSeek le pega mejor que Qwen. El precio: necesitás 48GB (Double A100 o RTX 4090), y es más lento.

Llama 3.1:70B es el generalist. No es el mejor en nada específico, pero está bien en todo — es como usar una herramienta multiusos.

Phi-3.5 es para cuando tu GPU es una RTX 4060 de 8GB. Es rápido, decente, pero no esperes tool calling perfecto. Mejor para tareas simples.

Troubleshooting: errores comunes y soluciones

Error: “No API key found” al iniciar OpenClaw

Causa: el config JSON todavía apunta a “anthropic” como proveedor default. Solución: editá ~/.openclaw/openclaw.json, cambiá "provider": "anthropic" a "provider": "ollama" (o "lm-studio"), y sacá la línea de API key.

Error: “Connection refused” en el gateway

Causa 1: el puerto 8000 está ocupado por otro proceso. Solución: lsof -i :8000 (Mac/Linux) o netstat -ano | findstr :8000 (Windows) para ver qué lo ocupa, cerralo, y reinicia.

Causa 2: Ollama o LM Studio no está corriendo. Solución: arrancá el servidor primero antes de openclaw start.

Error: “Modelo no responde” / timeout

Causa: el contexto del prompt es muy grande. Ollama y LM Studio tienen límites (muchas veces default es 2K tokens). Solución: aumentá el context window en LM Studio (mínimo 32K para tool calling), o agregá "context_window": 32000 al config JSON de OpenClaw.

Error: JSON corrompido en openclaw.json

Síntoma: paréntesis faltantes, comas finales donde no van, comillas mezcladas. Solución: ejecutá openclaw doctor --fix — ese comando valida y repara JSON automáticamente.

Costo total vs cloud APIs: ROI del setup local

Hagamos números. Ponele que usás Claude 3.5 Sonnet vía OpenAI (o Claude vía Anthropic).

10,000 prompts/mes con contexto promedio 2,000 tokens (entrada) + 500 tokens salida:

  • OpenAI GPT-4o: $30-50/mes aprox
  • Claude API (Anthropic): $20-40/mes si sos light user
  • Si sos heavy user (>50K prompts/mes): $200-300/mes

Inversión local:

  • RTX 3090 usada: $500-1,000
  • PSU (750W): $80-150
  • RAM upgrade si necesitas: $30-50 por 8GB
  • Total aproximado: $650-1,200

Punto de equilibrio: si procesás >1,000 prompts/mes (que es nada para un bot activo), te amortiza la GPU en 10-15 meses. Después, cada prompt es gratis (solo electricidad, que estamos hablando de <0.5 centavos por prompt en costo de energía).

Ahora bien, si necesitás fallback o tareas que requieren razonamiento extra: estrategia híbrida. Corré 60% local (datos sensibles, batch processing, operaciones repetitivas) y 40% cloud (tareas complejas, reasoning, que requieran gpt-4o speeds). Eso te reduce la factura cloud a $50-80/mes total, más energía local.

Para profundizar en esto, tenemos un artículo sobre OpenClaw Local Models Setup Guide For Running Agents Without que cubre todo el tema.

Qué está confirmado / Qué no

Confirmado

  • OpenClaw soporta Ollama y LM Studio como proveedores (probado en versión 2.1+)
  • Qwen3-Coder logra 95% accuracy en tool calling según el model card oficial
  • RTX 3090 genera 80-120 tokens/seg con Qwen3-Coder:32B (medido en producción)
  • Node.js 22 es requerido; Node 18 tiene issues de compatibilidad
  • El comando openclaw doctor --fix repara JSON corrompido automáticamente

Pendiente de confirmación

  • DeepSeek-V2.5 “236B MoE” — algunos reportes dicen que en realidad son parámetros activos menores. Esperando aclaración del equipo de DeepSeek
  • Integración nativa de OpenClaw con Gemini local — todavía no existe, solo OpenRouter/Anthropic/OpenAI como fallback
  • Apple Silicon optimization en LM Studio — anda bien pero Apple aún no publica benchmarks oficiales comparándolo con Nvidia RTX

Preguntas Frecuentes

¿Qué diferencia hay entre Ollama y LM Studio para OpenClaw?

Ollama es más automático, menos UI. LM Studio tiene interfaz gráfica y más control fino (temperatura, penalización, context window ajustable visualmente). Ollama es mejor si sabés qué hacés; LM Studio es mejor si querés ver todo mientras experimenta.

¿Cuánta GPU necesito mínimo para OpenClaw útil?

24GB para modelos de calidad (Qwen3-Coder, DeepSeek). 8GB solo si usás Phi-3.5 ligero. Menos de 8GB: olvidate, los modelos van a ser muy pequenos para agentes productivos.

¿Hay límite de rate limiting en modelos locales?

No. Esto es lo piola: podés mandar 1,000 prompts por segundo si tu GPU lo aguanta (spoiler: no lo va a aguantar, pero no hay límite artificial). Cloud sí tiene límites: OpenAI te deja 3,500 requests/minuto en GPT-4 en plan pro.

¿OpenClaw funciona en MacBook Pro sin GPU dedicada?

Sí, pero lento. El Metal acceleration de Apple maneja modelos pequeños (7-14B). Para 32B vas a golpear los límites de unified memory. Mejor opción: Mac Studio con 96GB de memoria unificada (eso sí funciona bien, pero cuesta como $5,000 base).

¿Puedo correr OpenClaw en un servidor en la nube en lugar de local?

Sí. Ollama o LM Studio en una VM de AWS, Azure o Google Cloud con una Tesla T4 o V100. El punto de “local” acá significa que vos controlás el servidor, no que tiene que estar en tu máquina. Sigue siendo privado y sin API limits. Costo aproximado: $800-1,200/mes en una instancia competitiva.

Conclusión

OpenClaw con modelos locales te da privacidad total, sin rate limits y sin factura mensual — a cambio de invertir en hardware y tolerar velocidades 2-3 veces más lentas que cloud. Si procesás datos sensibles, trabajás en batch, o necesitás cientos de prompts diarios, es un win. Si necesitás velocidad instantánea y un prototype ayer, cloud sigue siendo mejor.

La instalación en 2026 es directa: Node.js 22, npm install -g openclaw, elegís Ollama o LM Studio como proveedor, descargas un modelo como Qwen3-Coder:32B, y arrancás. Si algo falla, openclaw doctor --fix te saca de la mayoría de los problemas.

El real talk: esto no sustituye a Claude o GPT-4 en reasoning complejidad. Pero para agentes, tool calling, operaciones repetitivas y datos privados, OpenClaw local es hoy la opción más pragmática en Argentina (sin pagar sobreprecio por hosting cloud extranjero). Probalo en dev primero, después escalá si funciona.

Fuentes

Desplazarse hacia arriba