Ejecutar LLM localmente en 2026: la guía de hardware

En pocas palabras: Correr LLMs de última generación en tu propia máquina es posible desde 2026 con Ollama y llama.cpp: un modelo de 7B necesita apenas 8GB de VRAM y para 70B+ hacen falta 48GB o más. Los datos nunca salen de tu hardware.

Ejecutar LLM localmente significa correr modelos de lenguaje como Qwen, Llama o DeepSeek en tu propia máquina, sin mandar datos a la nube. En 2026 alcanza con una placa de 8GB de VRAM para modelos chicos, y herramientas como Ollama lo resuelven en dos comandos. Jamesob documentó en GitHub una guía para llevarlo al extremo con hardware de homelab.

Ejecutar LLM localmente es correr un modelo de inteligencia artificial generativa directamente en tu computadora o servidor propio, usando la CPU y la GPU del equipo en vez de una API en la nube. Lo popularizaron proyectos open source como Ollama, LM Studio y Jan, que descargan modelos de Hugging Face y los ejecutan sobre motores como llama.cpp o vLLM. La ventaja central: los datos nunca salen de tu hardware.

En 30 segundos

  • Hardware mínimo real: un modelo de 7B parámetros corre con 8GB de VRAM; para 70B+ necesitás 48GB o más.
  • La herramienta dominante es Ollama: CLI, API compatible con OpenAI y servidor en localhost:11434, todo basado en llama.cpp.
  • El setup documentado de Jamesob: 4x RTX 6000 Pro (96GB cada una, 384GB total) logra ~80 tokens/segundo con GLM-5.2 en Int8.
  • Privacidad total: los datos sensibles no salen del equipo, clave para GDPR y LGPD.
  • Modelos abiertos 2026: DeepSeek V3.2 (MoE 671B, 37B activos) y Qwen 3.5 con soporte nativo de español.

¿Por qué correr un modelo de IA en tu propia máquina?

Ponele que trabajás con historias clínicas, contratos o código propietario y te da cosa pegarlo en un chat que vive en un servidor ajeno. Ese es el caso de uso número uno de los modelos locales.

Cuando ejecutás un LLM en tu hardware, los datos no viajan a ningún lado. No hay suscripción mensual, no hay límite de tokens por hora, funciona sin internet y tenés control total de qué modelo usás y cómo. Para un desarrollador que itera cientos de prompts por día, o una empresa con datos que por normativa no pueden salir del país, la cuenta cierra rápido: pagás el hardware una vez y después el uso es gratis.

Eso sí: no es magia. Un modelo local bien configurado te da privacidad y costo cero por consulta, pero rara vez iguala en calidad pura a lo último de los proveedores cloud. El punto es que para muchísimas tareas (resumir, clasificar, generar código, responder sobre tus propios documentos) los modelos abiertos de 2026 ya alcanzan de sobra. Tema relacionado: mejores prácticas de seguridad para sistemas locales.

¿Qué requisitos de hardware necesito para ejecutar LLMs offline?

Acá viene la parte que a todos les preocupa: la plata en fierros. La regla gruesa es que el tamaño del modelo (en cantidad de parámetros) define cuánta VRAM necesitás. La RAM del sistema sirve de respaldo si no entra todo en la placa, pero ojo, ahí la velocidad se cae al piso.

Tamaño del modeloVRAM recomendadaEjemplo de modeloUso típico
7-8B8GBQwen 8B, Llama 3.2 8BChat, código liviano, escritorio
13-34B16-32GBModelos 27B cuantizadosAnálisis, RAG, tareas serias
70B+48GB o másLlama 70BProducción, calidad alta
200B+Multi-GPU (192GB+)DeepSeek 671B (MoE)Homelab serio, investigación
ejecutar llm localmente diagrama explicativo

Jamesob es concreto en su guía: para correr un modelo de 27B usa dos RTX 3090, que tienen 24GB de VRAM cada una. Para saltar a modelos de 80B o más y sacar 80+ tokens por segundo, se va a las RTX 6000 Pro de 96GB cada una. Sí, es otra liga de presupuesto.

¿Se puede sin GPU potente? Se puede, pero con paciencia. Un modelo chico cuantizado corre en CPU pura o en una placa modesta, solo que a pocos tokens por segundo. Para probar y aprender alcanza. Para trabajar todo el día, no.

¿Cuál es la mejor herramienta para ejecutar LLMs localmente?

Depende de si querés escribir comandos o hacer clic. Estas son las cuatro que dominan en 2026.

HerramientaInterfazMejor paraBase técnica
OllamaCLI + APIDevs, integración con appsllama.cpp
LM StudioGUI de escritorioPrincipiantes, probar modelosllama.cpp
vLLMServidorProducción, alto rendimientoMotor propio (PagedAttention)
JanGUI modernaUso diario, alternativa a ChatGPTllama.cpp / motores varios

Ollama es la más documentada y trae una API compatible con OpenAI, así que si tu app ya habla con GPT, la apuntás a tu modelo local cambiando una URL y listo. LM Studio gana cuando recién arrancás: bajás, buscás un modelo en un catálogo visual, lo corrés, sin tocar la terminal. vLLM es otra cosa, está pensado para servir muchas requests en paralelo con máximo throughput, no para tu laptop. Relacionado: por qué ejecutar modelos locales en lugar de chatgpt.

¿Cómo instalo y corro mi primer modelo con Ollama?

Esta es la ruta más corta para tener un LLM andando hoy. Ollama tiene instalador para Windows, macOS y Linux.

  • Descargá e instalá Ollama: lo bajás del sitio oficial y corre como servicio en segundo plano en localhost:11434.
  • Traé un modelo: abrís la terminal y escribís ollama pull qwen para descargarlo.
  • Charlá con él: ollama run qwen abre un chat interactivo ahí mismo.
  • Conectalo a tu código: la API en localhost:11434 responde igual que la de OpenAI, así que cualquier librería que ya uses sirve.

Dos comandos y tenés un modelo respondiendo offline. Esa simpleza es la razón por la que Ollama se comió el mercado.

¿Cómo optimizar GPU P2P y PCIe según el método Jamesob?

Ojo: esta sección es para entusiastas con multi-GPU y ganas de sufrir un poco. Si recién empezás, salteala tranquilo.

El cuello de botella cuando tenés varias placas es la comunicación entre GPUs. Jamesob documenta cómo exprimir el bus PCIe para que las tarjetas se hablen directo, sin pasar todo por la CPU. En su guía toca settings de BIOS (desactivar IOMMU, desactivar ACS, configurar bifurcación PCIe), limita la potencia de cada GPU a 350W para manejar el calor, y usa switches PCIe4 para el tráfico GPU-a-GPU.

¿Y los números? Reporta 27,5 GB/s en transferencia unidireccional y 50,4 GB/s bidireccional entre placas, con latencias de 0,37 a 0,45 microsegundos. Con ese laburo de plomería, su setup documentado de 4x RTX 6000 Pro (384GB de VRAM total) llega a correr GLM-5.2 en cuantización Int8Mix a alrededor de 80 tokens por segundo. Es un trabajo fino, del tipo que hacés un fin de semana entero y documentás para no olvidarte nunca más cómo lo lograste. Sobre eso hablamos en fundamentos de los modelos de lenguaje modernos.

¿Qué modelos de IA conviene ejecutar localmente en 2026?

El ecosistema abierto pegó un salto grande. Estos son los que aparecen una y otra vez.

  • DeepSeek V3.2: el referente entre los abiertos, con arquitectura MoE de 671B parámetros totales pero solo 37B activos por token, lo que lo hace más eficiente de lo que su tamaño sugiere.
  • Qwen 3.5: lanzado entre febrero y marzo de 2026, con versiones desde 0,8B hasta 397B y soporte de más de 100 idiomas, incluido español nativo. Para contenido en castellano es de lo mejor que corre local.
  • Llama 3.2: la familia de Meta, multimodal, con opciones chicas que entran en hardware modesto.
  • GLM-5.2: el que Jamesob usa en Int8 para sus benchmarks de ~80 tokens/segundo.

La gracia de los modelos MoE como DeepSeek es que activan solo una fracción de sus parámetros por consulta. Tenés la calidad de un modelo enorme pagando (en cómputo) mucho menos por token.

¿Qué ganás en privacidad al no usar la nube?

Todo lo que escribís se queda en tu equipo. Punto. No hay logs en un servidor de otro, no hay términos de servicio que revisar, no hay riesgo de que tu prompt termine entrenando el próximo modelo de alguien.

Para cumplimiento normativo (GDPR en Europa, LGPD en Brasil, y regulaciones de datos en Argentina) eso cambia el juego. Un estudio jurídico o una clínica pueden procesar información sensible sin que salga del edificio. Y si tu caso es montar un servidor local para que lo use todo el equipo, necesitás infraestructura seria: para hosting, VPS y servidores en Argentina podés ver las opciones de donweb.com según cuánta VRAM y ancho de banda te haga falta.

El costo también juega distinto. Una descarga del modelo equivale a uso gratuito para siempre, contra la suscripción mensual que se acumula mes a mes.

Qué está confirmado y qué no

  • Confirmado: los datos de hardware y rendimiento de la guía de Jamesob (RTX 3090 para 27B, RTX 6000 Pro para 80+ tokens/s, métricas P2P) están publicados en su repositorio en GitHub.
  • Confirmado: Ollama, LM Studio, vLLM y Jan son proyectos activos y de uso masivo en 2026.
  • Pendiente de verificar caso por caso: las velocidades exactas de tokens/segundo dependen de tu hardware, la cuantización y el modelo. Los números de Jamesob son de su setup específico, no una garantía universal.
  • Tomalo con pinzas: los benchmarks de calidad entre modelos abiertos cambian seguido. Probá con tu tarea real antes de casarte con uno.

Errores comunes al ejecutar LLMs locales (y cómo resolverlos)

  • Error “Out of Memory”: le pediste al modelo más VRAM de la que tenés. Bajá a una versión cuantizada (Q4 en vez de Q8), reducí el batch size o pasá a un modelo más chico.
  • Todo va lentísimo: lo más probable es que el modelo no entre en la GPU y esté corriendo parcialmente en RAM o CPU. Verificá que quepa en VRAM, y si tenés multi-GPU, revisá que el P2P esté activo.
  • El modelo no termina de descargar: casi siempre es espacio en disco (estos archivos pesan decenas de gigas) o una conexión que se corta. Liberá espacio y reintentá; Ollama reanuda la descarga.
  • Incompatibilidad de GPU: las AMD dan más trabajo que las NVIDIA con drivers viejos. Actualizá drivers antes de pelearte con el modelo.

Preguntas Frecuentes

¿Cómo ejecuto un LLM localmente en mi computadora?

Instalás Ollama, corrés ollama pull con el nombre del modelo y después ollama run para chatear. Todo el proceso lleva minutos si ya tenés el modelo descargado, y funciona en Windows, macOS y Linux sin conexión a internet. Lo explicamos a fondo en alternativas en la nube a los modelos locales.

¿Puedo correr modelos grandes sin una GPU potente?

Sí, pero con velocidades bajas. Un modelo de 7B cuantizado corre en CPU o en una placa de 8GB a pocos tokens por segundo. Para modelos de 70B en adelante necesitás sí o sí 48GB de VRAM o más, o vas a esperar demasiado por cada respuesta.

¿Qué es mejor, Ollama o LM Studio?

Ollama es mejor para desarrolladores porque trae CLI y API compatible con OpenAI para integrar en apps. LM Studio es mejor para quien recién empieza porque tiene interfaz gráfica y un catálogo visual de modelos. Ambos usan llama.cpp por debajo, así que el rendimiento es parecido.

¿Cuál es el mejor modelo local para español en 2026?

Qwen 3.5 es de las mejores opciones, con soporte nativo de más de 100 idiomas incluido el español y versiones desde 0,8B hasta 397B parámetros. DeepSeek V3.2 también rinde bien y su arquitectura MoE lo hace eficiente en cómputo.

¿Ejecutar LLMs localmente es realmente gratis?

El software y los modelos abiertos son gratis, y una vez descargado el modelo lo usás sin costo por consulta. El gasto está en el hardware: desde una placa de 8GB para modelos chicos hasta setups multi-GPU de miles de dólares para los grandes.

Conclusión

En 2026 correr un LLM en tu propia máquina dejó de ser cosa de expertos. Con Ollama arrancás en dos comandos, y con una placa de 8GB ya tenés un asistente decente que respeta tu privacidad y no te cobra por token.

La guía de Jamesob muestra el otro extremo del espectro: qué pasa cuando invertís en fierros serios y afinás la comunicación entre GPUs hasta sacar 80 tokens por segundo. La mayoría no necesita llegar ahí. Pero saber que el techo está tan alto te dice hasta dónde escala esto.

Si manejás datos sensibles o simplemente estás cansado de pagar suscripciones, probá primero con un modelo chico en Ollama. Medí si te alcanza para tu tarea real antes de gastar en hardware. La mitad de las veces, con lo que ya tenés zafás.

Fuentes

Desplazarse hacia arriba