Mini PC para LLMs locales: guía 2026

Las mini PC para LLMs locales en 2026 llegaron a un punto de inflexión: con el Ryzen AI MAX+ 395 de AMD y hasta 128 GB de memoria unificada, equipos como el GMKtec EVO-X2 pueden correr modelos de 70B parámetros por $2.349, sin cloud, sin suscripción mensual, sin mandar tus datos a ningún servidor.

En 30 segundos

El GMKtec EVO-X2 con Ryzen AI MAX+ 395 y 128 GB cuesta $3.299 hoy (subió 57% desde octubre 2025 por la crisis de precios LPDDR5).
El punto óptimo precio/capacidad es el MINISFORUM AI X1 Pro-470 a $1.359: corre modelos de hasta 27B parámetros.
Para entrar al mundo local con presupuesto ajustado, el Beelink SER9 a $859 corre Mistral 7B a 8-10 tokens por segundo.
La memoria unificada (CPU y GPU comparten el mismo pool de RAM) es lo que hace posible todo esto, no el NPU.
AMD anunció su propio Halo Box en AI Dev Day, con envíos previstos para junio 2026.

Por qué 2026 es el año de las mini PC para LLMs locales

Una mini PC para LLMs locales es un equipo compacto de escritorio con procesador de la familia Ryzen AI o equivalente, diseñado para ejecutar modelos de lenguaje grandes directamente en el hardware del usuario, sin depender de servicios en la nube.

Hasta hace dos años, correr un modelo de 13B parámetros en casa requería una GPU dedicada de $800 o más. Hoy, con arquitecturas de memoria unificada como el Ryzen AI MAX+ 395, esa misma carga corre en un cubo del tamaño de un libro.

El cambio no es incremental. Según el análisis de TerminalBytes publicado el 1 de mayo de 2026, AMD acaba de anunciar su propio “Halo Box” en el AI Dev Day, con envíos previstos para junio. Cada fabricante de mini PCs en el planeta está armando algún producto basado en el Ryzen AI MAX+ 395. Hay espuma en el mercado, y con espuma vienen los errores de compra.

El problema concreto: quien miraba precios en octubre 2025 y pensaba “lo compro la semana que viene” pagó caro esa demora. El SKU de 128 GB del EVO-X2 que costaba $2.099 hoy figura a $3.299. La “rampocalypse” (precios del LPDDR5 en alza sostenida más demanda de IA) se comió un 57% encima del precio original. Los threads de r/LocalLLaMA están llenos de gente que se arrepiente de no haber comprado cuando podía.

Lo que necesitás saber: memoria unificada, NPU y ancho de banda

El factor que determina si una mini PC puede correr un LLM no es la cantidad de RAM ni la cantidad de núcleos. Es el ancho de banda de memoria y si el procesador accede a esa RAM de forma unificada.

En una PC tradicional, la GPU tiene su propia VRAM (separada de la RAM del sistema). Si querés correr un modelo de 30 GB en una GPU con 16 GB de VRAM, no entra. Con memoria unificada, la CPU y la GPU comparten el mismo pool. Un sistema con 96 GB puede usar casi todo ese espacio para el modelo.

El Ryzen AI MAX+ 395 ofrece hasta 128 GB de LPDDR5x a 8000 MHz, con un ancho de banda de 256 GB/s. Eso suena bien, y lo es. Eso sí: el M5 Ultra de Apple opera a 800 GB/s, el triple. No es un detalle menor para modelos muy grandes donde el cuello de botella es exactamente ese ancho de banda. Complementá con cómo ejecutar Claude localmente.

¿Y el NPU? Los procesadores actuales vienen con NPUs de entre 86 y 512 TOPS. Eso no es lo que mueve la aguja para LLMs. El NPU es útil para otras tareas de IA (reconocimiento de imagen, procesamiento de voz), pero la inferencia de modelos de lenguaje sigue corriendo principalmente en GPU y CPU. El Lemonade SDK v10.3 tiene routing que distribuye carga entre los tres, pero el NPU no es la estrella de este espectáculo.

Comparativa: qué comprás según tu presupuesto

Tres capas claras según lo que necesitás y lo que podés gastar:

Modelo	Procesador	RAM	Precio USD	Modelo máx. recomendado
GMKtec EVO-X2	Ryzen AI MAX+ 395	96-128 GB	$2.349 – $3.299	Llama 2 70B (2-3 tps)
MINISFORUM AI X1 Pro-470	Ryzen AI 9 HX 470	32 GB	$1.359	Qwen 3.6 27B (5-7 tps)
Beelink SER10 MAX	Ryzen AI 9 HX 470	32 GB	$1.799	27B quantized
Beelink SER9	Ryzen 7 H 255	32 GB	$859	Mistral 7B (8-10 tps)

mini pc para llms locales diagrama explicativo

Precios en USD. Con el tipo de cambio de mayo 2026, sumá el costo de importación y el margen del distribuidor si comprás en Argentina: el número en pesos puede variar bastante según el canal.

Ryzen AI MAX+ 395: la arquitectura Strix Halo en detalle

La arquitectura Strix Halo combina 16 núcleos Zen 5 con una GPU Radeon 8060S integrada. El resultado es un procesador que puede alimentar a la GPU desde el mismo pool de RAM que usa el sistema operativo. En la práctica, eso significa que si tenés 128 GB de LPDDR5x, podés asignarle 100 GB al modelo y los otros 28 GB los usa el SO y las aplicaciones.

Ponele que estás corriendo Llama 2 70B en formato Q4 quantizado (que pesa alrededor de 38-40 GB). En un sistema con 96 GB de memoria unificada, entra cómodo. En un sistema con 32 GB, ni a palos.

Las limitaciones son reales. Primero, el ancho de banda: 256 GB/s es bueno para uso general, pero los modelos de 70B a velocidad decente necesitan más. Vas a ver 2-3 tokens por segundo, que para producción en batch está bien, pero para uso conversacional interactivo puede resultar lento. Segundo, hay un problema conocido de BIOS con eGPU vía Oculink en el EVO-X2 que limita la potencia a 120W, afectando el rendimiento cuando se conecta una GPU externa. Tercero, el ruido térmico del EVO-X2 bajo carga sostenida no es trivial. El GTR9 Pro maneja mejor el térmico en ese segmento.

Rendimiento real: tokens por segundo en cada tier

Los benchmarks del fabricante siempre se ven mejor que en la práctica. Los números que siguen son los que circulan en comunidades como r/LocalLLaMA y en análisis independientes publicados entre enero y mayo de 2026:

Llama 2 70B en GMKtec EVO-X2 (128 GB): 2-3 tokens por segundo. Usable para procesamiento de documentos. Para chat interactivo, empieza a chirriar.
Qwen 3.6 27B en MINISFORUM AI X1 Pro-470 (32 GB): 5-7 tokens por segundo. Buen punto de equilibrio para uso productivo.
Mistral 7B en Beelink SER9 (32 GB): 8-10 tokens por segundo. Fluido para uso diario.

Los modelos Q4 quantized (cuantizados a 4 bits) son los que hacen posible la mayoría de estos escenarios. Un Llama 2 70B en Q4 ocupa aproximadamente 38 GB en lugar de los 140 GB del modelo completo, perdiendo algo de calidad pero manteniéndose usable para la mayoría de tareas. Cubrimos ese tema en detalle en ChatGPT en equipos sin conexión.

¿Qué modelo para qué uso? Si procesás documentos legales, financieros o técnicos donde la precisión importa, el tier de 27B-70B tiene sentido. Si querés un asistente de código local o un chatbot para uso interno, los modelos de 7-13B son suficientes y corren mucho más rápido.

Costo versus rendimiento: dónde está el punto óptimo

El GMKtec EVO-X2 a $3.299 es un equipo que funciona. Pero pagás el triple del MINISFORUM para conseguir modelos de 70B a 2-3 tps. Si tu caso de uso no requiere modelos de ese tamaño, estás pagando por algo que no vas a usar.

El MINISFORUM AI X1 Pro-470 a $1.359 es donde está el mejor valor por dólar en este momento. Corre modelos de 27B a velocidad práctica, y la diferencia de calidad entre un 27B bien cuantizado y un 70B en muchas tareas es marginal.

Para quienes sólo quieren experimentar o armar un asistente interno simple, el Beelink SER9 a $859 hace el trabajo. Mistral 7B, Phi-3, Gemma 2B: todos corren bien.

Una alternativa que vale mencionar: el Mac Mini M4 Pro tiene memoria unificada con mayor ancho de banda que el Ryzen AI MAX+ 395 (hasta 273 GB/s en el M4 Pro, escalando a más en configuraciones superiores). Si ya estás en el ecosistema Apple, tiene sentido mirarlo. Los Intel Core Ultra 5 y 7, en cambio, están menos optimizados para LLMs en comparación con las soluciones AMD actuales y quedan fuera de consideración para este caso de uso.

Casos de uso reales: por qué la IA local tiene sentido en 2026

La razón más fuerte para correr LLMs localmente no es el costo. Es la privacidad.

Si tenés documentos contractuales, datos de clientes, código propietario o información médica, mandarlos a una API externa implica que esos datos pasan por servidores de terceros. Con un modelo local, el texto nunca sale del equipo. Para empresas con obligaciones de compliance o simplemente con datos sensibles, eso vale mucho. Más contexto en modelos de lenguaje con razonamiento.

El segundo argumento es la disponibilidad. Una mini PC con Ollama corre las 24 horas sin costo por token, sin límites de rate, sin interrupciones por mantenimiento del proveedor. Para pipelines de procesamiento que corren de noche o asistentes internos de equipos pequeños, eso es una ventaja práctica.

Para equipos de desarrollo, iterar sobre un modelo local elimina la fricción de costos de API durante el prototipado. Probás, rompés, cambiás el prompt, volvés a probar, sin que cada experimento cueste plata. Si después llevás el modelo a producción vía API, está bien: pero el ciclo de desarrollo corre local.

En contextos educativos o de investigación, tener acceso a modelos sin depender de AWS o Google Cloud cambia el acceso para equipos con presupuesto limitado. Si querés alojar aplicaciones que se conecten a tu LLM local y exponerlas en la web, donweb.com tiene soluciones de hosting y VPS para ese caso.

Errores comunes que te van a costar dinero

Confundir GB de RAM con VRAM. En sistemas tradicionales, la VRAM es el límite real para modelos. En sistemas de memoria unificada, la RAM del sistema es usable por la GPU. Si alguien te dice “tiene 32 GB de VRAM” refiriéndose a un Ryzen AI MAX+, te está confundiendo: son 32 GB compartidos entre CPU y GPU.

Pensar que más GB siempre significa más velocidad. El cuello de botella en LLMs es el ancho de banda de memoria, no la capacidad total. Un sistema con 64 GB y 256 GB/s puede ser más lento cargando un modelo de 40 GB que otro sistema con menos capacidad pero mayor ancho de banda. Los números de velocidad del Strix Halo son sólidos pero no son los mejores del mercado.

Asumir que los precios son estables. El mercado de LPDDR5 está en una dinámica de precios inestable. El EVO-X2 de 128 GB subió $1.200 en seis meses. Si encontrás un precio que te cierra hoy, no lo postergues demasiado.

Ignorar el ruido térmico. El EVO-X2 bajo carga sostenida genera ruido de ventilador considerable. Si lo vas a poner en un escritorio de trabajo, fijate en las reviews de ruido. El GTR9 Pro maneja mejor el térmico en ese rango.

Creer que el NPU es el factor clave. Los 86-512 TOPS del NPU aparecen en todos los materiales de marketing. Para LLMs, el NPU no es el bottleneck. La memoria unificada sí lo es. Un equipo con NPU poderoso pero poca RAM unificada corre peor que uno con NPU modesto y 96 GB de memoria. Te puede servir nuestra cobertura de integraciones Google en tu Mini PC.

Preguntas Frecuentes

¿Cuál es la mejor mini PC para ejecutar modelos de IA localmente en 2026?

Para la mayoría de los usuarios, el MINISFORUM AI X1 Pro-470 a $1.359 es el mejor equilibrio: corre modelos de 27B parámetros a 5-7 tokens por segundo con 32 GB de RAM. Si necesitás modelos de 70B y tenés presupuesto, el GMKtec EVO-X2 con 96 GB ($2.349) o 128 GB ($3.299) es la opción, aunque a velocidades más bajas (2-3 tps).

¿Puedo ejecutar modelos de 70B parámetros en una mini PC?

Sí, pero necesitás al menos 96 GB de memoria unificada. El GMKtec EVO-X2 con Ryzen AI MAX+ 395 y 96-128 GB lo hace posible usando modelos cuantizados en Q4 (que pesan aproximadamente 38-40 GB). La velocidad es de 2-3 tokens por segundo, que sirve para procesamiento en batch pero es lento para chat interactivo.

¿Cuánto cuesta una mini PC para correr LLMs localmente?

El rango va desde $859 (Beelink SER9, para modelos de 7-13B) hasta $3.299 (GMKtec EVO-X2 con 128 GB, para modelos de 70B). El punto de entrada recomendado para uso productivo está alrededor de $1.359 con el MINISFORUM AI X1 Pro-470. Los precios subieron entre 40% y 60% desde octubre 2025 por la crisis de precios LPDDR5.

¿Qué procesador es mejor para IA local: Ryzen AI o Intel Core Ultra?

En 2026, los procesadores Ryzen AI de AMD (especialmente el MAX+ 395) tienen ventaja clara sobre los Intel Core Ultra 5/7 para LLMs locales, principalmente por la arquitectura de memoria unificada con mayor capacidad disponible. Los benchmarks de Intel Core Ultra no alcanzan los del Ryzen AI MAX+ 395 para inferencia de modelos grandes.

¿Qué diferencia hay entre NPU y memoria unificada para correr LLMs?

La memoria unificada permite que CPU y GPU compartan el mismo pool de RAM, lo que define cuánto modelo cabe en el equipo. El NPU (entre 86 y 512 TOPS según el modelo) es útil para otras tareas de IA, pero no es el componente que limita ni acelera la inferencia de LLMs. Para elegir una mini PC para LLMs, priorizá GB de memoria unificada y ancho de banda sobre el número de TOPS del NPU.

Conclusión

Lo que cambió en 2026 no es que los LLMs sean mejores (aunque lo son). Es que el hardware para correrlos localmente bajó la barrera de entrada a un punto donde la decisión es racional, no solo ideológica.

$1.359 por un MINISFORUM que corre modelos de 27B sin suscripción mensual, sin datos que salen de tu red, sin límites de tokens: tiene sentido para un equipo de trabajo pequeño, para un desarrollador que itera mucho, o para cualquier empresa con datos sensibles.

El tier de $3.299 del EVO-X2 es para casos de uso específicos donde los modelos de 70B son necesarios. Para el resto, el punto medio es suficiente, y el tier de $859 sirve para probar antes de comprometerse.

Si estás mirando esto en mayo 2026, el consejo es no esperar. Los precios no se ven con tendencia a bajar, AMD ya tiene su propio equipo en camino para junio, y cuando eso llegue al mercado la oferta se va a sacudir de nuevo. El momento para decidir es ahora, con información, no después, con arrepentimiento.

Mini PC para LLMs locales en 2026: cuál comprar