sllm: GPU compartida con tokens ilimitados

sllm es un servicio que permite a desarrolladores alquilar acceso compartido a GPUs enterprise para correr modelos grandes de IA (Llama, Qwen, DeepSeek, Kimi) con un modelo de “cohort subscriptions” donde múltiples usuarios dividen costos y recursos, pagando desde USD 10-40 al mes por acceso a throughput de 15-35 tokens por segundo sin límite de tokens.

En 30 segundos

sllm permite compartir GPU con otros desarrolladores en “cohorts” (grupos) para reducir costos de acceso a modelos grandes de IA
Soporta modelos como Llama-4-scout-109b, Qwen-3.5-122b, GLM-5-754b, DeepSeek-v3.2, Kimi-k2.5-1t y otros a throughput de 15-35 tokens/segundo
Planes mensuales de USD 10-40 con compromiso de 1 o 3 meses, sin límite de tokens (el throughput es el constraint real)
Dirigido a startups de IA, investigadores universitarios, desarrolladores que experimentan con múltiples modelos sin presupuesto enterprise
La alternativa a servicios como Vast.ai, SimplePod o alquilar GPU dedicada en la nube a USD 500+/mes

Qué es sllm: GPU compartida para desarrolladores

Imaginate que necesitás correr modelos grandes de IA pero no tenés USD 500 mensuales para alquilar una GPU dedicada en Vast.ai o en proveedores cloud tradicionales. Acá entra sllm: una plataforma donde en vez de arrendar recursos tuyo solo, te metés en un “cohort” (una cohorte, un grupo) de 5-10 desarrolladores que comparten la misma GPU. Cada uno paga una fracción del costo total, y la GPU se particiona automáticamente entre todos simultáneamente.

El modelo es simple pero efectivo. Vos pagas por acceso de cohort (no por GPU entera), no por tokens procesados (sin puntos inflados de OpenAI o Anthropic). El constraint real es el throughput: 15-35 tokens por segundo dependiendo del plan y el modelo que corras, pero una vez pagaste el mes, no hay sorpresas de facturación.

sllm es [una plataforma de acceso compartido a GPUs para correr modelos grandes de lenguaje de código abierto a costo fraccionado entre múltiples desarrolladores simultáneamente]. Fue anunciada en Hacker News con el pitch de “unlimited tokens” en plans mensuales, lo que en el mundo de LLMs es relativamente raro (spoiler: el “unlimited” es real, el throughput es el límite).

Modelos disponibles y throughput: qué podés correr

El catálogo de sllm incluye modelos de punta de código abierto. La lista oficial soporta:

Llama-4-scout-109b — el modelo más ligero de la línea Llama 4, pensado para latencia baja
Qwen-3.5-122b — modelo multilingüe de Alibaba con capacidades fuertes en reasoning y código
GLM-5-754b — modelo de Zhipu (ChatGLM), especializado en chino e inglés
Kimi-k2.5-1t — modelo de Moonshot con contexto ultra-largo (1M tokens)
DeepSeek-v3.2 y DeepSeek-r1 — modelos de DeepSeek, los que vinieron pisando fuerte en 2025-2026 por su relación costo-rendimiento

El throughput varía según el modelo y el plan. Rango típico: 15 tokens/segundo en planes entry-level, hasta 35 tokens/segundo en planes premium. Eso significa que un prompt largo (5000 tokens) más una respuesta (2000 tokens) toma entre 200 y 500 segundos. No es instantáneo, pero para desarrollo, testing y experimentación (que es el use case de sllm) está bien.

Estructura de precios: planes y compromisos

El modelo de precios de sllm es directo. Hay planes mensuales que oscilan entre USD 10 y USD 40 según throughput y modelo. Pero con un giro: te ofrecen descuentos por compromiso a más largo plazo (1 mes, 3 meses). Es decir, cuanto más tiempo te comprometés, menos pagás por mes.

Plan	Precio (USD/mes, 1 mes)	Precio (USD/mes, 3 meses)	Throughput típico	Límite de tokens
Básico	USD 10-15	USD 8-12	15 tokens/s	Ilimitado
Estándar	USD 20-25	USD 16-20	20-25 tokens/s	Ilimitado
Premium	USD 35-40	USD 28-32	30-35 tokens/s	Ilimitado

gpu compartida entre desarrolladores diagrama explicativo

La tabla es aproximada porque los precios pueden variar según disponibilidad de modelos y región. Pero el patrón es: cuanto más rápido necesitás tokens, más pagás.

GPU compartida vs GPU dedicada: qué ganas y qué pierdes

Acá viene lo interesante. Alquilar GPU dedicada en Vast.ai, Lambda Labs o cloud providers tradicionales ronda USD 500-2000 mensuales dependiendo de VRAM y modelo. Alquilar compartido en sllm sale USD 10-40. ¿Cuál es el trade-off?

Con GPU dedicada: es 100% tuya, sin compartir ancho de banda, sin latencia variable porque otros usuarios interferan, escalas como vos querés, sin esperas. Pero: tenés overhead de mantenimiento (actualizaciones, debugging cuando falla), y si tu proyecto no lo justifica, pagás una fortuna por recursos ociosos.

Con GPU compartida en sllm: el throughput es tu límite real (15-35 tokens/segundo), no hay escalado instantáneo si de repente necesitás 1000 requests simultáneos, y sí hay interferencia de latencia de otros usuarios durante peak hours (aunque la arquitectura probablemente use MIG o time-sharing inteligente). Pero: puro costo variable, sin overhead operacional, acceso inmediato a múltiples modelos, y si necesitás solo experimentar o prototipar, es un golazo.

Entonces, GPU compartida es para: startups de IA con presupuesto limitado, investigadores universitarios, desarrolladores que rotan entre modelos, equipos en Latinoamérica donde USD 500/mes es significativo. GPU dedicada es para: producción con SLA, workloads predecibles y de escala, empresas donde el costo de latencia es mayor que el costo de infraestructura.

Comparativa: sllm vs alternativas (Vast.ai, SimplePod, cloud tradicional)

Proveedor	Modelo de precios	Modelos soportados	Costo típico (USD/mes)	Tipo de recurso	Uptime SLA
sllm	Subscription de cohort	Llama, Qwen, DeepSeek, Kimi, GLM	USD 10-40	GPU compartida (MIG/time-sharing)	Mejor esfuerzo
Vast.ai	Spot/Reserved by-hour	Cualquier imagen Docker	USD 200-1000 (GPU dedicada)	GPU dedicada (RTX 4090, H100, A100)	Mejor esfuerzo (spot)
SimplePod	Pod por hora o mes	Llama, Mistral, custom	USD 50-300	GPU dedicada o compartida	99.5%
Jarvis Labs	Créditos prepagados	Modelos custom + cloud	USD 100-500	GPU dedicada	Mejor esfuerzo
AWS/GCP/Azure	Pay-as-you-go	Cualquiera (custom)	USD 300-5000	GPU dedicada + managed	99.95%+
DonWeb (VPS con GPU)	Por mes con mínimo	Custom (brings your own model)	USD 200-800	GPU dedicada en Argentina	99.5% (hosting local)

En la tabla está la realidad. sllm no compite con Vast.ai ni SimplePod en escala o control — es un nicho diferente. Si vos necesitás escala, uptime 99.9%, y control total del ambiente, Vast.ai o Amazon SageMaker son mejores. Si vos sos un desarrollador argentino que quiere correr Llama localmente sin moverte a Estados Unidos, DonWeb ofrece opciones de GPU en la nube argentina. Pero si vos estás prototipando y querés gastar lo menos posible, sllm es la respuesta obvia.

Cómo funciona técnicamente: arquitectura de cohorts

El detalle técnico de cómo sllm particiona GPU entre usuarios simultáneamente no está público en detalle, pero hay dos arquitecturas plausibles: MIG (Multi-Instance GPU) — que es lo que NVIDIA ofrece nativamente en H100 y A100, donde una GPU se divide en 7 instancias aisladas con memoria y compute compartida pero segregado — o time-sharing con containers — donde sllm usa kernel scheduling para dar time slices a cada usuario. La primera es más limpia; la segunda es más flexible con modelos grandes.

Lo que sí sabemos: cada usuario dentro de un cohort ve su disponibilidad entre 0-100%, y el throughput se degrada si hay picos de demanda simultánea (porque estás compartiendo VRAM y ciclos). Eso es un constraint real de cualquier arquitectura compartida — no hay forma de evitarlo sin overprovisioning.

Tokens ilimitados vs límites: qué significa realmente

Uno de los puntos de marketing de sllm es “unlimited tokens” — y acá hay que leer la letra chica. “Ilimitado” no significa “sin restricción”. Significa: no hay un hard cap de 1 millón de tokens al mes como en OpenAI, ni pagas por token como en Anthropic. Pagás una cuota fija, y dentro de esa cuota, procesás los tokens que quieras, mientras mantengas el throughput prometido.

La restricción real es el throughput. Si tu plan promete 20 tokens/segundo y vos necesitás 1000 tokens/segundo, no pasa — la arquitectura no lo soporta. Pero si necesitás procesar 10 millones de tokens en el mes a 20 tokens/segundo (es decir, un promedio de 4-5 horas diarias), está bien. No hay sorpresas de facturación.

Casos de uso reales: quién se beneficia

Startups de IA con presupuesto limitado

Una startup de RAG o agentic AI necesita correr LLMs en producción beta sin invertir USD 5000 mensuales en infraestructura cloud. sllm te deja escalar desde experimentación (USD 10/mes en local) a producción beta (USD 40/mes) sin cambiar de proveedor.

Investigadores universitarios

Un PhD en NLP necesita fine-tunear Qwen-3.5 en un dataset privado sin acceso a GPU local de universidad. USD 20/mes en sllm es más barato (y más rápido) que esperar cola de GPU compartida con otros 50 investigadores.

Desarrolladores experimentadores

Querés probar DeepSeek-r1 contra Llama-4 contra Kimi en el mismo dataset de prueba. En lugar de hacer tres cuentas en tres proveedores, sllm te da acceso a múltiples modelos en una suscripción. Pagas una vez, probás lo que querés.

Equipos en Latinoamérica

USD 40/mes es accesible para un equipo pequeño en Argentina, México o Colombia en un way que USD 500/mes no lo es. Especialmente si es para prototipar o para un cliente que aún no justifica inversión.

Errores comunes al elegir GPU compartida

Error 1: Asumir que “sin límite de tokens” significa sin restricción de escala

La gente lee “unlimited tokens” y piensa “puedo enviar 1 millón de prompts de 1000 tokens cada uno simultáneamente”. La realidad: el throughput de 20-35 tokens/segundo es el límite real. Si necesitás concurrencia, necesitás GPU dedicada o múltiples subscripciones.

Error 2: No testear latencia en peak hours

El throughput prometido es un promedio. Durante peak hours (probablemente 9-17 UTC, cuando más desarrolladores globales usan sllm), la latencia sube. Si tu producto es crítico a latencia, probá primero con una subscripción de prueba en horario pico antes de comprometerte a 3 meses.

Error 3: Confundir “compartido” con “menos confiable”

GPU compartida en sllm no es menos confiable que GPU dedicada si el proveedor mantiene la infraestructura. La diferencia es predecibilidad: dedicada es 100% garantizado; compartida es mejor esfuerzo pero dentro de los parámetros de throughput. Si sabés qué estás comprando, no hay sorpresas.

Qué está confirmado y qué aún es incertidumbre

Confirmado: sllm existe, ofrece acceso a modelos listados, fue anunciado públicamente en Hacker News (HN id 43572134), y acepta nuevos usuarios
Confirmado: precios en rango USD 10-40, planes mensuales con descuento por compromiso a 3 meses
Confirmado: soporta modelos Llama, Qwen, DeepSeek, Kimi, GLM de código abierto
No confirmado: arquitectura técnica exacta de partición (MIG vs time-sharing)
No confirmado: SLA de uptime — aún sin publicar garantías formales
No confirmado: cómo escala si hay demanda masiva (¿agregan más GPUs automáticamente?)
No confirmado: si hay contractos a largo plazo con rebates adicionales más allá de 3 meses

Preguntas Frecuentes

¿Cómo puedo compartir una GPU con otros desarrolladores para reducir costos?

Te inscribís en sllm, elegís un plan (USD 10-40 mensuales), y te asignan a un cohort con otros desarrolladores. La GPU se particiona automáticamente entre ustedes — no tenés que configurar nada. Generás un API key, lo agregás a tu cliente de OpenAI-compatible o HTTP request, y listo.

¿Qué es una cohort subscription y cómo me beneficia frente a alquiler individual?

Una cohort subscription es un grupo de usuarios que comparten una única GPU. En vez de que cada uno pague USD 500 por su GPU dedicada, ustedes comparten los costos entre 5-10 personas. Si la GPU cuesta USD 300-400 al mes mantenerla en la nube, cada cohort member paga USD 40-60. Es división simple de costos.

¿Qué significa “tokens ilimitados” en sllm? ¿Realmente no hay límite?

No hay límite de cantidad de tokens procesados en el mes — es decir, no pagas por token como en ChatGPT. Pagás una cuota fija. El límite real es el throughput: 15-35 tokens/segundo. Si necesitás 100 tokens/segundo, necesitás un plan más caro o múltiples subscripciones.

¿Cuál es la diferencia entre GPU compartida (sllm) y GPU dedicada (Vast.ai)?

GPU compartida (sllm) es más barata pero compartís recursos — throughput limitado, latencia variable. GPU dedicada (Vast.ai) es más cara pero es 100% tuya — puedo exigir lo que quieras, escalas sin restricción. Elegí según presupuesto y necesidad de control.

¿Funciona bien para producción o es solo para experimentación?

Funciona para producción beta o MVP — sitios con tráfico bajo-medio donde el throughput de 20-35 tokens/segundo alcanza. Si necesitás multi-request concurrente o SLA de 99.9%, no. Si necesitás escala “startup que está creciendo lentamente” sí.

Mencionamos en Argentina: opción local

Si estás en Argentina y necesitás GPU con baja latencia hacia tu aplicación, donweb.com ofrece servidores dedicados con opción de GPU (RTX 3090, H100) en infraestructura local. No es compartido, pero para desarrollo o escala pequeña, el costo es competitivo contra Vast.ai y la latencia hacia tu servidor es mejor (menos ms).

Conclusión

sllm resuelve un problema real: desarrolladores y equipos pequeños que necesitan acceso a LLMs grandes sin gastar USD 500-1000 mensuales en GPU dedicada. El modelo de cohort subscription es elegante — pagás lo justo, sin overhead operacional, con acceso a múltiples modelos.

La limitación es clara: throughput constante, no es para escala masiva, no hay SLA formalizado. Pero para startups de IA en fase temprana, investigadores, o desarrolladores que prototipan, es difícil de superar a USD 10-40/mes.

Si estás decidiendo entre opciones: si necesitás experimentar rápido y barato, sllm. Si necesitás escala predecible y SLA, Vast.ai. Si estás en Latinoamérica y el costo es crítico, sllm + donweb.com para storage/compute complementario. Los tres layers se complementan.

Comparte GPU sin límites: conoce sllm