Alibaba acaba de soltar Qwen3.6-35B-A3B, un modelo de 35 mil millones de parámetros con arquitectura sparse mixture of experts que funciona como si tuviera solo 3.6 mil millones activos. Está bajo Apache 2.0 (completamente gratis), corré localmente, y en coding agentico llega a 76.4% en SWE-bench Verified — lo más cercano a Claude que hay en open source. Según HuggingFace, generá 35 tokens por segundo en GPU consumer y soporta 262K tokens nativos de contexto.
En 30 segundos
- Qwen3.6-35B-A3B es un modelo open source de Alibaba con arquitectura sparse MoE que se ejecuta con 3.6B parámetros activos pero tiene acceso a 35B totales para más precisión
- Disponible bajo Apache 2.0 (completamente gratis) en HuggingFace desde abril de 2026, sin restricciones comerciales
- En coding agentico logra 76.4% en SWE-bench Verified, superando a todos los modelos open source y muy cerca de Claude Opus (80.9%)
- Necesita mínimo 24GB VRAM en RTX 4080 con cuantización 4-bit, o ejecutá sin GPU en Mac Studio 256GB con aceleración nativa
- Genera 35 tokens/segundo nativo, soporta 262K tokens de contexto (extensible a 1M), y maneja visión + texto en la misma arquitectura
Qué es Qwen3.6-35B-A3B: El modelo open source que compite con Claude
Qwen3.6-35B-A3B es un modelo de lenguaje de 35 mil millones de parámetros desarrollado por Alibaba bajo licencia Apache 2.0 que puede ejecutarse completamente en máquinas locales sin depender de APIs comerciales. El “3.6” en el nombre se refiere a los parámetros que están activos en cada inferencia gracias a su arquitectura sparse mixture of experts — imaginate que el modelo elige qué expertos usar en cada pregunta, en lugar de procesar todos los 35B cada vez.
Lanzado en abril de 2026, viene con soporte multimodal (visión + texto), contexto nativo de 262K tokens, y está optimizado específicamente para tareas de coding agentico — esto es, sistemas que escriben código, ejecutan tests, debuguean errores y itera sin intervención humana.
¿Por qué importa? Porque hasta ahora, si querías un modelo top-tier para coding, tenías que pagar por Claude API o GPT. Ahora podés bajar Qwen, ejecutarlo en tu GPU, y usarlo sin límite. Sin tracking de tokens, sin qué reportar a OpenAI, sin cola de request rate limits. Solo vos, el modelo, y tu máquina.
Arquitectura Sparse MoE: Por qué 35B parámetros pero solo 3B activos
Acá viene lo bueno: Qwen3.6 no usa una arquitectura densa tradicional. Tiene 256 “expertos” especializados en diferentes tareas (sintaxis, semántica, razonamiento matemático, etc.), pero en cada token que genera, solo 8 expertos routed + 1 shared están activos. El resto duerme.
Eso significa que generar un token requiere procesar solo ~3.6B parámetros aunque técnicamente tiene acceso a 35B. Resultado: eficiencia de modelo denso de 3B con potencia más cercana a un modelo de 12-14B. Es matemáticamente más barato que un modelo denso de 7B, pero mejor en calidad porque puede acceder a especialistas cuando los necesita.
La latencia nativa es de 35 tokens por segundo en GPU consumer (RTX 4090 en local), que zafa. Si la comparás con Claude Sonnet que te da 30-40 tokens/seg por API, estás hablando de un factor de velocidad muy similar, pero sin costo por token.
Capacidades para coding agentico: Benchmarks reales
Ponele que le pedís a Qwen que escriba un script que lea un CSV, limpia datos malformados, detecta outliers, y genera un reporte. Según el benchmark SWE-bench Verified (que mide capacidad de resolver issues reales de GitHub), Qwen3.6-35B-A3B logra 76.4% de exactitud. (Spoiler: eso es muy bueno.) Para contexto: Lo explicamos a fondo en comparado con Claude Sonnet 4.6.
| Modelo | SWE-bench Verified (%) | Terminal-Bench 2.0 (%) | Tipo |
|---|---|---|---|
| Claude Opus | 80.9 | N/A | API (pagado) |
| GPT-5 | 80.0 | N/A | API (pagado) |
| Qwen3.6-35B-A3B | 76.4 | 51.5 | Open source (gratis) |
| Gemma 4 (2M ctx) | 60.8 | 42.9 | Open source (gratis) |
| DeepSeek-Coder-v2 | 59.1 | 38.7 | Open source (gratis) |

La diferencia de 4.5 puntos porcentuales respecto a Opus es mínima. Si hacés el cálculo: un proyecto típico con 50 issues, Opus resuelve ~40, Qwen resuelve ~38. No es gamebreaker. Y acordate que este es el benchmark del propio modelo — en real-world testing, la brecha suele ser más chica.
En Terminal-Bench 2.0 (que mide capacidad de ejecutar comandos en terminal y debuguear errores), Qwen llega a 51.5%, versus 42.9% en Gemma y 38.7% en DeepSeek. Ahí la ventaja es más clara.
Contexto nativo de 262K tokens y multimodalidad
262K tokens nativos significan que podés pasar un proyecto de código de 50 archivos Python, la documentación de la librería que estás usando, el schema de la base de datos, y aún te queda espacio para el prompt. Extensible a 1M con técnicas de extrapolación de posiciones.
¿Qué pasa cuando pasás un proyecto completo de contexto? El modelo entiende las convenciones de nombre en TU código, los patrones que usás vos, las dependencias específicas. No inventa tablas que no existen — porque las vió todas en el contexto. El % de “alucinaciones” baja dramáticamente.
Además es multimodal: podés pasar una screenshot de un error, una imagen de un diagrama, un diagram de arquitectura, y el modelo lo procesa junto con el texto. Útil para debugging visual.
Cómo ejecutar Qwen3.6-35B-A3B localmente: 3 opciones prácticas
Opción 1: Ollama (la más fácil)
Ollama es un ejecutor one-click. Descargalo, abrí terminal, escribí:
ollama run qwen3.6-35b-a3b
Ollama automáticamente descarga el modelo (~21GB en 4-bit), carga en tu GPU si detecta CUDA, y abre una interfaz por CLI. Tardá unos 10 minutos la primera vez. Eso es. Conversá con el modelo directo.
Opción 2: llama.cpp + CUDA (eficiente, flexible)
Si querés máxima velocidad y control, clonate llama.cpp, convertí el modelo Qwen a formato GGUF (hay scripts en HuggingFace que lo hacen automático), y correlo con:
./main -m qwen3.6-35b-a3b.gguf -n 2048 -ngl 45 -c 262144
El `-ngl 45` carga 45 capas en GPU (ajustá según tu VRAM). Generá 45-50 tokens/sec en RTX 4090. Complementá con nuestra guía de modelos LLM.
Opción 3: vLLM multi-GPU (para producción)
Si tenés dos o más GPUs (o H100), vLLM paraleliza automáticamente.
python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen3.6-35B-A3B --tensor-parallel-size 2
Abre un API OpenAI-compatible en localhost:8000. Cualquier herramienta que soporte OpenAI (Claude Code, Cursor, VS Code con plugins) te ve el modelo como un servidor.
Requisitos de hardware: Calculadora práctica
Aquí va lo que la mayoría googlea y no encuentra contestado claro:
| GPU / Hardware | VRAM disponible | Cuantización recomendada | Tokens/seg | Precio aprox. |
|---|---|---|---|---|
| RTX 4080 Super | 24GB | Q4 (4-bit) | 28-32 | 1500 USD |
| RTX 4090 | 24GB | Q4 (4-bit) | 35-40 | 1800 USD |
| H100 80GB | 80GB | BF16 (nativo) | 120-140 | 5000+ USD (alquiler) |
| Mac Studio (base) | 36GB | CPU (nativo) | 8-12 | 2000 USD |
| Mac Studio (max) | 256GB | CPU+GPU | 25-35 | 6000+ USD |
Datos clave:
RTX 4080 Super 24GB: cuantización Q4 ocupa ~35-38GB (el modelo pesa 35B, Q4 es 1 byte por parámetro + overhead). Te entra. Generá 28-32 tokens/sec, que es respectable para desarrollo local.
RTX 4090 24GB: mismo VRAM, pero arquitectura más nueva (Ada), generá 35-40 tokens/sec.
Mac Studio 256GB: corre sin GPU, CPU nativamente en BF16 (16-bit float nativo). Tardá más (25-35 tokens/sec en M3 Max), pero NO necesitás NVIDIA.
H100 80GB: si tenés H100 arrendado o en datacentro, correlo en BF16 puro sin cuantizar. Speeds ridículas (120-140 tokens/sec). Costo: ~USD 3-5 por hora en AWS/Lambda.
Comparativa Qwen3.6 vs Claude Sonnet vs GPT-5 para desarrolladores
| Característica | Qwen3.6-35B | Claude Sonnet 3.5 | GPT-5 Mini |
|---|---|---|---|
| Costo por millón de tokens | $0 (local) | $3 input / $15 output | $0.15 input / $0.60 output |
| SWE-bench | 76.4% | 78.2% | 80.0% |
| Latencia (50K tokens) | 30-35 tokens/sec local | 25-30 tokens/sec (API) | 15-20 tokens/sec (API) |
| Contexto | 262K nativo / 1M extendido | 200K | 128K |
| Multimodal | Sí (visión + texto) | Sí | Sí |
| Licencia | Apache 2.0 (abierta) | Proprietary | Proprietary |
| Hosting | Máquina local + control total | API Anthropic | API OpenAI |
¿Cuándo elegir cada uno?
Qwen3.6: Cuando necesitás máxima privacidad (datos confidenciales), no querés pagar por token, o necesitás latencia ultra-baja (local). Equipos que debuguean 50+ issues por semana van a ahorrar miles con local + gratis. Más contexto en cómo ejecutar modelos localmente.
Claude Sonnet: Cuando necesitás 3-4 puntos porcentuales más de precisión en coding y podés pagar. El agentic browser-use de Claude sigue siendo el mejor para tareas multi-step reales. Mejor reasoning en áreas no-coding.
GPT-5: Si tu stack es Microsoft (GitHub Copilot, Azure, Office 365). Si no, es overkill para coding.
Licencia Apache 2.0 y casos de uso empresariales
Apache 2.0 significa: podés usar, modificar, distribuir, y monetizar sin pedir permiso a Alibaba. Querés vender un SaaS que usa Qwen en backend? Hacelo. Querés entrenar sobre Qwen para tu vertiente? Permitido. Querés ofrecerlo como API? Totalmente legal.
Compará con proprietary APIs:
OpenAI te prohíbe usar GPT dentro de un modelo competidor. Anthropic permite uso comercial pero te hace firmar acuerdo. Alibaba con Apache 2.0: nada de eso. Agarrá el código, hacé lo que quieras.
Casos de uso reales:
Startups de IA que no pueden financiar compute de OpenAI: Qwen local reduces costs 80%. Consultorías que atienden clientes con datos sensibles: ejecutá Qwen en servidores del cliente, zero API calls. Equipos de DevOps que quieren copilot privado: Qwen en sus laptops, documentación corporativa en contexto.
Eso sí, Apache 2.0 también significa que vos sos responsable por bugs, hallucinations, y lo que el modelo genera. No hay SLA ni garantía de Alibaba. Pero para desarrollo interno, eso no es problema.
Errores comunes cuando ejecutas Qwen3.6
Error 1: Intentar correr el modelo en 8-bit sin suficiente VRAM
8-bit quantization de 35B ocupa ~70GB. Si tu GPU tiene 24GB, vas a ver OOM (out of memory) después de 20-30 segundos. Solución: bajá a Q4 (4-bit, ~35-38GB) o usa Ollama que automáticamente elige Q4. No hay por qué sufrir. Te puede servir nuestra cobertura de herramientas de IA disponibles.
Error 2: No paralelizar en multi-GPU cuando tenés disponibles
Si tenés dos RTX 4090, estás usando solo una por defecto. Bajá vLLM y activá `–tensor-parallel-size 2`. Latencia baja de 35 tokens/sec a 55-60. No es magia, es dividir el modelo entre GPUs. Mucha gente deja compute sobre la mesa.
Error 3: Usar el modelo con prompts genéricos sin contexto
Qwen brilla cuando le pasás contexto: archivos de código, documentación, schemas. Si le preguntás “escribime un REST endpoint” sin contexto, te dá algo genérico. Si le pasás “aquí está mi codebase, aquí está el patrón que uso, ahora escribime un endpoint”, te devuelve código que se integra en dos segundos. Aprovechá los 262K tokens.
Preguntas Frecuentes
¿Qué es Qwen3.6-35B-A3B y para qué sirve?
Es un modelo de IA que escribe código, debuguea errores, y resuelve tareas de programación tan bien como Claude Opus. Tiene 35 mil millones de parámetros pero usa solo 3.6 mil millones activos por cada token, lo que hace que sea barato de correr localmente. Está libre bajo Apache 2.0, así que podés descargarlo, ejecutarlo en tu GPU, y usarlo sin pagar nada.
¿Cómo ejecuto Qwen3.6-35B-A3B localmente en mi GPU?
Lo más simple: descargá Ollama, escribí `ollama run qwen3.6-35b-a3b` y tardá 10 minutos en descargar. Ya está, conversá con el modelo. Si querés más control, clonate llama.cpp, convertí el modelo a GGUF, y correlo con los flags de GPU activados (.-ngl 45 para cargar capas en VRAM).
¿Qué tan bueno es Qwen3.6-35B-A3B comparado con Claude para coding?
En SWE-bench (el estándar para medir coding), Qwen logra 76.4% versus Claude Opus 80.9%. Eso es una diferencia de 4.5 puntos — o en un proyecto con 100 issues, Claude resuelve 80 y Qwen resuelve 76. Real-world, la brecha es más chica porque los benchmarks son casos extremos.
¿Cuánta VRAM necesito para correr Qwen3.6-35B-A3B?
Con cuantización Q4 (4-bit), necesitás mínimo 24GB. Una RTX 4080 entra justo. Una RTX 4090 te da margen. Si no tenés GPU NVIDIA, un Mac Studio con 36GB+ corre en CPU (más lento, pero funciona). En RTX 4080, generá 28-32 tokens por segundo.
¿Es gratis usar Qwen3.6-35B-A3B o tiene costo?
Completamente gratis. Licencia Apache 2.0, código abierto, podés descargar, ejecutar, modificar y vender productos basados en él sin pagar nada a Alibaba. El costo real es electricidad de la GPU (pongamos USD 20-30 por mes si lo usás 8 horas al día todos los días).
Conclusión
Qwen3.6-35B-A3B es un salto real en la accesibilidad de modelos de clase mundial. Durante años, si querías top-tier coding, pagabas suscripcción o computaba API. Ahora hay una alternativa open source que llega a 76.4% en los mismo benchmarks donde Opus llega a 80.9% — pero es gratis, corre en tu máquina, y no reporta a nadie.
¿Significa que ahora todos dejan de pagar a OpenAI o Anthropic? No. Qwen es mejor para self-hosted, privacidad, y casos de uso empresarial a escala. Claude sigue siendo mejor para agentic reasoning multi-step complejo (browser automation, debugueo de errores profundos). Pero para el 80% de los equipos que necesitan un copilot de código, Qwen es la opción que no deberías ignorar.
Si tenés GPU consumer (RTX 4080+), probá Ollama y metete un proyecto real. Tardá 10 minutos en estar operativo. Si no entra en tu VRAM, o preferís latencias aún más bajas, la arquitectura sparse hace que escale bien a cuantizaciones más agresivas. El modelo está diseñado para ancho de banda limitado.
Alibaba apostó fuerte acá. Liberó Apache 2.0 para que adoptemos, mejoremos, y usemos sin restricción. Eso es raro en IA. Aprovechalo.
Fuentes
- Anuncio oficial de Qwen3.6-35B-A3B – Blog de Alibaba Qwen
- Qwen3.6-35B-A3B en HuggingFace – Descarga del modelo y documentación
- Repositorio oficial Qwen3-Coder – Scripts de ejecución y ejemplos
- Ollama – Ejecutor one-click para modelos locales
- llama.cpp – Framework para ejecutar modelos cuantizados con máxima velocidad
