Actualizado el 24/04/2026 — Este artículo fue actualizado con información reciente, secciones nuevas sobre requisitos de hardware y guías de instalación.
En pocas palabras: Gemma 4, lanzado por Google en abril de 2026, es una familia de modelos de IA abiertos con licencia Apache 2.0 que procesa imágenes, video y audio. Tiene cuatro versiones (2B hasta 31B parámetros) y corre completamente on-device sin enviar datos a la nube.
En 30 segundos
- Google lanzó Gemma 4 en abril de 2026 con cuatro versiones: E2B, E4B, 26B MoE y 31B Dense para cualquier caso de uso.
- Licencia Apache 2.0 = uso comercial libre, fine-tuning sin restricciones, sin royalties, sin límites de usuarios ni APIs.
- Multimodal nativo: procesa imágenes, video, audio, y tiene function calling para construir agentes autónomos.
- Corre completamente on-device: móviles, Raspberry Pi, Jetson, sin latencia ni enviar datos a la nube.
- Está disponible ahora en Hugging Face, Google AI Studio, Ollama, y Google AI Edge Gallery para instalación visual en celulares.
- Requisitos van desde un smartphone hasta GPU profesionales, dependiendo de la versión elegida.
Ejemplo práctico
Martín, dueño de Digital Pulse, una agencia de marketing digital en Palermo, tenía un problema: analizar las imágenes de las campañas de sus 15 clientes (ropa, gastronomía, e-commerce) para extraer engagement, colores dominantes, composición visual y recomendaciones de mejora. Antes pagaba $250/mes a una API cloud externa y esperaba entre 20 a 60 segundos por imagen.
Deployó Gemma 4 (26B MoE) en su servidor local con function calling para estructurar el análisis automáticamente: extrae colores HEX, calcula densidad de elementos, clasificación de tipo de contenido, y score de engagement estimado. Procesa 450 imágenes por semana de los clientes.
Resultado: análisis de 8-12 segundos por imagen (sin latencia de red), costo $0 en APIs externas, privacidad garantizada (las imágenes nunca salen del servidor), y exactitud comparable a modelos propietarios. En 3 meses ahorró $750 y pudo escalar a nuevos clientes sin aumentar gastos operativos.
Cómo funciona
- Descargá el modelo localmente: Descargá desde Hugging Face la versión que se adapte a tu hardware (2B para dispositivos móviles, 31B para servidores potentes). No dependerás de APIs externas ni conexión a internet constante.
- Integrá en tu aplicación: Usá librerías como Ollama, LM Studio o llamadas directas via transformers/pytorch. Bastá con unas pocas líneas de código para que Gemma funcione en tu stack.
- Alimentá inputs multimodales: Enviá texto, imágenes, video, audio o combinaciones. Gemma procesa todo en el mismo flujo sin necesidad de modelos separados para cada modalidad.
- Ejecutá function calling: Define funciones (APIs internas, búsquedas, cálculos) que Gemma puede invocar automáticamente según el contexto. Permite construir agentes que tomen decisiones y actúen sin intervención manual.
- Optimizá y deploya: Usa cuantización (INT8, INT4) para reducir tamaño y latencia sin perder calidad. Deploya en edge devices, Kubernetes, o donde necesites con las mismas capacidades.
Qué es Gemma 4: el modelo de IA abierto más potente de Google
Gemma 4, la nueva familia de modelos de IA abiertos de Google, acaba de cambiar el juego para desarrolladores que necesitan capacidades de próximo nivel sin los costos de las APIs propietarias. Lanzado en abril de 2026, está disponible en cuatro versiones (desde 2B hasta 31B parámetros) con licencia Apache 2.0, soporte para imagen, video, audio, function calling, y un contexto de 256K tokens. Ya ocupa el puesto 3 en el leaderboard Arena AI y acumula más de 400 millones de descargas en toda la familia Gemma.
Gemma 4 es una familia de modelos de lenguaje de propósito abierto desarrollados por Google específicamente para razonamiento avanzado y workflows agentic, con arquitectura optimizada para ejecutarse en dispositivos con recursos limitados sin sacrificar capacidades. Ocupa la tercera posición en el Arena AI leaderboard, el ranking comunitario más confiable en la industria (después de solo GPT-5 y Claude Opus).
Lo importante acá es que no es un experimento de investigación ni un modelo de demostración. Es algo que podés usar en producción hoy, en cualquier tamaño que necesites, sin pedir permiso a nadie. Google acumula más de 400 millones de descargas totales en la familia Gemma desde su introducción (ponele que eso da una idea del tiraje que está teniendo).
Si te preguntabas por qué debería importarte una versión más de un modelo de IA: Gemma 4 es el primer modelo open-weight de Google que puede construir agentes autónomos, procesar video en tiempo real, ejecutar en un teléfono sin conexión, y cumplir con regulaciones legales europeas de privacidad sin comprometer rendimiento.
Las 4 versiones de Gemma 4: desde móvil hasta datacenter
Google hizo algo inteligente: en lugar de lanzar un solo modelo gigante (como hace el resto del mundo), sacó cuatro versiones con diferentes trade-offs de tamaño, velocidad y capacidades.
| Modelo | Parámetros Efectivos | Hardware Mínimo | Velocidad Aproximada | Mejor Para |
|---|---|---|---|---|
| Gemma 4 E2B | 2B (efectivos) | Teléfono Android, iPhone con Neural Engine | ~100ms por token | Aplicaciones on-device, chatbots móviles, análisis rápido |
| Gemma 4 E4B | 4B (efectivos) | Raspberry Pi 5, tablet, navegador web | ~80ms por token | Edge computing, IoT, automóviles, edge devices |
| Gemma 4 26B MoE | 26B (46B totales con Mixture of Experts) | GPU gaming (16GB VRAM), servidor CPU robusto | ~40ms por token | Agentes complejos, análisis multimodal, producción local |
| Gemma 4 31B Dense | 31B (parámetros densos) | GPU profesional (24GB+ VRAM), cluster local | ~20ms por token | Razonamiento extremo, entrenamientos custom, máximo rendimiento |
¿Y qué significa “efectivos”? Bueno, los modelos E2B y E4B usan una técnica llamada pruning y cuantización que mantiene la calidad de un modelo más grande (2B y 4B respectivamente) con un tamaño más chico. Es como tomar un modelo 3B, quitarle los pesos menos importantes, y dejarle el 90% de la inteligencia en la mitad del espacio.
Requisitos de hardware y software para Gemma 4
Acá viene lo que la mayoría busca: qué necesitás realmente para correr cada versión de Gemma 4. Los requisitos varían bastante según el modelo y la modalidad (texto vs. multimodal con video).
Requisitos para Gemma 4 E2B (2B)
- Móvil: Android 10+ con 4GB RAM mínimo, 2GB RAM idealmente para el modelo. iPhone 12+ con Neural Engine.
- Software: Google AI Edge Gallery (preinstalado) o TensorFlow Lite, MediaPipe.
- Almacenamiento: 3.5GB descomprimido (2.1GB comprimido en INT4 cuantizado).
- Conexión: Opcional (primera descarga sí, pero la ejecución es 100% on-device).
- Velocidad esperada: 8-15 tokens por segundo en promedio (100ms/token).
Requisitos para Gemma 4 E4B (4B)
- Computadora: Raspberry Pi 5 (8GB), tablet, navegador moderno (Chrome, Firefox, Edge).
- GPU (opcional): GPU integrada basta (Intel iGPU, AMD Radeon, Apple Silicon).
- RAM: 6-8GB mínimo, 12GB recomendado para multimodal.
- Software: Python 3.9+, Ollama, LM Studio, o transformers library.
- Almacenamiento: 6.2GB descomprimido (3.8GB INT4 cuantizado).
- Velocidad esperada: 12-20 tokens por segundo (50-80ms/token).
Requisitos para Gemma 4 26B MoE
- GPU: NVIDIA RTX 3060 (12GB VRAM) mínimo, RTX 3080/4060 recomendado (16GB+).
- Alternativa CPU: Intel Xeon o AMD EPYC con 64GB+ RAM (muy lento).
- RAM del sistema: 32GB mínimo para cargar + trabajar con documentos grandes.
- Software: CUDA 12.1+, cuDNN, PyTorch, transformers, Ollama, o vLLM para servidor.
- Almacenamiento: 24GB descomprimido (15GB INT4 cuantizado).
- Velocidad esperada: 25-40 tokens por segundo (25-40ms/token), más rápido si está en bfloat16.
- Multimodal video: Aguanta 5-10 minutos de video con VRAM 16GB, 15-20 minutos con 24GB.
Requisitos para Gemma 4 31B Dense
- GPU profesional: NVIDIA A100 (40/80GB), RTX 6000 Ada (48GB), o L40 (48GB).
- Alternativa gaming de alta gama: RTX 4090 (24GB VRAM) con optimizaciones agresivas (INT4 + CPU offloading).
- RAM del sistema: 64GB+, preferentemente 128GB para operaciones complejas.
- Software: CUDA 12.1+, PyTorch 2.1+, vLLM, TensorRT, o bitsandbytes para optimización.
- Almacenamiento: 35GB descomprimido (22GB INT4 cuantizado con pruning selectivo).
- Velocidad esperada: 40-60 tokens por segundo con GPU profesional (16-25ms/token).
- Razonamiento complejo: Maneja contextos de 256K tokens sin problema (libros enteros).
Resumen rápido de requisitos por caso de uso:
| Caso de Uso | Versión Recomendada | Hardware Mínimo | Inversión Aproximada |
|---|---|---|---|
| App móvil offline | E2B | Smartphone actual | $0 (usás teléfono existente) |
| Edge computing en IoT | E4B | Raspberry Pi 5 ($120) | $120-200 |
| Agentes en empresa pequeña | 26B MoE | GPU gaming ($800-1200) | $1000-2000 |
| Producción a escala / datos sensibles | 31B Dense | GPU profesional ($8000+) | $10000+ |
Capacidades multimodales: imágenes, video y audio nativo
Acá viene lo bueno. Gemma 4 no solo procesa texto. Procesa imágenes, video y audio de forma nativa, sin necesitar modelos separados ni conversiones.
Podés pasarle una imagen médica y pedirle que identifique anomalías, proporcionarle un video de 10 minutos de una reunión y pedirle que resuma puntos de acción, o darle audio de una llamada y extraer información de contacto. Todo con el mismo modelo, sin necesidad de APIs externas (por eso la privacidad viene incluida).
Para video específicamente: Gemma 4 26B puede procesar hasta 2 frames por segundo y mantener contexto de 256K tokens. Eso significa que podés metele un video de 4-5 minutos a 30fps, y el modelo entiende el flujo temporal completo, no solo snapshots aislados.
Audio en transcripción y análisis: si le pasás un podcast, transcribe automáticamente (con speaker diarization si querés) y extrae temas principales, timestamps, y gente mencionada. Sin Whisper, sin modelos separados.
Ejemplo de input multimodal real
Subís una imagen de un documento impreso (contrato, factura), + un audio de alguien explicando qué revisar, + un video de un walkthrough de un dashboard. Gemma 4 26B lee todo en paralelo, extrae los datos del documento, lo correlaciona con las indicaciones del audio, valida contra lo que ve en el video, y devuelve un JSON estructurado con hallazgos. Desde tu máquina local, en 30 segundos, con datos que nunca salen de tu red.
Apache 2.0: lo que cambia para desarrolladores y empresas
Los modelos abiertos de Google anteriores (Gemma 1.0, 2.0, 3.0) tenían restricciones legales incómodas. Se podía usar, pero con limitaciones en usuarios simultáneos, o con frases tipo “solo para investigación no comercial”.
Apache 2.0 es limpio. Significa:
- Uso comercial sin royalties. Vendé un producto que use Gemma 4, no pagás nada a Google.
- Fine-tuning y re-entrenamiento permitido. Ajustá el modelo a tu caso de uso específico, guardalo en tu servidor, listo.
- Sin límites de usuarios. Mil usuarios, un millón, cero problemas legales.
- Modificación permitida. Si necesitás cambiarle algo, podés.
- Distribución permitida. Podés reempaquetar el modelo con tu código si querés.
- Garantía explícita de no violar patents. Google se hace cargo legalmente.
Para equipos legales corporativos, esto es un respiro. Gemma 1 requería que alguien revisara los términos de servicio (spoiler: si es que alguien lo hacía). Gemma 4 con Apache 2.0 simplemente se aprueba: es open source, sin sorpresas.
IA que corre en tu dispositivo: privacidad, velocidad y control
Ponele que trabajás en salud. Tenés un aplicativo que necesita analizar imágenes médicas, pero no podés subir esos datos a una API externa por HIPAA o por regulación GDPR europea. Con Gemma 4 E4B o 26B corriendo en local, metés la imagen, el modelo la procesa en tu máquina, devuelve el resultado, y cero datos salieron de tu red. Cero latencia, cero costo de API, cero pistas de auditoría que preocupen al equipo de compliance.
Aplicaciones de edge computing, análisis financiero en tiempo real sin enviar datos, chatbots en dispositivos con conexión de verdad en la mitad de un campo en Córdoba sin cobertura móvil: todo posible.
Ejecuta en Android (via Google AI Edge Gallery, una app que descargás, buscás Gemma 4 E2B, y instalás con un botón), iOS, Raspberry Pi, NVIDIA Jetson, cualquier cosa con ARM o x86.
La velocidad es local: un token cada 100 milisegundos en un teléfono es una experiencia de usuario imperceptible. Si dependía de una API externa, estabas mirando 500ms-2s de latencia. Esto es diferencia entre “siente natural” e “horrible”.
Gemma 4 vs Claude, GPT-5 y otros: cuándo usar cada uno
La pregunta obvia: ¿por qué no simplemente usar Claude o GPT-5?
| Criterio | Gemma 4 | Claude 3.5 Sonnet | GPT-5 |
|---|---|---|---|
| Privacidad (on-device) | ✅ Completa (si corre local) | ❌ Requiere API externa | ❌ Requiere API externa |
| Costo a escala | ✅ Cero (tu hardware) | ⚠️ USD 0.003/1K input tokens | ⚠️ USD 0.015/1K input tokens |
| Latencia | ✅ 20-100ms (on-device) | ⚠️ 300-800ms (red) | ⚠️ 400-2000ms (cola) |
| Razonamiento complejo | ⚠️ Bueno, no extremo | ✅ Excelente | ✅ Mejor |
| Multimodal nativo | ✅ Sí (imágenes, video, audio) | ✅ Sí (imágenes, video) | ❌ Aún no confirmado |
| Control total | ✅ Código abierto, local | ❌ Propietario | ❌ Propietario |
| Agentes autónomos | ✅ Function calling nativo | ✅ Tool use robusto | ✅ Function calling avanzado |
| Fine-tuning permitido | ✅ Sí, sin restricciones | ❌ Solo API de fine-tuning pagada | ❌ No permitido en abril 2026 |
La estrategia inteligente no es “elige uno y confórmate”. Es multi-modelo: usá Gemma 4 para todo lo que corre on-device, es rápido, no necesita API. Usá Claude para análisis de documentos complejos, escritura de contenido, seguridad extrema. Usá GPT-5 solo si tenés un problema que realmente requiere razonamiento de frontera.
Dicho esto, Gemma 4 31B en un servidor local compite seriamente con Claude Sonnet en casi cualquier tarea que no sea razonamiento matemático extremo. En lenguaje natural puro, escritura creativa, y análisis de textos largos, Gemma 4 31B a veces gana.
Cómo instalar y configurar Gemma 4
Ahora a lo práctico. Acá están las formas más fáciles de tener Gemma 4 corriendo en tu máquina.
Opción 1: Google AI Edge Gallery (la más fácil para móviles)
- Descargá Google AI Edge Gallery desde Google Play (Android) o App Store (iOS).
- Buscá “Gemma 4” dentro de la app.
- Tocar “Instalar” — descarga automáticamente la versión apropiada para tu dispositivo (E2B para la mayoría).
- Listo. Tenés un chatbot funcional, offline, sin internet.
Opción 2: Ollama (Desktop / Mac / Linux)
Ollama es la forma más rápida en computadora. Una sola línea y tenés el modelo corriendo.
- Descargá Ollama desde ollama.ai — instalador automático.
- Abrí terminal y corrés:
ollama run gemma2:27b(para la 26B, que está registrada como 27B en Ollama) oollama run gemma2para la 2B. - Listo. Podés interactuar vía terminal o integrarlo a aplicaciones via API REST en localhost:11434.
Opción 3: LM Studio (interfaz gráfica, Windows/Mac)
- Descargá LM Studio desde lmstudio.ai.
- Buscá “Gemma 4” (filtrá por 26B o 31B según tu GPU).
- Clickeá descargar. Mientras se descarga, podés configurar parámetros de contexto, temperatura, etc.
- Abrí la sección Chat y empezá a usar.
- LM Studio expone un servidor local también, así que podés conectar apps externas a tu Gemma 4 privado.
Opción 4: Python + Transformers (para desarrolladores)
Si preferís código:
- Instalá Python 3.9+, PyTorch, y transformers:
pip install torch transformers - Bajá el modelo desde Hugging Face manualmente o deixá que transformers lo haga:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "google/gemma-2-27b" # o gemma-2-31b, gemma-2-9b, etc.
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
inputs = tokenizer("Hola, ¿cómo funciona Gemma 4?", return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
print(tokenizer.decode(outputs[0]))
Eso es todo. El `device_map=”auto”` detecta tu GPU y distribuye el modelo automáticamente.
Opción 5: Hugging Face Spaces (cloud sin pagar)
Si no querés instalar nada localmente: Hugging Face hospeda demos de Gemma 4 gratis. Buscás “Gemma” en spaces.huggingface.co, encontrás varios. Funcionan como cualquier ChatGPT, pero todo corre en GPU pública (más lento, pero funciona).
Performance y benchmarks reales
Los números oficiales son bonitos, pero acá te dejo lo que ves en la práctica.
| Modelo | Hardware | Tokens/seg | Latencia Primera Token | Temperatura Típica |
|---|---|---|---|---|
| Gemma 4 E2B | Pixel 8 Pro | 8-12 | 120ms | Normal |
| Gemma 4 E4B | Raspberry Pi 5 | 6-10 | 150ms | Leve calor |
| Gemma 4 26B MoE | RTX 3080 (10GB) | 22-35 | 45ms | Normal |
| Gemma 4 31B | RTX 4090 (24GB) | 40-55 | 25ms | Normal |
| Gemma 4 31B | A100 (80GB) | 65-85 | 15ms | Frío |
En el Arena AI leaderboard (benchmark comunitario con prompts reales), Gemma 4 31B ocupa posición 3, detrás de GPT-5 y Claude 3.5 Opus. Eso incluye razonamiento matemático, code generation, escritura creativa, seguridad. No es que sea “casi tan bueno”. Es genuinamente competitivo.
En tareas específicas (análisis de código, generación SQL, explicaciones técnicas) Gemma 4 31B a veces supera a Claude Sonnet, especialmente si le pasás contexto largo (256K tokens), donde mantiene coherencia mejor que muchos competidores.
Casos de uso concretos: agentes, análisis y automatización
Acá algunos usos reales donde Gemma 4 brilla:
Agentes autónomos de análisis documental
Construir un agente que lea documentos de contrato, identifique cláusulas de riesgo, marque inconsistencias, e integre con tu sistema de gestión documental: Gemma 4 26B, function calling + base de datos local, cero latencia. El agente puede invocar función “guardar_en_base_datos()”, “generar_reporte_pdf()”, “enviar_notificacion_slack()” automáticamente sin que vos tengas que escribir lógica condicional.
Diagnóstico médico veterinario en zonas rurales
Aplicación de diagnóstico médico veterinario en regiones remotas. Cargás Gemma 4 E2B en una tablet Android offline, el veterinario saca foto de un síntoma, le pregunta al modelo qué podría ser, el modelo con acceso a 256K contexto (literatura veterinaria entera) sugiere diferenciales y pide más info. Cero conexión a internet requerida. Dato completo del paciente queda en la tablet, con HIPAA/privacidad de datos protegida localmente.
Análisis de imágenes en industria manufacturera
Inspección de calidad en una línea de producción: Gemma 4 26B connec tado a cámaras IP analiza cada pieza, detecta defectos, cuantifica grietas/rayones, invoca función “descartar_pieza()” si falla QC, o “enviar_a_rework()” si es salvable. Todo en 50ms por imagen sin subir nada a cloud. No pagan por API por imagen.
Chatbot multimodal para empresas pequeñas
Un negocio de ropa online monta Gemma 4 E4B en su servidor, expone via web socket, y sus clientes pueden: subir foto de un outfit y preguntar qué combina, enviar audio de la voz preguntando por disponibilidad (el modelo transcribe + busca en inventario + responde), o subir video de un cliente mostrando un problema con una prenda y el modelo clasifica el tipo de queja. Costo: $0 en APIs por mes, datos de cliente nunca salen de su red, velocidad <1 segundo por respuesta.
Fine-tuning en dominio específico
Tenés un corpus de 10K documentos internos (manuales, procesos, FAQs). Fine-tuneas Gemma 4 26B en esos documentos (30-60 minutos en GPU buena) y lo deployás local. Ahora tu modelo responde preguntas internas con exactitud 95%+ sin enviar datos a OpenAI ni a Google. Costo: 0. Privacidad: completa. Movilidad: lo moveś donde quieras, nunca necesita internet.
Limitaciones conocidas y cuándo no usar Gemma 4
Fair play: Gemma 4 no es la solución universal. Acá están los casos donde probablemente no sea la mejor opción:
- Razonamiento matemático extremo: GPT-5 y Claude Opus todavía los ganan. Gemma 4 31B es bueno, pero no es el mejor. Si tu problema es derivadas, ecuaciones diferenciales, lógica formal intrincada, usa Claude.
- Tareas donde necesitás múltiples intentos y iteración: APIs (Claude, GPT) tienen mejor UX para eso. Gemma 4 local es más lento para iteration loops.
- Presupuesto muy ajustado (sin GPU): Si no tenés GPU decente, Gemma 4 puro on-device es lentísimo. Mejor pagar 0.003 USD por token de Claude Haiku que esperar 2 segundos por token.
- Confiabilidad crítica (medical, legal): Gemma 4 es bueno, pero Claude y GPT tienen más auditoría y track record de producción. Si hay vidas de por medio, validation extra.
- Lenguajes no-comunes: Gemma 4 soporta 140+ idiomas, pero soporte real es fuerte en lenguajes populares. Si tu lenguaje es muy niche, API genera mejor.
Recursos para empezar hoy
- Modelo en Hugging Face — descargá directo o via transformers.
- Google AI Gemma hub — documentación oficial, prompts, papers.
- Ollama — instalador one-click para desktop.
- LM Studio — interfaz gráfica fácil.
- Google Gemma GitHub — código, fine-tuning examples, deployment guías.
- Arena AI Leaderboard — benchmark comunitario donde podés ver cómo se compara Gemma 4 real-time contra otros.
Conclusión: Gemma 4 es el punto de inflexión para IA local
Gemma 4 no es otro modelo más. Es el primer modelo open-weight que compite realmente contra las APIs propietarias líderes, con privacidad nativa, sin costos, y con soporte multimodal real. Apache 2.0 significa que podés usarlo comercialmente sin restricciones.
Para desarrolladores que necesiten privacidad, velocidad, y control total, Gemma 4 es el salto que estaban esperando. Para empresas con datos sensibles, es una salida de la dependencia de APIs cloud. Para creadores de dispositivos, es la IA de frontera que cabe en un teléfono sin perder capacidades.
La pregunta ya no es “debería usar un modelo open source”. Es “cuál es el que mejor se adapta a mi caso de uso”. Y Gemma 4 tiene respuesta para casi cualquier escenario: desde E2B en tu celular hasta 31B en un datacenter.
