Gemini 3.5 Flash: 4x más rápido, benchmarks y precios

En pocas palabras: Gemini 3.5 Flash, presentado el 19 de mayo de 2026 en Google I/O, es el modelo por defecto del AI Mode de Google Search. Genera 289 tokens por segundo, acepta 1 millón de tokens de contexto y supera a Gemini 3.1 Pro en coding y tareas agénticas.

Google anunció Gemini 3.5 Flash el 19 de mayo de 2026 en Google I/O y, ese mismo día, lo convirtió en el modelo por defecto del AI Mode de Google Search. Según el anuncio oficial, el modelo genera 289 tokens por segundo, 4 veces más rápido que otros modelos frontera, y supera a Gemini 3.1 Pro en benchmarks de coding y tareas agénticas.

En 30 segundos

Gemini 3.5 Flash se anunció el 19 de mayo de 2026 en Google I/O y ya es el motor de AI Mode en Google Search a nivel global.
Es 4 veces más rápido que otros modelos frontera (289 tokens/seg) y acepta hasta 1 millón de tokens de contexto.
Supera a Gemini 3.1 Pro en Terminal-Bench 2.1 (76.2%), GDPval-AA (1656 Elo) y MCP Atlas (83.6%).
Está disponible gratis en la app Gemini para todos los usuarios, no solo los de pago.
El precio para desarrolladores es $1.50 por millón de tokens de entrada, 25% más barato que Gemini 3.1 Pro.

Gemini es un modelo de inteligencia artificial multimodal desarrollado por Google, capaz de procesar y generar texto, imágenes, audio y video. Fue lanzado en 2024.

¿Qué es Gemini 3.5 Flash? Anuncio oficial de Google I/O 2026

Gemini 3.5 Flash es el modelo de inteligencia artificial de Google optimizado para velocidad y capacidades agénticas, lanzado oficialmente el 19 de mayo de 2026 en Google I/O. Es parte de la familia Flash de Google DeepMind, diseñada para tareas que requieren respuestas rápidas sin sacrificar calidad en razonamiento complejo.

Liz Reid, directora de Google Search, lo presentó como el nuevo motor del AI Mode global: “Gemini 3.5 Flash es nuestro modelo Flash más nuevo, con rendimiento de frontera sostenido para agentes y código.” Koray Kavukcuoglu, CTO de Google DeepMind, fue más específico: “Entrega inteligencia que rivaliza con grandes modelos insignia en múltiples dimensiones, a la velocidad que esperás de la serie Flash.”

Lo interesante es que el anuncio no fue solo una presentación: el despliegue fue inmediato. El día del lanzamiento, Gemini 3.5 Flash ya estaba funcionando en Search, en la app Gemini para usuarios gratuitos, y disponible en la API para desarrolladores. No hubo beta cerrada ni lista de espera.

Velocidad y capacidades: 4x más rápido con 1 millón de tokens de contexto

El número que más llama la atención es la velocidad: 289 tokens por segundo. Para ponerlo en perspectiva, la mayoría de los modelos frontera actuales operan entre 60 y 80 tokens por segundo en condiciones equivalentes. Eso hace que Gemini 3.5 Flash sea, según datos de Google, 4 veces más rápido que sus competidores directos.

La ventana de contexto llega a 1 millón de tokens. Si alguna vez trabajaste con bases de código grandes o documentos corporativos extensos, sabés que las ventanas de 128k o 200k tokens se quedan cortas rápido. Con 1 millón de tokens podés meter un repositorio completo, toda la documentación de un proyecto y los logs de producción, y el modelo los procesa en un solo pase.

El soporte multimodal cubre texto, imagen, audio y video. Eso no es nuevo en la familia Gemini, pero el salto acá está en el benchmark de comprensión multimodal: CharXiv Reasoning llegó al 84.2%, que es el número más alto reportado por Google para cualquier modelo Flash hasta la fecha (sí, incluyendo versiones Pro anteriores). Lo explicamos a fondo en todo lo que necesitás saber sobre Gemini.

Gemini 3.5 Flash Google en benchmarks: supera a Gemini 3.1 Pro en código y agentes

Acá viene lo bueno: Gemini 3.5 Flash no solo supera a modelos de la competencia, supera a Gemini 3.1 Pro, el modelo insignia anterior de Google. Eso es relevante porque Pro siempre fue el techo de calidad de la familia, y ahora un modelo “económico” lo deja atrás en tareas específicas.

Benchmark	Qué mide	Gemini 3.5 Flash	Gemini 3.1 Pro
Terminal-Bench 2.1	Tareas de programación en terminal	76.2%	Inferior
GDPval-AA	Tareas agénticas autónomas	1656 Elo	Inferior
MCP Atlas	Uso de herramientas y MCPs	83.6%	Inferior
CharXiv Reasoning	Comprensión multimodal	84.2%	No publicado

gemini 3.5 flash google diagrama explicativo

Ojo con estos números: vienen de Google, que es el fabricante. Los benchmarks propios siempre hay que tomarlos con pinzas hasta que aparezcan evaluaciones independientes. Lo que sí está claro es que el salto respecto a 3.1 Pro en coding y tareas agénticas es real y documentado con metodología pública.

¿Y contra la competencia? El benchmark GDPval-AA en 1656 Elo coloca a Gemini 3.5 Flash por encima de los modelos equivalentes publicados por otros proveedores al momento del lanzamiento. En MCP Atlas (que mide el uso de herramientas, algo crítico para agentes de IA), el 83.6% es un número que ningún modelo de la competencia ha igualado públicamente en mayo de 2026.

Impacto en Google Search: el AI Mode que usa 1000 millones de personas

Google Search tiene más de 1000 millones de usuarios mensuales. Desde el 19 de mayo de 2026, todos ellos están usando Gemini 3.5 Flash cuando activan el AI Mode, sin opción a elegir un modelo anterior.

Según el anuncio de Google I/O, el AI Mode potenciado por Gemini 3.5 Flash incorpora funcionalidades nuevas: búsqueda por video e imágenes directamente desde la interfaz, lectura de pestañas abiertas en Chrome para contextualizar las respuestas, y reformulación automática de consultas cuando el modelo detecta que la pregunta original no va a producir resultados útiles. Para más detalles técnicos, mirá integrar Gemini en Node.js paso a paso.

Esta última capacidad es interesante. Antes, si buscabas algo ambiguo, Google te devolvía resultados y vos reescribías la consulta. Ahora el modelo puede hacer esa iteración internamente antes de mostrarte la respuesta. (Si esto va a mejorar o complicar el trabajo de SEO es una pregunta que todavía no tiene respuesta clara.)

Las capacidades agénticas del AI Mode también se amplían: podés pedirle que complete tareas en sitios web, que haga comparaciones entre productos con datos actualizados, y que genere resúmenes de contenido multimedia. Todo esto corriendo sobre Gemini 3.5 Flash en tiempo real.

Disponibilidad: ya está activo para todos, gratis

El rollout ya arrancó y según el blog oficial de Google, estos son los puntos de acceso activos desde el 19 de mayo de 2026:

App Gemini: disponible para todos los usuarios, incluidos los de plan gratuito. Antes el acceso a modelos avanzados requería suscripción.
AI Mode de Google Search: activo globalmente como modelo por defecto.
Google AI Studio: disponible vía Gemini API para desarrolladores.
Android Studio: integrado para asistencia de código en desarrollo Android.
Enterprise Agent Platform: disponible para clientes empresariales de Google Cloud.
Google Antigravity: plataforma experimental de Google para aplicaciones de nueva generación.

Para Argentina y el resto de Latinoamérica, el acceso en la app Gemini y en Google Search está disponible desde el primer día, sin restricciones geográficas reportadas. La API para desarrolladores también está activa globalmente.

Precio: $1.50 por millón de tokens de entrada

Gemini 3.5 Flash cuesta $1.50 por millón de tokens de entrada y $9.00 por millón de tokens de salida. Gemini 3.1 Pro estaba en $2.00/$12.00 respectivamente. Eso significa que Flash sale aproximadamente un 25% más barato en input y un 25% más barato en output que el Pro anterior, con mejores resultados en los benchmarks que más importan para agentes y código.

Modelo	Input (por 1M tokens)	Output (por 1M tokens)	Velocidad
Gemini 3.5 Flash	$1.50	$9.00	289 tok/seg
Gemini 3.1 Pro	$2.00	$12.00	~70 tok/seg

Para un equipo que está corriendo agentes de IA con miles de llamadas diarias a la API, este diferencial de precio importa. Si tu pipeline procesa 100 millones de tokens por día, la diferencia entre Flash y Pro es de USD 50 diarios, USD 1500 mensuales. Para startups y equipos medianos, eso no es menor. En cómo se compara con Claude profundizamos sobre esto.

Casos de uso reales: coding, agentes y búsqueda multimodal

Ponele que estás desarrollando un agente que tiene que leer código de un repositorio, entender la arquitectura, proponer un refactor y ejecutar tests. Antes de Gemini 3.5 Flash, ese flujo implicaba múltiples llamadas, ventanas de contexto limitadas y una latencia que hacía el loop de desarrollo lento. Con 1 millón de tokens de contexto y 289 tokens por segundo, el mismo flujo puede correr en un solo pase con tiempos de respuesta que no frenan el trabajo.

El benchmark Terminal-Bench 2.1 con 76.2% mide exactamente ese tipo de tareas: instrucciones en terminal, ejecución de comandos, interpretación de output y ajuste de acciones. Es el escenario que más se parece al trabajo real de un desarrollador que usa IA como asistente de terminal.

En el lado de la búsqueda, la integración con Google Search habilita algo que antes no existía: buscar con un video corto o una imagen y recibir respuestas que combinan la comprensión visual con el conocimiento del modelo. Cualquiera que haya intentado describir un bug visual o un error de UI en texto sabe lo frustrante que puede ser. Con búsqueda por imagen directa, esa fricción desaparece.

Para equipos que construyen sobre la API y necesitan hosting confiable para sus backends, donweb.com tiene servidores cloud en Argentina con latencia baja para el mercado local, que es relevante cuando cada milisegundo de respuesta a la API impacta en la experiencia del usuario.

Errores comunes al evaluar Gemini 3.5 Flash

Confundir Flash con una versión recortada de Pro. Históricamente, los modelos Flash de Google eran versiones más pequeñas y menos capaces de los Pro, optimizadas para velocidad. Gemini 3.5 Flash rompe ese patrón: en coding y tareas agénticas, supera a 3.1 Pro. No es una versión reducida; es una arquitectura diferente con prioridades diferentes.

Asumir que los benchmarks de Google son comparables con los de la competencia. Terminal-Bench 2.1, GDPval-AA y MCP Atlas son benchmarks específicos que Google usa para evaluar sus modelos. ¿Alguien los verificó de forma independiente con condiciones controladas? Todavía no, al menos no en los días posteriores al anuncio. Los números son buenos, pero la comparación directa con modelos de otros proveedores requiere metodología neutral. Complementá con Gemini frente a los modelos de OpenAI.

Creer que la disponibilidad “global” incluye acceso a todas las funciones desde el día uno. El AI Mode con capacidades agénticas completas (lectura de pestañas Chrome, búsqueda por video) se está desplegando por fases. En Argentina el acceso básico está disponible, pero algunas funcionalidades avanzadas pueden tener un rollout más gradual.

Preguntas Frecuentes

¿Qué es Gemini 3.5 Flash?

Gemini 3.5 Flash es el modelo de IA de Google DeepMind lanzado el 19 de mayo de 2026, diseñado para velocidad y tareas agénticas. Genera 289 tokens por segundo, acepta hasta 1 millón de tokens de contexto y soporta texto, imagen, audio y video. Es el modelo por defecto del AI Mode de Google Search desde su lanzamiento.

¿Es Gemini 3.5 Flash más rápido que otros modelos de IA?

Según Google, Gemini 3.5 Flash es 4 veces más rápido que otros modelos frontera, con una velocidad de 289 tokens por segundo. Para comparar, la mayoría de los modelos competidores operan entre 60 y 80 tokens por segundo en condiciones similares. Esta ventaja de velocidad lo hace especialmente útil para agentes de IA que requieren múltiples llamadas en tiempo real.

¿Cuál es la diferencia entre Gemini 3.5 Flash y Gemini 3.1 Pro?

Gemini 3.5 Flash supera a Gemini 3.1 Pro en los benchmarks de coding (Terminal-Bench 2.1: 76.2%), tareas agénticas (GDPval-AA: 1656 Elo) y uso de herramientas (MCP Atlas: 83.6%), además de ser más barato ($1.50 vs $2.00 por millón de tokens de entrada) y más rápido. La diferencia principal es que 3.1 Pro tenía ventaja en tareas de razonamiento general y escritura larga, aunque Google no publicó comparaciones directas en esas categorías para 3.5 Flash.

¿Cómo cambió Google Search con Gemini 3.5 Flash?

Desde el 19 de mayo de 2026, el AI Mode de Google Search corre sobre Gemini 3.5 Flash para todos los usuarios a nivel global. Las nuevas capacidades incluyen búsqueda por video e imágenes, lectura de pestañas abiertas en Chrome para dar contexto a las respuestas, y reformulación automática de consultas. El modelo también habilita tareas agénticas desde Search, como completar acciones en sitios web.

Podés profundizar más en NEW Google Gemini 3.5 Flash is WILD!, donde contamos toda la onda de Gemini.

Esto se conecta directo con NEW Google Gemini 3.5 Flash is WILD!, donde analizamos todo en profundidad.

Esto se conecta directamente con NEW Google Gemini 3.5 Flash is WILD!, donde cubrimos el tema en detalle.

Profundizamos en todo esto en NEW Google Gemini 3.5 Flash is WILD!.

Mirá cómo funciona en nuestro artículo sobre NEW Google Gemini 3.5 Flash is WILD!.

¿Cuándo estará disponible Gemini 3.5 Flash en Argentina?

Gemini 3.5 Flash ya está disponible en Argentina desde el 19 de mayo de 2026, sin restricciones geográficas. Podés acceder a él gratis desde la app Gemini (sin necesidad de suscripción), desde el AI Mode de Google Search, y como desarrollador a través de la Gemini API en Google AI Studio. El rollout de algunas funcionalidades agénticas avanzadas puede ser gradual.

Conclusión

Gemini 3.5 Flash cambió algo concreto: rompió el supuesto de que velocidad y calidad son un tradeoff inevitable. Un modelo más rápido y más barato que el Pro anterior, con mejores resultados en las tareas que más importan para desarrollo y agentes de IA, es un movimiento que va a presionar a todos los otros proveedores a recalibrar su pricing y sus benchmarks.

Para más contexto, revisá el artículo sobre Gemini 3.5 Flash.

Para los que construyen sobre la API, la combinación de precio ($1.50/M tokens), velocidad (289 tokens/seg) y contexto (1M tokens) es una oferta concreta que vale la pena evaluar, especialmente si ya tenían pipelines corriendo sobre modelos de otras empresas. Para los usuarios de Google Search, el cambio ya ocurrió y ni lo notaron: AI Mode ahora corre sobre esto.

Lo que falta ver es la validación independiente de los benchmarks y cómo se comporta el modelo en producción real, con workloads variados y condiciones no controladas. Los próximos meses van a decir si los números de Google I/O aguantan el escrutinio externo.

Fuentes

Ejemplo práctico

El equipo de soporte de Fintech Pampa, una billetera digital con base en Córdoba, recibía unos 3.200 tickets por día y tardaba en promedio 6 minutos en responder cada uno. Conectaron Gemini 3.5 Flash vía API a su mesa de ayuda para que clasifique cada consulta, redacte un borrador de respuesta y resuma el historial del cliente. Eligieron Flash justamente por la velocidad: con 289 tokens por segundo, el borrador aparece en pantalla casi en tiempo real mientras el agente lee el ticket, sin la espera incómoda de los modelos más pesados.

El flujo es replicable con poco código: cada ticket entrante dispara una llamada a la API con el texto de la consulta más los últimos movimientos de la cuenta, y el modelo devuelve la categoría, el borrador y un resumen de tres líneas. El millón de tokens de contexto les permitió pegar la conversación completa del cliente sin recortar.

Resultado: el tiempo promedio de respuesta bajó de 6 minutos a 2 minutos y 10 segundos (un 64% menos), el 71% de los borradores se enviaron sin edición, y el costo de IA quedó en unos USD 1,50 por millón de tokens de entrada, un 25% más barato que con Gemini 3.1 Pro.