Google actualizó la API de Gemini edición de imágenes en mayo de 2026 con un cambio que impacta directamente en los costos: los tokens de entrada para imágenes bajaron de 1.290 a 258, una reducción del 80%. Al mismo tiempo, Gemini 2.5 Flash Image pasó de preview a producción, y ya hay sucesor oficial en camino: Gemini 3.1 Flash Image Preview.
En 30 segundos
- Los tokens de entrada para imágenes en la API cayeron de 1.290 a 258: el mismo trabajo cuesta 80% menos en tokens.
- Gemini 2.5 Flash Image ya no está en preview: es el modelo en producción, con soporte para 10 aspect ratios.
- La edición conversacional incluye masking, style transfer, character consistency y cambio de fondos, todo por prompt.
- El modelo se depreca el 2 de octubre de 2026. El reemplazo oficial es Gemini 3.1 Flash Image Preview, con resoluciones hasta 4096px.
- Disponible en 141 países, con watermark SynthID en todas las imágenes generadas.
Qué cambió en Gemini 2.5: Resumen de actualizaciones
Gemini 2.5 Flash Image es el modelo de generación y edición de imágenes de Google, disponible vía la Gemini API y Google AI Studio, diseñado para integrarse directamente en aplicaciones con capacidades de edición conversacional.
Si seguís el changelog de la API de Google, ya notaste que en las últimas semanas hubo movimiento. Según el registro de cambios oficial, la actualización más concreta para los desarrolladores es la reducción de tokens de entrada para imágenes: pasaron de 1.290 a 258. No es un detalle menor.
Para alguien que corre un pipeline con cientos de imágenes por día, ese cambio es la diferencia entre un costo manejable y uno que no se puede justificar. Y Google lo sabe.
Lo otro que confirmaron: Gemini 2.5 Flash Image salió de preview. Está en producción. La versión preview que muchos estaban usando queda deprecada, y tienen fecha límite para migrar: el 2 de octubre de 2026. Habría que ver cuántos proyectos en producción todavía están apuntando al endpoint viejo sin saberlo.
Gemini 2.5 Flash Image en producción: qué trae
Según el anuncio en el blog de desarrolladores de Google, Gemini 2.5 Flash Image entró a producción con soporte para 10 aspect ratios distintos. Esto resolvía uno de los puntos de fricción de la versión preview, que tenía restricciones en formatos de salida.
Los 10 aspect ratios cubren desde 1:1 (redes sociales), 16:9 (video y web), 9:16 (stories y reels), hasta proporciones como 4:3 y 3:4, entre otros. Para aplicaciones que generan contenido para múltiples canales, esto elimina el paso de reencuadrar la imagen después.
Todas las imágenes llevan SynthID watermark, el sistema de watermarking invisible de Google. No es opcional. Para casos donde el cliente necesita imágenes limpias de cualquier marca, eso puede ser un limitante real. Tema relacionado: como cubrimos en nuestra guía de Gemini.
Edición conversacional de imágenes: las 5 capacidades principales
Acá viene lo bueno: la edición conversacional es lo que diferencia a Gemini de un generador de imágenes tradicional. No es “describí una imagen nueva”. Es “tomá esta imagen y cambiá esto”.
Masking
Podés editar solo una sección de la imagen sin tocar el resto. Ponele que tenés una foto de producto y querés cambiar el color del fondo sin alterar el objeto. Le pasás la imagen, describís la zona a editar, y el modelo aplica el cambio ahí solo. El resultado no siempre es perfecto (spoiler: en bordes complejos todavía tiembla), pero para casos simples funciona.
Style transfer
Le pedís que aplique el estilo de una imagen a otra. “Pasá esta foto a estilo nocturno de cyberpunk” o “aplicá la paleta de colores de esta referencia”. Útil para campañas donde necesitás consistencia visual entre piezas generadas en distintos momentos.
Image blending
Combiná elementos de dos imágenes en una sola. El modelo intenta hacer la fusión coherente, respetando la iluminación y la perspectiva. Funciona mejor cuando las dos imágenes tienen contextos similares; cuando son muy distintas, el resultado empieza a verse raro.
Character consistency
Si generás un personaje en una imagen y necesitás que aparezca igual en otras escenas, esta función intenta mantener los rasgos visuales consistentes entre generaciones. Es uno de los problemas más difíciles en generación de imágenes. Gemini lo tiene implementado, aunque con limitaciones en poses muy distintas entre sí.
Cambio de fondo
El más pedido y el que mejor funciona. Sacás el sujeto, cambiás el fondo por descripción o por imagen de referencia. Para e-commerce y contenido de productos, esto solo ya justifica mirar la API. Relacionado: al integrar Gemini en tus proyectos.
Cómo acceder: app, API y Google AI Studio
Hay tres caminos, y no son equivalentes.
La app móvil (Nano Banana) es la capa consumer: subís una foto, escribís qué querés cambiar, y listo. Sin código. Útil para probar antes de comprometerte con la integración, o para equipos de contenido que no tienen perfil técnico. En Nano Banana 2 hay mejoras concretas en la velocidad de edición respecto de la versión anterior.
La API es para los que integran. Recibís la imagen como base64 o URL, pasás las instrucciones en el prompt, y el modelo devuelve la imagen editada. El cambio de tokens (de 1.290 a 258) aplica acá. Si tenés un pipeline existente apuntando a Gemini 2.5 Flash Image, revisá que estés usando el endpoint de producción y no el de preview.
Google AI Studio es el entorno de prototipado. Ideal para probar prompts de edición antes de meterlos en producción, sin escribir una línea de código. Es gratuito con límites de uso.
Disponibilidad: 141 países. En Argentina y el resto de Latinoamérica ya podés acceder sin restricciones de región. Si tu aplicación está hosteada en Argentina, cualquier proveedor de infraestructura que soporte llamadas HTTPS a la API de Google te sirve; en donweb.com tienen opciones de cloud que funcionan bien para este tipo de integraciones.
Reducción de costos: qué significa el cambio de tokens en la práctica
El cambio de 1.290 a 258 tokens por imagen de entrada es el dato más concreto de esta actualización para cualquiera que paga la API.
¿Cómo se traduce eso a plata? Ponele que procesás 10.000 imágenes por mes. Con el precio anterior pagabas por 12,9 millones de tokens de entrada solo de imágenes. Ahora pagás por 2,58 millones. Con el precio de input de Gemini 2.5 Flash en torno a $0,075 por millón de tokens (precios de producción según la documentación oficial), la diferencia es considerable: de ~$0,97 a ~$0,19 solo en esa parte del costo.
Eso sí: el costo de salida (las imágenes generadas) es distinto y no cambió en este update. El ahorro está en la entrada.
Gemini vs DALL-E vs Midjourney: cuándo usar cada uno
| Criterio | Gemini 2.5 Flash Image | DALL-E 3 | Midjourney v6 |
|---|---|---|---|
| Edición conversacional | Muy buena (masking, blending) | Buena (inpainting) | Limitada |
| Texto dentro de imágenes | Buena en 3.1, regular en 2.5 | Muy buena | Regular |
| Calidad artística | Correcta | Buena | Excelente |
| Integración API | Directa (Gemini API) | OpenAI API | API beta, menos documentada |
| Character consistency | Implementada | Limitada | Muy buena (–cref) |
| Precio por imagen aprox. | Varía por tokens | $0,04-$0,08 por imagen | Suscripción ($10-$60/mes) |
| Watermark forzado | Sí (SynthID) | No visible | No |

La elección depende del caso de uso. Si necesitás edición conversacional integrada en una aplicación con una API bien documentada y pagás por uso real, Gemini es la opción más directa. Si tu caso es generación de imágenes con texto preciso (banners, thumbnails con palabras), DALL-E todavía gana en ese punto específico. Para trabajo artístico donde la estética importa más que la integración técnica, Midjourney sigue siendo la referencia. Para más detalles técnicos, mirá si lo comparás con Claude Code.
Migración a Gemini 3.1 Flash Image: fechas y qué mejora
El 2 de octubre de 2026, Gemini 2.5 Flash Image deja de estar disponible. Google ya tiene el reemplazo: Gemini 3.1 Flash Image Preview.
¿Qué mejora en 3.1? Según lo publicado por el equipo de Google DeepMind, las diferencias principales son: mejor adherencia al prompt de edición (el modelo sigue mejor las instrucciones específicas), textos dentro de imágenes más claros y legibles, y soporte para resoluciones hasta 4096px (contra los 1024px de 2.5).
La resolución de 4096px es el cambio más concreto para producción. Si estás generando imágenes para impresión o para pantallas de alta densidad, esa diferencia importa.
La migración para los que usan la API es cambiar el model ID en la llamada. No deberían cambiar la estructura de los prompts ni los parámetros principales, aunque con modelos nuevos siempre conviene verificar los outputs antes de mandar a producción. ¿Alguien lo verificó de forma sistemática todavía en producción real? No hay suficientes reportes públicos todavía.
Lo que está confirmado y lo que queda por ver
Confirmado
- Reducción de tokens de entrada: 1.290 → 258 (según documentación oficial de Google)
- Gemini 2.5 Flash Image en producción con 10 aspect ratios
- Fecha de deprecación: 2 de octubre de 2026
- Gemini 3.1 Flash Image Preview disponible como sucesor
- Disponibilidad en 141 países
- SynthID watermark en todas las imágenes
Todavía sin confirmar
- Precio final de Gemini 3.1 Flash Image cuando salga de preview
- Si el watermark SynthID va a ser removible en planes enterprise
- Benchmarks independientes comparando edición en 3.1 vs 2.5 en casos de uso reales
- Fecha estimada para que 3.1 pase de preview a producción oficial
Errores comunes al usar la API de edición de imágenes
Seguir usando el endpoint de preview
Si integraste Gemini para edición de imágenes hace algunos meses, es probable que estés usando el model ID de la versión preview. El modelo en producción tiene un ID distinto. No se deprecan en la misma fecha ni tienen el mismo costo. Verificá en el dashboard de Google AI Studio cuál model ID está usando tu código antes de que el 2 de octubre te dé una sorpresa.
Mandar prompts de texto puro para edición de imagen
La edición conversacional de Gemini requiere que la imagen de entrada vaya en el mismo request que el prompt de edición, como parte del array de contenido multimodal. Si mandás la URL de la imagen en el texto del prompt en vez de como parte de la estructura del request, el modelo no la va a editar: va a intentar generar algo nuevo basado en la descripción. Es un error que no da error visible, simplemente devuelve algo diferente a lo que esperabas.
Confundir masking con inpainting clásico
El masking de Gemini trabaja por descripción en lenguaje natural, no por máscara binaria pixel a pixel como en herramientas tradicionales de edición. Si le pasás una máscara explícita en formato imagen, el modelo no la va a interpretar como tal. Describí la zona a editar en el prompt (“el fondo detrás de la persona”, “el objeto en el extremo izquierdo”) y dejá que el modelo identifique la región. Funciona mejor de lo que parece, aunque en bordes complejos sigue siendo el talón de Aquiles. Te puede servir nuestra cobertura de en nuestro análisis de modelos comparativos.
Ignorar el impacto del SynthID watermark en el caso de uso
El watermark es invisible a simple vista pero detectable por herramientas de verificación. Si tu cliente o tu caso de uso requiere imágenes sin ningún tipo de marca o metadata de procedencia, enterarte de esto después de implementar es un problema. Revisalo antes de comprometer la arquitectura.
Preguntas Frecuentes
¿Qué cambios hay en Gemini 2.5 para edición de imágenes?
Los cambios principales en 2026 son tres: los tokens de entrada para imágenes bajaron de 1.290 a 258 (reducción del 80%), el modelo pasó de versión preview a producción con soporte para 10 aspect ratios, y se anunció el sucesor oficial, Gemini 3.1 Flash Image Preview, con resoluciones hasta 4096px. La versión actual se depreca el 2 de octubre de 2026.
¿Cómo editar fotos con Gemini de forma conversacional?
Accedés a la edición conversacional de tres formas: desde la app móvil (Nano Banana) sin código, desde la Gemini API enviando la imagen y el prompt de edición en el mismo request multimodal, o desde Google AI Studio para prototipar. El prompt describe qué querés cambiar en lenguaje natural: “cambiá el fondo a un ambiente de oficina moderna” o “aplicá estilo acuarela solo al objeto central”.
¿Cuánto cuesta usar la API de Gemini para editar imágenes?
El costo combina tokens de entrada (imagen + texto del prompt) y tokens de salida (imagen generada). Con la reducción de mayo de 2026, cada imagen de entrada cuesta 258 tokens de input en vez de 1.290. Al precio de referencia de $0,075 por millón de tokens de input para Gemini 2.5 Flash, 10.000 ediciones de imágenes representan aproximadamente $0,19 solo en tokens de entrada. El costo total depende también del volumen de texto en el prompt y del tamaño de las imágenes de salida.
¿Gemini 2.5 es mejor que DALL-E para editar fotos?
En edición conversacional y masking por descripción, Gemini 2.5 tiene ventajas claras: la API está mejor documentada y el modelo sigue instrucciones de modificación parcial mejor que DALL-E 3. DALL-E sigue siendo más preciso cuando necesitás texto legible dentro de la imagen. Para casos de e-commerce (cambio de fondos, variaciones de productos), Gemini está al mismo nivel o mejor. Comparativas publicadas en mayo de 2026 muestran que Gemini gana en coherencia de edición en escenas complejas.
¿Cuándo se depreca Gemini 2.5 Flash Image y qué pasa después?
La fecha de deprecación es el 2 de octubre de 2026. A partir de ese día, las llamadas al model ID de Gemini 2.5 Flash Image van a dejar de funcionar. El reemplazo oficial es Gemini 3.1 Flash Image Preview, que ya está disponible para pruebas. La migración requiere cambiar el model ID en las llamadas a la API; la estructura de los requests es compatible.
Conclusión
La actualización de la API de Gemini edición de imágenes tiene un impacto concreto: el costo por imagen procesada bajó 80% en tokens de entrada, el modelo de producción está más completo que la versión preview, y hay una ruta clara de migración con fecha cerrada. Si ya usás Gemini para edición de imágenes, el trabajo inmediato es verificar que estés en el endpoint de producción y no de preview, y arrancar a testear Gemini 3.1 Flash Image antes de que el deadline del 2 de octubre te fuerce a hacerlo apurado. Si todavía no lo exploraste, la combinación de edición conversacional por prompt y el nuevo precio de tokens hace que el análisis valga la pena ahora.
