Google ha presentado Gemini 2.5 Flash Image, su nuevo modelo de generación y edición de imágenes de vanguardia, que incluye capacidades para combinar varias imágenes en una manteniendo la coherencia de los personajes que aparecen, así como realizar transformaciones específicas con lenguaje natural, todo ello a través de la ‘app’ de Gemini y Google AI Studio.

El gigante tecnológico lanzó su modelo de razonamiento Gemini 2.5 Flash en abril de este año para Vertex AI, diseñado como una opción híbrida al permitir activar o desactivar sus capacidades de razonamiento para encontrar el equilibrio adecuado entre la calidad de sus respuestas, el coste y la latencia.

Ahora, de cara a ofrecer una mejor experiencia de edición de imágenes tanto para desarrolladores como para los usuarios en la ‘app’ de Gemini, con resultados de mayor calidad y “un control creativo más potente”, Google ha presentado su nuevo modelo de generación de imágenes Gemini 2.5 Flash Image.

Conocido de forma interna como ‘nanobanana’, este modelo permite combinar varias imágenes en una sola, todo ello manteniendo la coherencia de los personajes u objetos que se incluyan. Asimismo, también permite realizar transformaciones específicas de las imágenes mediante lenguaje natural.

Tal y como ha detallado la compañía en un comunicado en su blog para desarrolladores, estas capacidades se han implementado en el “modo de creación” de Google AI Studio a modo de prueba. De manera que los desarrolladores pueden remezclar o dar vida a sus ideas con una sola instrucción en lenguaje natural y compartirlo posteriormente en Google AI Studio o guardar el código en GitHub.

También se ha actualizado la edición de imágenes nativa en la aplicación de Gemini para todos los usuarios, bajo el objetivo de mejorar las capacidades de edición y “mantener la similitud entre las imágenes”, dado que “una representación similar pero no igual no queda bien”.

Bastará con compartir con Gemini una foto para editar cuestiones concretas y “darle un toque único”. Por ejemplo, solicitando que la persona que aparece en la foto aparezca en nuevos escenarios, pero manteniendo su apariencia original en cada imagen. Gemini también puede variar sus atuendos o profesiones, incluso reimaginar a la persona en otra época “sin perder su identidad”.

De la misma forma, los usuarios también pueden fusionar fotos, compartiendo varias imágenes y unificándolas en una sola para crear una escena completamente nueva. Así, se puede compartir la imagen de un perro y una persona para que aparezcan de forma cohesionada en una misma imagen.

Además de todo ello, también se pueden solicitar modificaciones concretas de imágenes como cambiar el color de las paredes de una habitación o añadir muebles, conservando el resto de la imagen intacta.

Google ha detallado igualmente que otra de las novedades que ofrece el modelo es la mezcla de diseños. Esto es, aplicar el estilo de una imagen a un objeto de otra. Por ejemplo, utilizar el color y la textura de los pétalos de una flor para unas botas de lluvia.

“Esta actualización hace un trabajo mucho mejor, permitiendo que las ediciones sean más fluidas, y los resultados del modelo se pueden usar para lo que quieras”, ha subrayado la directora de producto en modelos de generación visual en Google DeepMind, Nicole Brichtova, en declaraciones a TechCrunch.

Asimismo, ha especificado que todas las imágenes creadas o editadas en la ‘app’ de Gemini incluyen una marca de agua visible, así como la marca de agua digital invisible SynthID.

Con todo, Gemini 2.5 Flash Image ya está disponible a través de la API de Gemini y Google AI Studio para desarrolladores, así como a través de Vertex AI para empresas. Se ha de tener en cuenta que tiene un coste de 30 dólares (25,86 euros al cambio) por millón de tokens de salida, y cada imagen equivale a 1.290 tokens de salida. Es decir, la generación de una imagen tiene un coste de 0,039 dólares (0,034 euros al cambio).

Por su parte, la actualización de la edición de imagen nativa en la aplicación de Gemini ya está disponible para todos los usuarios de forma gratuita.