Gemini, conocido anteriormente como Google Bard, es un bot conversacional de inteligencia artificial multimodal y generativo desarrollado por Google basado en la familia Gemini Pro. Aunque popularmente se le conozca solamente como un generador de respuestas o imágenes con IA, realmente es un programa que se desarrolló como respuesta directa al auge de ChatGPT de OpenAI, propiedad de Elon Musk.
Se lanzó en marzo de 2023 con una acogida poco entusiasta, pues más de un año antes ChatGPT ya había irrumpido en la escena convirtiéndose en un fenómeno global. En apenas cinco días, el modelo de Musk ya había conseguido un millón de usuarios. Debido al temor de la compañía de infringir el Reglamento de Protección de Datos (RGPD) europea, Gemini demoró su implementación en dicho continente hasta julio de ese año.
No obstante, hoy la realidad es muy distinta. Gemini está establecido como un modelo de lenguaje multimodal, desarrollado por Google DeepMind, al alcance de millones de personas. Sus modelos de Gemini Nano, Gemini Pro y Gemini Ultra tiene un convenio con Samsung y su línea de smartphones Galaxy S, compitiendo ferozmente contra GPT-4 de OpenAI, aliado de Apple y sus modelos iPhone.
“Nano Banana”, la nueva mejora en la edición de fotos
Google ha presentado Gemini 2.5 Flash Image, su nuevo modelo de generación y edición de imágenes de vanguardia, que incluye capacidades para combinar varias imágenes en una manteniendo la coherencia de los personajes que aparecen, así como realizar transformaciones específicas con lenguaje natural, todo ello a través de la aplicación de Gemini y Google AI Studio.
En abril de 2025, Vertex AI fue diseñado como una opción híbrida al permitir activar o desactivar sus capacidades de razonamiento para encontrar el equilibrio adecuado entre la calidad de sus respuestas, el coste y la latencia.
Ahora, de cara a ofrecer una mejor experiencia de edición de imágenes tanto para desarrolladores como para los usuarios en el aplicativo de Gemini, con resultados de mayor calidad y “un control creativo más potente”, Google le da la bienvenida a “Nano Banana”.
¿Qué es “Nano Banana”?
Este modelo permite combinar varias imágenes en una sola, todo ello manteniendo la coherencia de los personajes u objetos que se incluyan. Asimismo, también permite realizar transformaciones específicas de las imágenes mediante lenguaje natural (hablar o escribir).
Tal y como ha detallado la compañía en un comunicado en su blog para desarrolladores, estas capacidades se han implementado en el “modo de creación” de Google AI Studio a modo de prueba. De manera que los desarrolladores pueden remezclar o dar vida a sus ideas con una sola instrucción en lenguaje natural y compartirlo posteriormente en Google AI Studio.
También se ha actualizado la edición de imágenes nativa en la aplicación de Gemini para todos los usuarios, bajo el objetivo de mejorar las capacidades de edición y “mantener la similitud entre las imágenes”. La intención es crear una representación casi idéntica a la foto original.
¿Cómo editar fotos con “Nano Banana”?
Bastará con compartir con Gemini una foto para editar cuestiones concretas y “darle un toque único”. Por ejemplo, solicitando que la persona que aparece en la foto aparezca en nuevos escenarios, pero manteniendo su apariencia original en cada imagen.
Según Google, Gemini también puede variar los atuendos y profesiones de las personas en la fotografía, incluso reimaginarlas en otra época “sin perder su identidad”. De la misma forma, los usuarios también pueden fusionar fotos, compartiendo varias imágenes y unificándolas en una sola para crear una escena completamente nueva.
Además de todo ello, también se pueden solicitar modificaciones concretas de imágenes como cambiar el color de las paredes de una habitación o añadir muebles, conservando el resto de la imagen intacta. Eso sí, todas las imágenes creadas o editadas en la app de Gemini incluyen una marca de agua visible.
¿Cómo conseguir “Nano Banana” de Gemini?
“Esta actualización hace un trabajo mucho mejor, permitiendo que las ediciones sean más fluidas, y los resultados del modelo se puedan usar para lo que quieras”, ha subrayado la directora de producto en modelos de generación visual en Google DeepMind, Nicole Brichtova, en declaraciones a TechCrunch.
Finalmente, Gemini 2.5 Flash Image ya está disponible a través de la API de Gemini y Google AI Studio para desarrolladores, así como a través de Vertex AI para empresas. Esta nueva actualización tiene un costo de 30 dólares (120.000 pesos colombianos).
Este dinero se utiliza para adquirir un millón de tokens de salida, una especie de moneda virtual dentro de Google Gemini, y que alcanza para generar aproximadamente 775 imágenes. Lo que quiere decir que hace una imagen con “Nano Banana” cuesta alrededor de menos de 50 centavos de dólar.