Gemini 2.0 revoluciona la generación y edición de imágenes de IA con su nueva función nativa

La última innovación de Google en inteligencia artificial llega con Gemini 2.0, un modelo que permite generar y editar imágenes de manera nativa, impulsando la creatividad a un nuevo nivel.

Durante más de un año, el término nativamente multimodal ha resonado en el mundo de la inteligencia artificial, pero pocos han logrado aprovechar al máximo estas capacidades. Ahora, Google ha hecho su jugada con el lanzamiento de su modelo más reciente, Gemini 2.0 Flash Experimental, que permite no solo generar imágenes, sino también editarlas de forma nativa. Vamos, que le ha dado un pellizco a Photoshop 🤏🏼…

¿Por qué es tan importante la generación de imágenes? Aunque la generación de imágenes por IA ha estado disponible a través de chatbots como ChatGPT, estos suelen depender de modelos especializados como Dall-E 3 o Imagen 3, que son extensiones del modelo principal y no parte integral de él. Por el contrario, los modelos como Gemini son nativamente multimodales, lo que significa que pueden entender y crear tanto texto como imágenes de manera intrínseca.

Generación de Imágenes Nativa con Gemini 2.0 Flash Experimental

Actualmente, esta función de generación de imágenes nativa no está disponible para todos los usuarios. El modelo Gemini 2.0 Flash Experimental se puede probar de manera gratuita en el AI Studio de Google y estará disponible para un público más amplio pronto. Después de experimentar con este modelo, puedo decir que la experiencia fue realmente sorprendente.

Comencé pidiendo a Gemini que creara una guía visual sobre cómo hacer unos macarrones a la boloñesa. Los resultados fueron sorprendentes, mostrando una consistencia notable entre las imágenes generadas, desde la sartén hasta los ingredientes. Cada imagen mantiene la misma resolución de 1024 x 680, lo que facilita la creación de guías visuales de cualquier tema.

Esto es lo que empieza a hacer Gemini con este sencillo prompt: «dame una guía visual de como hacer macarrones a la boloñesa»

Luego, solicité a Gemini que generara una habitación vacía, y le fui pidiendo modificaciones sobre la decoración y utilidad de la habitación. La continuidad que mantuvo fue asombrosa.

Y esto es lo que sucede cuando le das varios prompts sobre la modificación de una imagen que previamente me ha generado. Consistencia más que decente.

Edición de Imágenes Nativa con Gemini 2.0 Flash Experimental

Para demostrar la función de edición de imágenes, subí una foto de mi garaje y le pedí que cambiara mi coche por un Tesla blanco, y el resultado fue impresionante. Finalmente, le pedí que agregara unas mesas con ordenadores, y así me demostró el potencial de la edición de imágenes gracias a la capacidad multimodal nativa de Gemini. No fueron perfectas, pero sí muy buenas. Además, pedí a Gemini que colorizara una foto antigua en blanco y negro, y el resultado superó mis expectativas, con una calidad visual óptima y sin errores visibles.

Las posibilidades con Gemini son vastas y emocionantes. Google ha hecho un trabajo admirable al integrar la generación y edición de imágenes de manera nativa. Con el reciente lanzamiento de Veo 2 para generación de video y Imagen 3 para generación de imágenes especializadas, parece que Google ha superado a OpenAI en varios aspectos, no solo en generación de texto. Será interesante ver cómo responde OpenAI a este avance con su ChatGPT.

DESCUBRE MÁS SOBRE EL TEMA

Deja el primer comentario