Nouvelles Chat Au Lieu de Photoshop : Le Flash Gemini 2.0 de Google Apprend à Éditer des Images par le Dialogue

Chat Au Lieu de Photoshop : Le Flash Gemini 2.0 de Google Apprend à Éditer des Images par le Dialogue

DoubleA
Lire en version complète

Google a fait un pas inattendu dans la course à l'IA générative en introduisant une version multimodale expérimentale de Gemini 2.0 Flash dans AI Studio. Le modèle peut non seulement générer des images à partir de zéro, mais aussi modifier des détails dans des photos existantes à travers une interface de chat simple — sans avoir besoin de recréer l'image entière. C'est la première fois qu'un acteur majeur introduit une telle fonctionnalité, devançant OpenAI et xAI d'Elon Musk.

Les utilisateurs peuvent donner des commandes à Gemini sous un format conversationnel, tel que « remplacez l'arrière-plan par un paysage montagneux » ou « ajoutez une légende en russe ». L'IA conserve le contexte de la conversation, permettant une série d'éditions progressives. Par exemple, les utilisateurs peuvent changer la tenue d'une personne, puis « la déplacer » à un autre endroit, et enfin ajuster l'éclairage. Tous les changements sont appliqués directement à l'image originale, économisant du temps et des ressources.

Chaque image générée est automatiquement marquée d'un filigrane SynthID — la technologie de Google pour lutter contre les deepfakes. Cela est particulièrement important pour les designers et les marketeurs, qui peuvent maintenant utiliser légalement le contenu dans des projets commerciaux. Des fonctionnalités moins évidentes mais tout aussi impressionnantes incluent le clonage de textures, la colorisation de vieilles photos, et même le « remplissage » d'éléments manquants dans les images en utilisant des suggestions basées sur du texte.

Bien que Gemini 2.0 Flash comprenne des commandes en russe, le service n'est pas officiellement disponible en Russie. Les développeurs et les entreprises peuvent tester le modèle gratuitement via AI Studio ou API, mais certaines fonctionnalités, telles que l'échange de visages ou la restauration complexe, restent instables. Google souligne qu'il s'agit d'une version préliminaire, et que la version finale sera optimisée pour des tâches en temps réel.

Les experts notent que Google a, pour la première fois, combiné la flexibilité créative de Midjourney, la précision de DALL-E, et l'interactivité de ChatGPT en un seul modèle. Si l'expérience s'avère réussie, cela pourrait simplifier considérablement le travail dans le design, l'éducation, et même le journalisme — permettant une visualisation instantanée des données ou la création d'illustrations d'articles sans intervention humaine. Pour l'instant, Gemini 2.0 Flash reste un outil intrigant qui redéfinit déjà les possibilités de l'IA générative.

Commentaires 0
Laisser un commentaire