OpenAI a maintenant intégré un puissant outil de génération d'images directement dans ChatGPT. À partir d'aujourd'hui, les utilisateurs peuvent créer des visuels détaillés en utilisant le modèle GPT-4o mis à jour, qui excelle dans la compréhension du contexte, le traitement de demandes complexes et même la génération de texte parfait au sein des images.
Les versions antérieures de ChatGPT s'appuyaient sur le réseau de neurones DALL-E 3, mais le nouveau système — surnommé Images dans ChatGPT — fonctionne sur le modèle multimodal "universel" GPT-4o. Cela signifie que le modèle traite simultanément du texte, de l'audio, de la vidéo et des images, augmentant considérablement la précision. Maintenant, l'IA peut associer avec précision jusqu'à 15 à 20 objets dans une seule image, évitant les erreurs qui se produisaient auparavant avec aussi peu que 5 à 8 éléments.
Une des améliorations clés est la capacité de produire des images avec un texte parfaitement lisible — un défi qui avait longtemps été le talon d'Achille des modèles génératifs. ChatGPT peut maintenant générer des menus de restaurant, des logos avec des légendes, ou des infographies sans aucune faute de frappe. De plus, les utilisateurs disposent désormais d'une fonction d'édition : toute image téléchargée peut être modifiée simplement en ajoutant ou en supprimant des éléments via une invite textuelle.
Cette nouvelle fonctionnalité est disponible pour tous les abonnements ChatGPT, y compris le niveau gratuit, bien que des limites similaires à celles de DALL-E 3 s'appliquent toujours. Pendant ce temps, DALL-E continuera d'être disponible via des modules GPT personnalisés. OpenAI a également accordé une attention particulière à la sécurité : toutes les images sont marquées avec des métadonnées C2PA pour identifier le contenu généré par l'IA, et le système bloque les demandes liées à la violence, aux deepfakes et à d'autres abus potentiels.