Stability AI élargit l’accès à son modèle texte-image avancé, Stable Diffusion 3

image, tags: stability stable diffusion modèle de - images.squarespace-cdn.com

Stability AI élargit l’accès à son modèle avancé de conversion texte-image, Stable Diffusion 3.

Les développeurs ont désormais un accès accru à ce modèle de nouvelle génération qui, bien qu’il soit encore en cours de développement, peut être utilisé via l’API de la plateforme de développement de Stability AI et une plateforme de création de contenu nouvellement introduite.

Stability AI a récemment annoncé la sortie de Stable Diffusion 3, un modèle de synthèse d’images de nouvelle génération à poids ouvert. Ce modèle, qui fait partie de la famille Stable Diffusion 3, dispose d’une gamme de tailles allant de 800 millions à 8 milliards de paramètres, ce qui lui permet de fonctionner localement sur différents appareils, des smartphones aux serveurs.

Cette flexibilité dans la taille des paramètres a un impact direct sur la capacité du modèle à générer des images détaillées et précises, les modèles plus grands offrant plus de détails et nécessitant plus de VRAM sur les accélérateurs GPU pour fonctionner efficacement.

L’historique des modèles de génération d’images d’IA de l’entreprise comprend une progression de Stable Diffusion 1.4 à l’actuel Stable Diffusion 3, marquant une évolution continue des capacités d’IA. Stability AI s’est positionnée comme une alternative ouverte aux modèles de synthèse d’images propriétaires, mettant l’accent sur l’ouverture et l’accessibilité tout en reconnaissant les débats en cours concernant les données d’entraînement protégées par des droits d’auteur, les biais et les abus potentiels.

En particulier, les modèles de diffusion stable sont des poids libres et des sources disponibles, ce qui permet de les déployer localement et de les personnaliser pour répondre à des besoins spécifiques.

Le PDG Emad Mostaque a souligné les améliorations techniques de Stable Diffusion 3, notamment l’utilisation d’un nouveau type de transformateur de diffusion combiné à l’adaptation des flux et à d’autres améliorations. Cette approche, inspirée des transformateurs et axée sur le traitement efficace des motifs et des séquences, contribue à l’évolutivité du modèle et à la production d’images de haute qualité.

Bien que Stable Diffusion 3 ne soit pas encore disponible à grande échelle, Stability AI prévoit de rendre ses poids gratuits à télécharger et à exécuter localement une fois les tests terminés. Cette phase de prévisualisation, cruciale pour recueillir des informations en vue d’améliorer les performances et la sécurité, est conforme à l’engagement de l’entreprise en faveur d’un développement et d’un déploiement responsables de l’IA.

Dans le domaine de la génération de texte, Stable Diffusion 3 démontre des améliorations significatives, en corrigeant les faiblesses antérieures des modèles de synthèse d’images. Sa capacité à gérer efficacement la génération de texte, illustrée par des exemples sur le site Web et les médias sociaux de Stability, le positionne aux côtés d’autres modèles de pointe tels que DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney et Google Imagen.

Comme Stability AI continue d’innover dans les architectures de synthèse d’images, y compris les annonces récentes telles que Stable Cascade, qui utilise un processus en trois étapes pour la synthèse texte-image, l’industrie s’attend à d’autres avancées et contributions dans le domaine de l’IA générative.

Donnez une note