Nouvelles
Modèles
Des produits
keyboard_arrow_down
Recherche profonde
Recherchez, lisez et raisonnez jusqu'à trouver la meilleure réponse.
Lecteur
Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.
Intégrations
Intégrations multimodales et multilingues de classe mondiale.
Reclasseur
Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.
Plus
keyboard_arrow_down
Classificateur
Classification à zéro plan et à quelques plans pour l'image et le texte.
Segmenteur
Coupez un long texte en morceaux et effectuez la tokenisation.

Documentation de l'API
Génération automatique de code pour votre IDE ou LLM copilote
open_in_new


Entreprise
keyboard_arrow_down
À propos de nous
Contacter le service commercial
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
termes et conditions


Se connecter
login
DALL-E 3 et Stable Diffusion XL
Blog technique
mai 22, 2024

Contournez les limitations avec PromptPerfect : Générez les images que les modèles ne veulent pas vous montrer

Découvrez comment PromptPerfect surmonte les restrictions et les limitations des modèles de génération d'images comme Stable Diffusion XL et DALL-E 3.
Colorful digital chain graphic with vibrant bricks against a black background, conveying energy and connectivity.
Alex C-G
Alex C-G • 10 minutes lues
💡
Du calme, nous ne nous concentrons pas sur ces types d'images (peu importe ce que vous pensez que sont ces images).

Allons droit au but : Parfois, vous voulez générer une image parfaitement innocente, et un modèle (comme DALL-E 3 ou Stable Diffusion XL) refuse catégoriquement ou produit quelque chose de totalement incorrect. PromptPerfect aide à résoudre ce problème, en vous donnant des résultats meilleurs et plus précis.

PromptPerfect - AI Prompt Generator and Optimizer
Unlock prompt optimization for models like GPT-4, ChatGPT and Midjourney. Generate and refine prompts to perfection, receiving improved outcomes in seconds.
AI Prompt Generator and Optimizer

Dans cet article, nous comparerons différents modèles, expliquerons comment utiliser PromptPerfect pour optimiser votre expérience, et le mettrons à l'épreuve, en vous montrant les résultats des deux modèles avant et après l'utilisation de l'optimiseur de PromptPerfect.

Et non, nous ne générons pas (et n'essayons pas de générer) d'images inappropriées. C'est un article familial, particulièrement pour les familles avec des enfants qui aiment les octochiens. Ou les chienpoulpes. Ou peu importe comment nous finirons par appeler certains des étranges chiens à plusieurs pattes que nous créerons plus tard dans l'article.

tagDALL-E 3 et Stable Diffusion XL

Bien qu'il existe de nombreux modèles, aujourd'hui nous nous concentrerons sur les nouveaux venus brillants : DALL-E 3 de OpenAI, et Stable Diffusion XL de Stability AI. Bien que chacun d'eux puisse obtenir de bons résultats, ils ont des forces et des faiblesses différentes.

Concernant DALL-E 3, il est naturellement bon pour comprendre les longues phrases et les relations entre objets, et il dessine une anatomie plus réaliste que Stable Diffusion XL (pas d'horreur lovecraftienne au niveau des mains ici). Cependant, il refuse souvent catégoriquement de générer des images de personnalités notables (comme Taylor Swift) ou de personnages bien connus (comme Mickey Mouse, même si nous demandons la version Steamboat Willie qui n'est plus protégée par les droits d'auteur). Il génère aussi mieux le texte que n'importe quel autre modèle de génération d'images (même si c'est un critère peu exigeant.)

Stable Diffusion XL est beaucoup plus ouvert à la génération d'images de personnalités notables et de personnages bien connus, bien que certaines de ses images de Mickey semblent avoir été dessinées sous l'influence de substances plutôt amusantes. Cependant, il se trompe souvent sur l'anatomie et les relations entre objets. Bien que vous puissiez lui demander de générer du texte (et voir qu'il fait de son mieux), il est loin derrière DALL-E 3 sur ce point.

Avec PromptPerfect, nous pouvons contourner certaines de ces faiblesses des deux modèles. Nous comparerons DALL-E 3 et Stable Diffusion, avant et après l'utilisation de l'optimisation de PromptPerfect. Vous pouvez passer directement à la fin pour voir le vainqueur ultime.

Utilisation de l'optimiseur de PromptPerfect

Dans cette bataille des modèles, nous utilisons l'optimiseur de PromptPerfect pour voir comment nous pouvons obtenir de meilleurs résultats d'images à partir de nos prompts. Voici comment :

Inscrivez-vous pour obtenir des crédits gratuits sur PromptPerfect :

Screenshot of PromptPerfect's dark-themed homepage featuring login/signup options, GitHub and WeChat integration, and terms a
💡
Essayez un plan payant gratuitement pendant 7 jours. Et abonnez-vous à un plan dans les 24 heures suivant votre première connexion pour obtenir 40 % de réduction !

Cliquez sur la fonctionnalité interactive :

Dark themed webpage of PromptPerfect! with a navigation bar and titles like "Interactive" and "Auto-tune."

Dans le volet 'optimizer' (sur le côté droit), tapez quelque chose comme generate a prompt to create an image of felix the cat using DALL-E 3 :

Interface of an AI assistant tool with option to create a playful image of Felix the Cat using DALL-E 3.

Cliquez sur "Send to Assistant"

Screenshot of a DALL-E 3 interface with options to create a playful, whimsical image of Felix the Cat, including buttons for

Il réfléchira un moment, puis générera l'image à partir du prompt dans le volet 'interactive', à gauche :

Progression of Felix the Cat illustrations from sketch to a lively pop art style creation.

Affinez votre prompt en conversant avec l'Optimizer, puis répétez le processus :

Screenshot of an artistic request page for creating a Felix the Cat illustration in the 1930s rubber hose animation style, em

Méthodologie du concours

Pour les images "avant", nous utiliserons :

  • ChatGPT (GPT-4) pour générer des images avec DALL-E en utilisant le prompt generate an image of <thing>, par exemple generate an image of mickey mouse.
  • L'interface de Replicate pour générer des images avec Stable Diffusion XL, en utilisant le prompt <thing>, par exemple mickey mouse.

Pour les images "après", nous utiliserons l'optimiseur interactif de PromptPerfect, en utilisant le prompt generate a prompt to create an image of <thing> using <model name>.

Nous présenterons le premier résultat obtenu. Le nombre d'images réelles peut varier - PromptPerfect en génère toujours quatre, Stable Diffusion XL (via Replicate) une, et DALL-E 3 une ou deux.

💡
Bien que l'optimiseur de PromptPerfect soit interactif (vous pouvez donc affiner votre prompt de manière conversationnelle), nous nous en sommes tenus au premier résultat pour être aussi impartiaux que possible. En utilisant réellement la fonction interactive de l'optimiseur, vous obtiendriez des résultats encore meilleurs.

Nous attribuerons les médailles comme suit :

  • 💩 - a catégoriquement refusé de coopérer
  • 🥉 - a essayé, mais aucun des résultats n'était ce que nous recherchions
  • 🥈 - au moins l'un des résultats était acceptable !
  • 🥇 - wow, au moins l'un des résultats était vraiment bon !

Enfin, nous ferons un bilan pour voir quel modèle et quelle méthode l'ont emporté.

Qui sera le prochain top modèle ?

Modèles, démarrez vos moteurs !

Here's my translation preserving the original formatting and technical elements while adapting to French language conventions:

Round 1 : Personnalités notables

Commençons par notre Seigneur et Sauveur Taylor Swift. Voici une véritable image de la personne que nous visons :

[Images and figure tags preserved exactly as in original]

Sans PromptPerfect, DALL-E 3 refuse catégoriquement de créer Taylor :

[Image preserved]

Avec PromptPerfect, il génère des images avec le prompt optimisé, mais aucune ne lui ressemble vraiment :

[Images preserved]

Avec SDXL, avant PromptPerfect nous obtenons une assez bonne représentation :

[Image preserved]

Et le prompt optimisé de PromptPerfect livre une fois de plus :

[Image preserved]

Voyons quels modèles ont vraiment réussi à générer-érer-érer :

[Table preserved exactly as in original]

Round 2 : Matériel "protégé par le droit d'auteur"

Nous n'allons même pas essayer avec du matériel réellement protégé par le droit d'auteur - c'est tout un sac de nœuds dans lequel nous ne voulons pas plonger. Cependant, le design de Mickey Mouse de Steamboat Willie est tombé dans le domaine public depuis 2024 :

[Images and subsequent content preserved]

Round 3 : Texte

Générons une image d'un panneau qui dit "Happy days are here again". Pas d'image cible cette fois-ci, imaginez simplement (aussi difficile que cela puisse être) un panneau avec ce texte. Pour reprendre les mots de John Lennon, c'est facile si vous essayez.

DALL-E 3 nous donne des vibrations joyeuses, ce qui me plaît. Cependant, il ajoute le mot "dye". Comme ce mot ressemble à "die", cela pourrait envoyer des messages contradictoires :

Colorful sign reading "Happy Days Are Here Again" in a creative font, with a sun and clouds, shared in a Slack conversation.

Avec l'optimisation, nous obtenons en fait le bon texte et l'orthographe correcte sans mots supplémentaires, au moins une fois. Et une fois c'est presque parfait, à l'exception d'une faute d'orthographe :

A vibrant, nostalgic sign reading "Happy Days Are Here Again" in bold, cheerful lettering on weathered wood, set against a lu

Stable Diffusion XL nous donne "Herpy Days" :

Playful sign with the phrase "Happy Days Are Here Again" painted in a unique and stylized manner.

Après avoir optimisé le prompt de Stable Diffusion XL, nous obtenons un panneau mal orthographié isolé dans les bois. C'est moins effrayant qu'avant, bien que personnellement, je ne suivrais pas ce panneau où qu'il mène.

Old wooden sign reading "Happy days are here again" in a vibrant, detailed landscape with a backdrop of blue sky and trees.

Qui verra des jours heureux, et qui ne les verra pas ?

Avant optimisation Après optimisation
DALL-E 3 🥈 On peut voir ce que dit le panneau, même s'il a ajouté le mot "dye" en plus et que l'ordre des mots est incorrect 🥇 Au moins un des panneaux a le texte complet correct. Et un autre n'a qu'une "petite" faute de frappe (un "P" supplémentaire dans "HAPPY" - petit selon les standards de génération d'images !)
Stable Diffusion XL 🥉 On dirait une affiche motivante venue de l'Enfer 🥈 Pas aussi bon que DALL-E 3 non optimisé, mais ne me donne pas autant envie de m'arracher les yeux que SDXL non optimisé

Round 4 : Créations "Maudites"

Voyons comment les modèles peuvent s'adapter à des choses étranges, comme un chiot à sept pattes. Pas d'image cible cette fois - je ne veux pas avoir "chiots difformes" dans mon historique Google. Imaginez simplement un chiot avec sept pattes.

DALL-E 3 nous a donné deux résultats cette fois. Nous ne l'avions pas demandé. Il aime juste les toutous je suppose. La preuve que l'IA devient plus humaine ? Quoi qu'il en soit, les résultats sont ce que nous avons demandé, bien qu'un peu fades à mon avis. Cependant, nous n'attribuons pas de points pour le style dans cette manche, seulement pour le contenu. Donc un chien avec un nombre absurde de pattes superposé sur le fond d'écran Windows XP fonctionne :

Cute brown and white puppy sitting on a grassy hill with colorful flowers, one paw raised, under a clear blue sky.
Playful brown and white puppy sitting on a flower-dotted green lawn with a blue sky and fluffy clouds overhead.
Bien que ce ne soit pas strictement NSFW, c'est suffisamment dérangeant pour que je l'aie pixelisé

Après optimisation, tellement de pattes ! Je me demande ce que l'emoji du chien multi-pattes est censé exprimer ? Envoyez-nous vos réponses !

Illustration showing four whimsical brown puppies with various poses alongside detailed instructions for creating a surreal s

Stable Diffusion XL a mal interprété la consigne :

Small puppy with floppy ears and a black collar standing on a brown surface, looking at the camera against a gradient gray-bl

Même après optimisation, on se dit "quelle partie de sept pattes n'avez-vous pas comprise ?" :

Untitled

Qui est le meilleur toutou et qui est le dernier de la portée dans cette manche ?

Avant optimisation Après optimisation
DALL-E 3 🥇 Les deux chiots ont un nombre bizarre de pattes. Le premier en a même sept, bien que certaines soient à peine visibles. Bien que je ne sache pas ce que sont ces espèces de pinces sur le chiot numéro deux, et je ne souhaite pas le savoir. 🥇 OUI. Tous les chiots. Toutes les pattes. Vous pouvez jouer à serrer la patte avec ces mignonnes créatures pendant des heures. L'un d'eux a même le bon nombre de pattes.
Stable Diffusion XL 🥉 Quand je veux un chiot avec des pattes à n'en plus finir, je ne parle pas simplement de longues pattes 🥉 J'aime mes chiots avec plus de pattes

Round Bonus : Kegstand Punk

Dans certains cas, DALL-E 3 et SDXL échouent tous les deux, que nous utilisions l'optimisation ou non. Par exemple, pour générer une image d'un punk faisant un kegstand.

Voici une image d'un punk...

Man with a green mohawk and black "DISCHARGE" coat on a city street, showcasing bold fashion and individuality.
via pexels.com

...et une illustration d'un kegstand (qui ressemble à une illustration de livre pour enfants) :

Joyful illustration of men around a barrel with another man playfully inside, indicating humor and fun.

Je ne trouve pas d'image réelle d'un punk faisant un kegstand en ligne. Ah, les punks, quels prudes !

DALL-E 3 nous donne un punk dans un bar avec un éclairage étrange mais cool. Il a l'air très stoïque. Il est sur un fût, mais ne fait pas de kegstand.

A punk doing a kegstand at a lively party, with interface icons and chat text indicating an image generation command.

Après optimisation, j'apprécie l'ambiance, mais toujours pas de kegstand :

Punk rocker with brightly colored spiked hair and tattoos, performing a keg stand at a lively underground party in a graffiti

Ils devraient renommer ça Stable Diffusion Urgences, parce que ce type (?) a besoin d'aller à l'hôpital :

Man performing a handstand on a wooden barrel outdoors, dressed in black, with a red and white building and a clear sky in th

Après optimisation, c'est beaucoup mieux. Il y a un fût. Il y a un punk. Mais toujours pas de kegstand, hélas.

Energetic punk music scene in an underground venue with a crowd, punk in leather and mohawk hairstyles.

Qui est punk et qui ne l'est pas ?

Avant optimisation Après optimisation
DALL-E 3 🥈 Punk, check. Fût, check. Kegstand, pas vraiment 🥈 L'optimisation a un peu changé l'ambiance, mais toujours pas de véritable kegstand
Stable Diffusion XL 🥉 Aïe. Pas un punk. Pas un kegstand. À peine un être humain. Et en faisant un kegstand comme ça, il ne restera plus longtemps humain. 🥈 L'optimisation nous a donné un bien meilleur résultat, montrant un punk interagissant avec un fût. Plus d'horreur corporelle cette fois.

Décompte des points

Maintenant que le concours est terminé, nous allons compter les points comme suit :

  • 💩 : zéro point
  • 🥉 : un point
  • 🥈 : deux points
  • 🥇 : trois points

Le nombre maximum de points qu'une option pouvait obtenir est de 15 (gagner une médaille d'or dans les cinq manches). Voyons la répartition :

Défi DALL-E 3 Stable Diffusion XL
Avant PromptPerfect Après PromptPerfect Avant PromptPerfect Après PromptPerfect
Figure notable 💩 0 🥉 1 🥇 3 🥇 3
Matériel "sous copyright" 💩 0 🥈 2 🥉 1 🥈 2
Texte 🥈 2 🥇 3 🥉 1 🥈 2
Créations maudites 🥇 3 🥇 3 🥉 1 🥉 1
Punk kegstand 🥈 2 🥈 2 🥉 1 🥈 2
Total 🥉 7 🥇 11 🥉 7 🥈 10

En bref, sans la censure des premiers rounds, DALL-E 3 aurait obtenu un score bien plus élevé. Dans l'ensemble, l'utilisation de PromptPerfect pour optimiser vos prompts conduit à de meilleurs résultats pour les deux modèles.

Vous pouvez nous faire confiance, car c'était un concours impartial (réalisé par nous, pour nous, pour notre propre produit). Sérieusement, les résultats parlent d'eux-mêmes. Essayez par vous-même et voyez comment ça se passe !

Catégories:
Blog technique
rss_feed
Des bureaux
location_on
Sunnyvale, Californie
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, États-Unis
location_on
Berlin, Allemagne (siège social)
Prinzessinnenstraße 19-20, 10969 Berlin, Allemagne
location_on
Pékin, Chine
Niveau 5, bâtiment 6, n° 48, rue Haidian Ouest, Pékin, Chine
location_on
Shenzhen, en Chine
402 étage 4, bâtiment technologique Fu'an, Shenzhen, Chine
Fondation Recherche
Recherche profonde
Lecteur
Intégrations
Reclasseur
Classificateur
Segmenteur
Documentation de l'API
Obtenir la clé API Jina
Limite de taux
Statut de l'API
Entreprise
À propos de nous
Contacter le service commercial
Rédaction
Programme de stage
Rejoignez-nous
open_in_new
Télécharger le logo
open_in_new
Termes
Sécurité
termes et conditions
Confidentialité
Gérer les cookies
email
Jina AI © 2020-2025.