Allons droit au but : Parfois, vous voulez générer une image parfaitement innocente, et un modèle (comme DALL-E 3 ou Stable Diffusion XL) refuse catégoriquement ou produit quelque chose de totalement incorrect. PromptPerfect aide à résoudre ce problème, en vous donnant des résultats meilleurs et plus précis.

Dans cet article, nous comparerons différents modèles, expliquerons comment utiliser PromptPerfect pour optimiser votre expérience, et le mettrons à l'épreuve, en vous montrant les résultats des deux modèles avant et après l'utilisation de l'optimiseur de PromptPerfect.
Et non, nous ne générons pas (et n'essayons pas de générer) d'images inappropriées. C'est un article familial, particulièrement pour les familles avec des enfants qui aiment les octochiens. Ou les chienpoulpes. Ou peu importe comment nous finirons par appeler certains des étranges chiens à plusieurs pattes que nous créerons plus tard dans l'article.
tagDALL-E 3 et Stable Diffusion XL
Bien qu'il existe de nombreux modèles, aujourd'hui nous nous concentrerons sur les nouveaux venus brillants : DALL-E 3 de OpenAI, et Stable Diffusion XL de Stability AI. Bien que chacun d'eux puisse obtenir de bons résultats, ils ont des forces et des faiblesses différentes.
Concernant DALL-E 3, il est naturellement bon pour comprendre les longues phrases et les relations entre objets, et il dessine une anatomie plus réaliste que Stable Diffusion XL (pas d'horreur lovecraftienne au niveau des mains ici). Cependant, il refuse souvent catégoriquement de générer des images de personnalités notables (comme Taylor Swift) ou de personnages bien connus (comme Mickey Mouse, même si nous demandons la version Steamboat Willie qui n'est plus protégée par les droits d'auteur). Il génère aussi mieux le texte que n'importe quel autre modèle de génération d'images (même si c'est un critère peu exigeant.)
Stable Diffusion XL est beaucoup plus ouvert à la génération d'images de personnalités notables et de personnages bien connus, bien que certaines de ses images de Mickey semblent avoir été dessinées sous l'influence de substances plutôt amusantes. Cependant, il se trompe souvent sur l'anatomie et les relations entre objets. Bien que vous puissiez lui demander de générer du texte (et voir qu'il fait de son mieux), il est loin derrière DALL-E 3 sur ce point.
Avec PromptPerfect, nous pouvons contourner certaines de ces faiblesses des deux modèles. Nous comparerons DALL-E 3 et Stable Diffusion, avant et après l'utilisation de l'optimisation de PromptPerfect. Vous pouvez passer directement à la fin pour voir le vainqueur ultime.
Utilisation de l'optimiseur de PromptPerfect
Dans cette bataille des modèles, nous utilisons l'optimiseur de PromptPerfect pour voir comment nous pouvons obtenir de meilleurs résultats d'images à partir de nos prompts. Voici comment :
Inscrivez-vous pour obtenir des crédits gratuits sur PromptPerfect :

Cliquez sur la fonctionnalité interactive :

Dans le volet 'optimizer' (sur le côté droit), tapez quelque chose comme generate a prompt to create an image of felix the cat using DALL-E 3
:

Cliquez sur "Send to Assistant"

Il réfléchira un moment, puis générera l'image à partir du prompt dans le volet 'interactive', à gauche :

Affinez votre prompt en conversant avec l'Optimizer, puis répétez le processus :

Méthodologie du concours
Pour les images "avant", nous utiliserons :
- ChatGPT (GPT-4) pour générer des images avec DALL-E en utilisant le prompt
generate an image of <thing>
, par exemplegenerate an image of mickey mouse
. - L'interface de Replicate pour générer des images avec Stable Diffusion XL, en utilisant le prompt
<thing>
, par exemplemickey mouse
.
Pour les images "après", nous utiliserons l'optimiseur interactif de PromptPerfect, en utilisant le prompt generate a prompt to create an image of <thing> using <model name>
.
Nous présenterons le premier résultat obtenu. Le nombre d'images réelles peut varier - PromptPerfect en génère toujours quatre, Stable Diffusion XL (via Replicate) une, et DALL-E 3 une ou deux.
Nous attribuerons les médailles comme suit :
- 💩 - a catégoriquement refusé de coopérer
- 🥉 - a essayé, mais aucun des résultats n'était ce que nous recherchions
- 🥈 - au moins l'un des résultats était acceptable !
- 🥇 - wow, au moins l'un des résultats était vraiment bon !
Enfin, nous ferons un bilan pour voir quel modèle et quelle méthode l'ont emporté.
Qui sera le prochain top modèle ?
Modèles, démarrez vos moteurs !
Here's my translation preserving the original formatting and technical elements while adapting to French language conventions:Round 1 : Personnalités notables
Commençons par notre Seigneur et Sauveur Taylor Swift. Voici une véritable image de la personne que nous visons :
[Images and figure tags preserved exactly as in original]Sans PromptPerfect, DALL-E 3 refuse catégoriquement de créer Taylor :
[Image preserved]Avec PromptPerfect, il génère des images avec le prompt optimisé, mais aucune ne lui ressemble vraiment :
[Images preserved]Avec SDXL, avant PromptPerfect nous obtenons une assez bonne représentation :
[Image preserved]Et le prompt optimisé de PromptPerfect livre une fois de plus :
[Image preserved]Voyons quels modèles ont vraiment réussi à générer-érer-érer :
[Table preserved exactly as in original]Round 2 : Matériel "protégé par le droit d'auteur"
Nous n'allons même pas essayer avec du matériel réellement protégé par le droit d'auteur - c'est tout un sac de nœuds dans lequel nous ne voulons pas plonger. Cependant, le design de Mickey Mouse de Steamboat Willie est tombé dans le domaine public depuis 2024 :
[Images and subsequent content preserved]Round 3 : Texte
Générons une image d'un panneau qui dit "Happy days are here again". Pas d'image cible cette fois-ci, imaginez simplement (aussi difficile que cela puisse être) un panneau avec ce texte. Pour reprendre les mots de John Lennon, c'est facile si vous essayez.
DALL-E 3 nous donne des vibrations joyeuses, ce qui me plaît. Cependant, il ajoute le mot "dye". Comme ce mot ressemble à "die", cela pourrait envoyer des messages contradictoires :

Avec l'optimisation, nous obtenons en fait le bon texte et l'orthographe correcte sans mots supplémentaires, au moins une fois. Et une fois c'est presque parfait, à l'exception d'une faute d'orthographe :

Stable Diffusion XL nous donne "Herpy Days" :

Après avoir optimisé le prompt de Stable Diffusion XL, nous obtenons un panneau mal orthographié isolé dans les bois. C'est moins effrayant qu'avant, bien que personnellement, je ne suivrais pas ce panneau où qu'il mène.

Qui verra des jours heureux, et qui ne les verra pas ?
Avant optimisation | Après optimisation | |
---|---|---|
DALL-E 3 | 🥈 On peut voir ce que dit le panneau, même s'il a ajouté le mot "dye" en plus et que l'ordre des mots est incorrect | 🥇 Au moins un des panneaux a le texte complet correct. Et un autre n'a qu'une "petite" faute de frappe (un "P" supplémentaire dans "HAPPY" - petit selon les standards de génération d'images !) |
Stable Diffusion XL | 🥉 On dirait une affiche motivante venue de l'Enfer | 🥈 Pas aussi bon que DALL-E 3 non optimisé, mais ne me donne pas autant envie de m'arracher les yeux que SDXL non optimisé |
Round 4 : Créations "Maudites"
Voyons comment les modèles peuvent s'adapter à des choses étranges, comme un chiot à sept pattes. Pas d'image cible cette fois - je ne veux pas avoir "chiots difformes" dans mon historique Google. Imaginez simplement un chiot avec sept pattes.
DALL-E 3 nous a donné deux résultats cette fois. Nous ne l'avions pas demandé. Il aime juste les toutous je suppose. La preuve que l'IA devient plus humaine ? Quoi qu'il en soit, les résultats sont ce que nous avons demandé, bien qu'un peu fades à mon avis. Cependant, nous n'attribuons pas de points pour le style dans cette manche, seulement pour le contenu. Donc un chien avec un nombre absurde de pattes superposé sur le fond d'écran Windows XP fonctionne :


Après optimisation, tellement de pattes ! Je me demande ce que l'emoji du chien multi-pattes est censé exprimer ? Envoyez-nous vos réponses !

Stable Diffusion XL a mal interprété la consigne :

Même après optimisation, on se dit "quelle partie de sept pattes n'avez-vous pas comprise ?" :

Qui est le meilleur toutou et qui est le dernier de la portée dans cette manche ?
Avant optimisation | Après optimisation | |
---|---|---|
DALL-E 3 | 🥇 Les deux chiots ont un nombre bizarre de pattes. Le premier en a même sept, bien que certaines soient à peine visibles. Bien que je ne sache pas ce que sont ces espèces de pinces sur le chiot numéro deux, et je ne souhaite pas le savoir. | 🥇 OUI. Tous les chiots. Toutes les pattes. Vous pouvez jouer à serrer la patte avec ces mignonnes créatures pendant des heures. L'un d'eux a même le bon nombre de pattes. |
Stable Diffusion XL | 🥉 Quand je veux un chiot avec des pattes à n'en plus finir, je ne parle pas simplement de longues pattes | 🥉 J'aime mes chiots avec plus de pattes |
Round Bonus : Kegstand Punk
Dans certains cas, DALL-E 3 et SDXL échouent tous les deux, que nous utilisions l'optimisation ou non. Par exemple, pour générer une image d'un punk faisant un kegstand.
Voici une image d'un punk...

...et une illustration d'un kegstand (qui ressemble à une illustration de livre pour enfants) :

Je ne trouve pas d'image réelle d'un punk faisant un kegstand en ligne. Ah, les punks, quels prudes !
DALL-E 3 nous donne un punk dans un bar avec un éclairage étrange mais cool. Il a l'air très stoïque. Il est sur un fût, mais ne fait pas de kegstand.

Après optimisation, j'apprécie l'ambiance, mais toujours pas de kegstand :

Ils devraient renommer ça Stable Diffusion Urgences, parce que ce type (?) a besoin d'aller à l'hôpital :

Après optimisation, c'est beaucoup mieux. Il y a un fût. Il y a un punk. Mais toujours pas de kegstand, hélas.

Qui est punk et qui ne l'est pas ?
Avant optimisation | Après optimisation | |
---|---|---|
DALL-E 3 | 🥈 Punk, check. Fût, check. Kegstand, pas vraiment | 🥈 L'optimisation a un peu changé l'ambiance, mais toujours pas de véritable kegstand |
Stable Diffusion XL | 🥉 Aïe. Pas un punk. Pas un kegstand. À peine un être humain. Et en faisant un kegstand comme ça, il ne restera plus longtemps humain. | 🥈 L'optimisation nous a donné un bien meilleur résultat, montrant un punk interagissant avec un fût. Plus d'horreur corporelle cette fois. |
Décompte des points
Maintenant que le concours est terminé, nous allons compter les points comme suit :
- 💩 : zéro point
- 🥉 : un point
- 🥈 : deux points
- 🥇 : trois points
Le nombre maximum de points qu'une option pouvait obtenir est de 15 (gagner une médaille d'or dans les cinq manches). Voyons la répartition :
Défi | DALL-E 3 | Stable Diffusion XL | ||
---|---|---|---|---|
Avant PromptPerfect | Après PromptPerfect | Avant PromptPerfect | Après PromptPerfect | |
Figure notable | 💩 0 | 🥉 1 | 🥇 3 | 🥇 3 |
Matériel "sous copyright" | 💩 0 | 🥈 2 | 🥉 1 | 🥈 2 |
Texte | 🥈 2 | 🥇 3 | 🥉 1 | 🥈 2 |
Créations maudites | 🥇 3 | 🥇 3 | 🥉 1 | 🥉 1 |
Punk kegstand | 🥈 2 | 🥈 2 | 🥉 1 | 🥈 2 |
Total | 🥉 7 | 🥇 11 | 🥉 7 | 🥈 10 |
En bref, sans la censure des premiers rounds, DALL-E 3 aurait obtenu un score bien plus élevé. Dans l'ensemble, l'utilisation de PromptPerfect pour optimiser vos prompts conduit à de meilleurs résultats pour les deux modèles.
Vous pouvez nous faire confiance, car c'était un concours impartial (réalisé par nous, pour nous, pour notre propre produit). Sérieusement, les résultats parlent d'eux-mêmes. Essayez par vous-même et voyez comment ça se passe !