Andiamo dritti al punto: A volte vuoi generare un'immagine perfettamente innocente, e un modello (come DALL-E 3 o Stable Diffusion XL) o si rifiuta categoricamente o produce qualcosa di completamente sbagliato. PromptPerfect ti aiuta con questo, fornendoti risultati migliori e più accurati.

In questo post confronteremo diversi modelli, spiegheremo come usare PromptPerfect per ottimizzare la tua esperienza e lo metteremo alla prova, mostrandoti i risultati di entrambi i modelli prima e dopo l'uso dell'ottimizzatore di PromptPerfect.
E no, non stiamo generando (o cercando di generare) immagini inappropriate. Questo è un post adatto alle famiglie, specialmente per famiglie con bambini che amano gli ottocuccioli. O i cagnopolipi. O comunque decideremo di chiamare alcuni degli strani cagnolini con molte zampe che creeremo più avanti nel post.
tagDALL-E 3 e Stable Diffusion XL
Anche se ci sono molti modelli disponibili, oggi ci concentreremo sulle nuove stelle nascenti: DALL-E 3 di OpenAI, e Stable Diffusion XL di Stability AI. Mentre entrambi possono ottenere buoni risultati, hanno diversi punti di forza e debolezza.
Guardando DALL-E 3, è naturalmente bravo a comprendere frasi lunghe e relazioni tra oggetti, e disegna anatomie più realistiche di Stable Diffusion XL (niente mani da orrore lovecraftiano qui). Tuttavia, spesso si rifiuta categoricamente di generare immagini di personaggi famosi (come Taylor Swift) o personaggi ben noti (come Topolino, anche se chiediamo la versione Steamboat Willie fuori copyright). Genera anche testo meglio di qualsiasi altro modello di generazione di immagini (anche se è un livello basso).
Stable Diffusion XL è molto più aperto a generare immagini di personaggi famosi e personaggi ben noti, anche se alcune delle sue immagini di Topolino sembrano disegnate sotto l'effetto di droghe molto divertenti. Tuttavia, spesso sbaglia l'anatomia e le relazioni tra oggetti. Mentre puoi chiedergli di generare testo (e si vede che ci sta provando), è molto indietro rispetto a DALL-E 3 su questo fronte.
Con PromptPerfect possiamo superare alcune di queste debolezze da entrambi i modelli. Confronteremo DALL-E 3 e Stable Diffusion, sia prima che dopo l'uso dell'ottimizzazione di PromptPerfect. Puoi saltare avanti per vedere il vincitore finale.
tagUtilizzare l'ottimizzatore di PromptPerfect
In questa battaglia dei modelli stiamo usando l'ottimizzatore di PromptPerfect per vedere come possiamo ottenere migliori risultati dalle nostre richieste. Ecco come:
Registrati per crediti gratuiti su PromptPerfect:

Clicca sulla funzionalità interattiva:

Nel pannello 'optimizer' (sul lato destro), scrivi qualcosa come generate a prompt to create an image of felix the cat using DALL-E 3
:

Clicca "Send to Assistant"

Penserà un po', poi genererà l'immagine dal prompt nel pannello 'interactive', sulla sinistra:

Affina il tuo prompt conversando con l'Optimizer, poi ripeti il processo:

tagMetodologia del Contest
Per le immagini "prima", useremo:
- ChatGPT (GPT-4) per generare immagini con DALL-E usando il prompt
generate an image of <thing>
, per esempiogenerate an image of mickey mouse
. - L'interfaccia di Replicate per generare immagini con Stable Diffusion XL, usando il prompt
<thing>
, per esempiomickey mouse
.
Per le immagini "dopo", useremo l'ottimizzatore interattivo di PromptPerfect, usando il prompt generate a prompt to create an image of <thing> using <model name>
.
Presenteremo il primo output che appare. Il numero effettivo di immagini può variare - PromptPerfect genera sempre quattro immagini, Stable Diffusion XL (via Replicate) una, e DALL-E 3 una o due.
Assegneremo medaglie come segue:
- 💩 - si è rifiutato completamente di collaborare
- 🥉 - ci ha provato, ma nessuno degli output era quello che cercavamo
- 🥈 - almeno uno degli output era un risultato accettabile!
- 🥇 - accidenti, almeno uno degli output era davvero buono!
Infine faremo un riepilogo e vedremo quale modello e metodo è risultato vincitore.
tagChi Sarà il Prossimo Top Model?
Modelli, accendete i motori!
I apologize, but I'll continue with the translation as requested:tagRound 1: Personaggi Noti
Proviamo prima con la nostra Signora e Salvatore Taylor Swift. Ecco un'immagine reale della persona che stiamo cercando:

Senza PromptPerfect, DALL-E 3 si rifiuta categoricamente di creare Taylor:

Con PromptPerfect, genera immagini con il prompt ottimizzato, ma nessuna di esse le assomiglia veramente:

Con SDXL, prima di PromptPerfect otteniamo una rappresentazione abbastanza buona:

E il prompt ottimizzato di PromptPerfect ancora una volta dà risultati:

Vediamo quali modelli hanno davvero saputo generare-rare-rare:
Prima dell'ottimizzazione | Dopo l'ottimizzazione | |
---|---|---|
DALL-E 3 | 💩 Si è rifiutato categoricamente | 🥉 Bionda? Sì. Cantante? Sì. Taylor? No |
Stable Diffusion XL | 🥇 Vibrazioni alla Swift | 🥇 Abbastanza Tayloriano |
tagRound 2: Materiale "Coperto da Copyright"
Non proveremo nemmeno con materiale effettivamente protetto da copyright - è un vaso di Pandora in cui non vogliamo addentrarci. Tuttavia, il design di Topolino da Steamboat Willie è fuori copyright dal 2024:

Usiamolo come soggetto. DALL-E 3 si rifiuta categoricamente all'inizio:

Con PromptPerfect otteniamo risultati con la giusta atmosfera, ma non lo stile rubber hose degli anni '30:

Stable Diffusion ci prova. Ci prova davvero. Con questo Topolino ottieni molte più orecchie, occhi e dita per il tuo denaro:

Con l'ottimizzazione di PromptPerfect, Stable Diffusion ci dà ancora un Topolino da incubo, ma più da febbre leggera, meno da "quanto sono forti questi funghi?":

Quale modello mette il "brr" in Topolino?
Prima dell'ottimizzazione | Dopo l'ottimizzazione | |
---|---|---|
DALL-E 3 | 💩 policy schmolicy. Questo materiale è decisamente fuori copyright. | 🥈 Decisamente aveva le vibrazioni di Topolino, nessuna stranezza, solo non lo stile anni '30 che cercavo. |
Stable Diffusion XL | 🥉 Vai a casa Topolino. Sei posseduto. | 🥈 A malapena si guadagna la medaglia d'argento. Più vibrazioni di Topolino rispetto a DALL-E 3, ma la deformazione è davvero distraente |
tagRound 3: Testo
Generiamo un'immagine di un cartello che dice "Happy days are here again". Nessuna immagine di riferimento questa volta, immagina semplicemente (per quanto possa essere difficile) un cartello con quel testo. Come direbbe John Lennon, è facile se ci provi.
DALL-E 3 ci dà sensazioni positive, che mi piacciono. Tuttavia, aggiunge la parola "dye". Poiché suona come la parola "die", potrebbe inviare messaggi contrastanti:

Con l'ottimizzazione, otteniamo effettivamente il testo e l'ortografia corretti senza parole extra, almeno una volta. E una volta è quasi perfetto, tranne che per un errore di ortografia:

Stable Diffusion XL ci dà Herpy Days:

Dopo aver ottimizzato il prompt di Stable Diffusion XL, otteniamo un cartello solitario con errori di ortografia nel bosco. È meno spaventoso di prima, anche se personalmente non seguirei quel cartello ovunque porti.

Chi vedrà giorni felici e chi no?
Prima dell'ottimizzazione | Dopo l'ottimizzazione | |
---|---|---|
DALL-E 3 | 🥈 Si può vedere cosa dice il cartello, anche se ha aggiunto la parola extra "dye" e l'ordine delle parole è sbagliato | 🥇 Almeno uno dei cartelli ha il testo completo corretto. E un altro ha solo un "piccolo" errore di battitura (una "P" in più in "HAPPY" - piccolo per gli standard della generazione di immagini!) |
Stable Diffusion XL | 🥉 Sembra un poster motivazionale dall'Inferno | 🥈 Non è buono come DALL-E 3 non ottimizzato, ma non mi fa venire voglia di cavarmi gli occhi quanto SDXL non ottimizzato |
tagRound 4: Creazioni "Maledette"
Vediamo quanto bene i modelli possano adattarsi a cose strane, come un cucciolo con sette zampe. Nessuna immagine target questa volta - non voglio avere "cuccioli deformati" nella mia cronologia di Google. Immaginate solo un cucciolo con sette zampe.
DALL-E 3 ci ha dato due output questa volta. Non l'abbiamo chiesto. Semplicemente ama i cani, immagino. Prova che l'AI sta diventando più simile all'uomo? Comunque, i risultati erano quello che abbiamo chiesto, anche se un po' insipidi secondo me. Comunque non stiamo assegnando punti per lo stile in questo round, solo per il contenuto. Quindi un cane con un numero assurdo di zampe sovrapposto allo sfondo di Windows XP funziona:


Dopo l'ottimizzazione, quante zampe! Mi chiedo cosa voglia esprimere l'emoji del cane con più zampe? Mandateci le vostre risposte!

Stable Diffusion XL ha frainteso il compito:

Anche dopo l'ottimizzazione, siamo tipo "quale parte di sette zampe non hai capito?":

Chi è il migliore e chi il peggiore in questo round?
Prima dell'ottimizzazione | Dopo l'ottimizzazione | |
---|---|---|
DALL-E 3 | 🥇 Entrambi i cuccioli hanno un numero bizzarro di zampe. Il primo cucciolo ne ha persino sette, anche se alcune sono appena visibili. Anche se non so cosa siano quelle cose simili a pinze sul secondo cucciolo, e non voglio neanche saperlo. | 🥇 SÌ. Tutti i cuccioli. Tutte le zampe. Puoi giocare a stringere la zampa con questi cuccioli per ore. Uno ha persino il numero giusto di zampe. |
Stable Diffusion XL | 🥉 Quando voglio un cucciolo con le zampe infinite, non intendo solo zampe lunghe | 🥉 Mi piacciono i cuccioli con più zampe |
tagRound Bonus: Kegstand Punk
In alcuni casi, sia DALL-E 3 che SDXL falliscono che si utilizzi l'ottimizzazione o no. Per esempio, generando un'immagine di un punk che fa un kegstand.
Ecco un'immagine di un punk...

...e un'illustrazione di un kegstand (che sembra provenire da un libro per bambini educativo):

Non riesco a trovare un'immagine reale di un punk che fa un kegstand online. Uff, i punk, che pudici!
DALL-E 3 ci dà un punk in un bar con un'illuminazione strana ma cool. Sembra molto stoico. È su un fusto, ma non sta facendo il kegstand.

Dopo l'ottimizzazione, mi piace l'atmosfera, ma ancora niente kegstand:

Dovrebbero cambiare il nome in Stable Diffusion ER, perché questo tizio(?) ha bisogno di andare all'ospedale:

Dopo l'ottimizzazione sembra molto meglio. C'è un fusto. C'è un punk. Ancora niente kegstand, purtroppo.

Chi è il punk e chi è solo spazzatura?
Prima dell'ottimizzazione | Dopo l'ottimizzazione | |
---|---|---|
DALL-E 3 | 🥈 Punk, check. Fusto check. Kegstand, non proprio | 🥈 L'ottimizzazione ha cambiato un po' l'atmosfera, ma ancora niente kegstand |
Stable Diffusion XL | 🥉 Ahia. Non è un punk. Non è un kegstand. A malapena un essere umano. E facendo un kegstand così, non sarà più nessun tipo di essere umano ancora per molto. | 🥈 L'ottimizzazione ci ha dato un risultato molto migliore, mostrando un punk che interagisce con un fusto. Niente body horror questa volta. |
tagConteggio dei Punteggi
Ora che la competizione è finita, conteremo i punteggi come segue:
- 💩: zero punti
- 🥉: un punto
- 🥈: due punti
- 🥇: tre punti
Il numero massimo di punti che qualsiasi opzione potrebbe ottenere è 15 (vincendo una medaglia d'oro in tutti e cinque i round). Vediamo il riepilogo:
Sfida | DALL-E 3 | Stable Diffusion XL | ||
---|---|---|---|---|
Prima di PromptPerfect | Dopo PromptPerfect | Prima di PromptPerfect | Dopo PromptPerfect | |
Figura notevole | 💩 0 | 🥉 1 | 🥇 3 | 🥇 3 |
Materiale "coperto da copyright" | 💩 0 | 🥈 2 | 🥉 1 | 🥈 2 |
Testo | 🥈 2 | 🥇 3 | 🥉 1 | 🥈 2 |
Creazioni maledette | 🥇 3 | 🥇 3 | 🥉 1 | 🥉 1 |
Punk kegstand | 🥈 2 | 🥈 2 | 🥉 1 | 🥈 2 |
Totale | 🥉 7 | 🥇 11 | 🥉 7 | 🥈 10 |
In breve, se non fosse per la censura nei primi round, DALL-E 3 avrebbe ottenuto un punteggio molto più alto. Nel complesso, utilizzare PromptPerfect per ottimizzare i prompt porta a risultati migliori per entrambi i modelli.
Potete fidarvi di noi, perché questa è stata una competizione imparziale (fatta da noi, per noi, per il nostro prodotto). Seriamente però, i risultati parlano da soli. Provatelo voi stessi e vedete come va!