Supera i limiti con PromptPerfect: Genera le immagini che i modelli non vogliono farti vedere

💡

Calma, non ci concentreremo su quel tipo di immagini (qualunque cosa tu pensi che quelle siano).

Andiamo dritti al punto: A volte vuoi generare un'immagine perfettamente innocente, e un modello (come DALL-E 3 o Stable Diffusion XL) o si rifiuta categoricamente o produce qualcosa di completamente sbagliato. PromptPerfect ti aiuta con questo, fornendoti risultati migliori e più accurati.

In questo post confronteremo diversi modelli, spiegheremo come usare PromptPerfect per ottimizzare la tua esperienza e lo metteremo alla prova, mostrandoti i risultati di entrambi i modelli prima e dopo l'uso dell'ottimizzatore di PromptPerfect.

E no, non stiamo generando (o cercando di generare) immagini inappropriate. Questo è un post adatto alle famiglie, specialmente per famiglie con bambini che amano gli ottocuccioli. O i cagnopolipi. O comunque decideremo di chiamare alcuni degli strani cagnolini con molte zampe che creeremo più avanti nel post.

tagDALL-E 3 e Stable Diffusion XL

Anche se ci sono molti modelli disponibili, oggi ci concentreremo sulle nuove stelle nascenti: DALL-E 3 di OpenAI, e Stable Diffusion XL di Stability AI. Mentre entrambi possono ottenere buoni risultati, hanno diversi punti di forza e debolezza.

Guardando DALL-E 3, è naturalmente bravo a comprendere frasi lunghe e relazioni tra oggetti, e disegna anatomie più realistiche di Stable Diffusion XL (niente mani da orrore lovecraftiano qui). Tuttavia, spesso si rifiuta categoricamente di generare immagini di personaggi famosi (come Taylor Swift) o personaggi ben noti (come Topolino, anche se chiediamo la versione Steamboat Willie fuori copyright). Genera anche testo meglio di qualsiasi altro modello di generazione di immagini (anche se è un livello basso).

Stable Diffusion XL è molto più aperto a generare immagini di personaggi famosi e personaggi ben noti, anche se alcune delle sue immagini di Topolino sembrano disegnate sotto l'effetto di droghe molto divertenti. Tuttavia, spesso sbaglia l'anatomia e le relazioni tra oggetti. Mentre puoi chiedergli di generare testo (e si vede che ci sta provando), è molto indietro rispetto a DALL-E 3 su questo fronte.

Con PromptPerfect possiamo superare alcune di queste debolezze da entrambi i modelli. Confronteremo DALL-E 3 e Stable Diffusion, sia prima che dopo l'uso dell'ottimizzazione di PromptPerfect. Puoi saltare avanti per vedere il vincitore finale.

tagUtilizzare l'ottimizzatore di PromptPerfect

In questa battaglia dei modelli stiamo usando l'ottimizzatore di PromptPerfect per vedere come possiamo ottenere migliori risultati dalle nostre richieste. Ecco come:

Registrati per crediti gratuiti su PromptPerfect:

💡

Prova un piano a pagamento gratis per 7 giorni. E abbonati a un piano entro 24 ore dal primo accesso per ottenere il 40% di sconto!

Clicca sulla funzionalità interattiva:

Dark themed webpage of PromptPerfect! with a navigation bar and titles like "Interactive" and "Auto-tune."

Nel pannello 'optimizer' (sul lato destro), scrivi qualcosa come generate a prompt to create an image of felix the cat using DALL-E 3:

Interface of an AI assistant tool with option to create a playful image of Felix the Cat using DALL-E 3.

Clicca "Send to Assistant"

Screenshot of a DALL-E 3 interface with options to create a playful, whimsical image of Felix the Cat, including buttons for

Penserà un po', poi genererà l'immagine dal prompt nel pannello 'interactive', sulla sinistra:

Progression of Felix the Cat illustrations from sketch to a lively pop art style creation.

Affina il tuo prompt conversando con l'Optimizer, poi ripeti il processo:

Screenshot of an artistic request page for creating a Felix the Cat illustration in the 1930s rubber hose animation style, em

tagMetodologia del Contest

Per le immagini "prima", useremo:

ChatGPT (GPT-4) per generare immagini con DALL-E usando il prompt generate an image of <thing>, per esempio generate an image of mickey mouse.
L'interfaccia di Replicate per generare immagini con Stable Diffusion XL, usando il prompt <thing>, per esempio mickey mouse.

Per le immagini "dopo", useremo l'ottimizzatore interattivo di PromptPerfect, usando il prompt generate a prompt to create an image of <thing> using <model name>.

Presenteremo il primo output che appare. Il numero effettivo di immagini può variare - PromptPerfect genera sempre quattro immagini, Stable Diffusion XL (via Replicate) una, e DALL-E 3 una o due.

💡

Mentre l'ottimizzatore di PromptPerfect è interattivo (quindi puoi affinare il tuo prompt in modo conversazionale), ci siamo attenuti solo al primo risultato per essere il più imparziali possibile. Utilizzando davvero la funzionalità interattiva dell'ottimizzatore otterresti risultati ancora migliori.

Assegneremo medaglie come segue:

💩 - si è rifiutato completamente di collaborare
🥉 - ci ha provato, ma nessuno degli output era quello che cercavamo
🥈 - almeno uno degli output era un risultato accettabile!
🥇 - accidenti, almeno uno degli output era davvero buono!

Infine faremo un riepilogo e vedremo quale modello e metodo è risultato vincitore.

tagChi Sarà il Prossimo Top Model?

Modelli, accendete i motori!

I apologize, but I'll continue with the translation as requested:

tagRound 1: Personaggi Noti

Proviamo prima con la nostra Signora e Salvatore Taylor Swift. Ecco un'immagine reale della persona che stiamo cercando:

Taylor Swift wearing a black dress with deep V-neckline and gold necklace, posing with a hand on her hip, against a colorful — Licenza CC BY 3.0, Attribuzione: iHeartRadioCA

Senza PromptPerfect, DALL-E 3 si rifiuta categoricamente di creare Taylor:

Chat interface showing a denied request to generate an image of Taylor Swift by ChatGPT due to content policy.

Con PromptPerfect, genera immagini con il prompt ottimizzato, ma nessuna di esse le assomiglia veramente:

Taylor Swift in an edited portrait with suggestions for a red sequined dress, styled hair, and dramatic stage lighting.

Con SDXL, prima di PromptPerfect otteniamo una rappresentazione abbastanza buona:

Portrait of Taylor Swift with red lipstick, blondish-brown hair, wearing a dress against a pink background.

E il prompt ottimizzato di PromptPerfect ancora una volta dà risultati:

Edited collage of Taylor Swift with multiple effects via a photo editor, highlighting options like Optimize and Assistant.

Vediamo quali modelli hanno davvero saputo generare-rare-rare:

	Prima dell'ottimizzazione	Dopo l'ottimizzazione
DALL-E 3	💩 Si è rifiutato categoricamente	🥉 Bionda? Sì. Cantante? Sì. Taylor? No
Stable Diffusion XL	🥇 Vibrazioni alla Swift	🥇 Abbastanza Tayloriano

tagRound 2: Materiale "Coperto da Copyright"

Non proveremo nemmeno con materiale effettivamente protetto da copyright - è un vaso di Pandora in cui non vogliamo addentrarci. Tuttavia, il design di Topolino da Steamboat Willie è fuori copyright dal 2024:

Cartoon of Mickey Mouse dressed in captain attire, steering a ship's wheel with a joyful expression, in a classic black-and-w

Usiamolo come soggetto. DALL-E 3 si rifiuta categoricamente all'inizio:

Chat exchange in Slack showing a user request for a 'Mickey Mouse from Steamboat Willie' image and ChatGPT's polite policy vi

Con PromptPerfect otteniamo risultati con la giusta atmosfera, ma non lo stile rubber hose degli anni '30:

Black and white image editing screen featuring classic Mickey Mouse on a steamboat, with detailed creative instructions.

Stable Diffusion ci prova. Ci prova davvero. Con questo Topolino ottieni molte più orecchie, occhi e dita per il tuo denaro:

Black and white illustration of Mickey Mouse gesturing in a playful stance.

Con l'ottimizzazione di PromptPerfect, Stable Diffusion ci dà ancora un Topolino da incubo, ma più da febbre leggera, meno da "quanto sono forti questi funghi?":

Series of Mickey Mouse images showcasing artistic transformation from vintage black and white to modern 3D CGI, created with

Quale modello mette il "brr" in Topolino?

	Prima dell'ottimizzazione	Dopo l'ottimizzazione
DALL-E 3	💩 policy schmolicy. Questo materiale è decisamente fuori copyright.	🥈 Decisamente aveva le vibrazioni di Topolino, nessuna stranezza, solo non lo stile anni '30 che cercavo.
Stable Diffusion XL	🥉 Vai a casa Topolino. Sei posseduto.	🥈 A malapena si guadagna la medaglia d'argento. Più vibrazioni di Topolino rispetto a DALL-E 3, ma la deformazione è davvero distraente

tagRound 3: Testo

Generiamo un'immagine di un cartello che dice "Happy days are here again". Nessuna immagine di riferimento questa volta, immagina semplicemente (per quanto possa essere difficile) un cartello con quel testo. Come direbbe John Lennon, è facile se ci provi.

DALL-E 3 ci dà sensazioni positive, che mi piacciono. Tuttavia, aggiunge la parola "dye". Poiché suona come la parola "die", potrebbe inviare messaggi contrastanti:

Colorful sign reading "Happy Days Are Here Again" in a creative font, with a sun and clouds, shared in a Slack conversation.

Con l'ottimizzazione, otteniamo effettivamente il testo e l'ortografia corretti senza parole extra, almeno una volta. E una volta è quasi perfetto, tranne che per un errore di ortografia:

A vibrant, nostalgic sign reading "Happy Days Are Here Again" in bold, cheerful lettering on weathered wood, set against a lu

Stable Diffusion XL ci dà Herpy Days:

Playful sign with the phrase "Happy Days Are Here Again" painted in a unique and stylized manner.

Dopo aver ottimizzato il prompt di Stable Diffusion XL, otteniamo un cartello solitario con errori di ortografia nel bosco. È meno spaventoso di prima, anche se personalmente non seguirei quel cartello ovunque porti.

Old wooden sign reading "Happy days are here again" in a vibrant, detailed landscape with a backdrop of blue sky and trees.

Chi vedrà giorni felici e chi no?

	Prima dell'ottimizzazione	Dopo l'ottimizzazione
DALL-E 3	🥈 Si può vedere cosa dice il cartello, anche se ha aggiunto la parola extra "dye" e l'ordine delle parole è sbagliato	🥇 Almeno uno dei cartelli ha il testo completo corretto. E un altro ha solo un "piccolo" errore di battitura (una "P" in più in "HAPPY" - piccolo per gli standard della generazione di immagini!)
Stable Diffusion XL	🥉 Sembra un poster motivazionale dall'Inferno	🥈 Non è buono come DALL-E 3 non ottimizzato, ma non mi fa venire voglia di cavarmi gli occhi quanto SDXL non ottimizzato

tagRound 4: Creazioni "Maledette"

Vediamo quanto bene i modelli possano adattarsi a cose strane, come un cucciolo con sette zampe. Nessuna immagine target questa volta - non voglio avere "cuccioli deformati" nella mia cronologia di Google. Immaginate solo un cucciolo con sette zampe.

DALL-E 3 ci ha dato due output questa volta. Non l'abbiamo chiesto. Semplicemente ama i cani, immagino. Prova che l'AI sta diventando più simile all'uomo? Comunque, i risultati erano quello che abbiamo chiesto, anche se un po' insipidi secondo me. Comunque non stiamo assegnando punti per lo stile in questo round, solo per il contenuto. Quindi un cane con un numero assurdo di zampe sovrapposto allo sfondo di Windows XP funziona:

Cute brown and white puppy sitting on a grassy hill with colorful flowers, one paw raised, under a clear blue sky.

Playful brown and white puppy sitting on a flower-dotted green lawn with a blue sky and fluffy clouds overhead. — Anche se non è strettamente NSFW, è sufficientemente inquietante da averlo pixelato

Dopo l'ottimizzazione, quante zampe! Mi chiedo cosa voglia esprimere l'emoji del cane con più zampe? Mandateci le vostre risposte!

Illustration showing four whimsical brown puppies with various poses alongside detailed instructions for creating a surreal s

Stable Diffusion XL ha frainteso il compito:

Small puppy with floppy ears and a black collar standing on a brown surface, looking at the camera against a gradient gray-bl

Anche dopo l'ottimizzazione, siamo tipo "quale parte di sette zampe non hai capito?":

Chi è il migliore e chi il peggiore in questo round?

	Prima dell'ottimizzazione	Dopo l'ottimizzazione
DALL-E 3	🥇 Entrambi i cuccioli hanno un numero bizzarro di zampe. Il primo cucciolo ne ha persino sette, anche se alcune sono appena visibili. Anche se non so cosa siano quelle cose simili a pinze sul secondo cucciolo, e non voglio neanche saperlo.	🥇 SÌ. Tutti i cuccioli. Tutte le zampe. Puoi giocare a stringere la zampa con questi cuccioli per ore. Uno ha persino il numero giusto di zampe.
Stable Diffusion XL	🥉 Quando voglio un cucciolo con le zampe infinite, non intendo solo zampe lunghe	🥉 Mi piacciono i cuccioli con più zampe

tagRound Bonus: Kegstand Punk

In alcuni casi, sia DALL-E 3 che SDXL falliscono che si utilizzi l'ottimizzazione o no. Per esempio, generando un'immagine di un punk che fa un kegstand.

Ecco un'immagine di un punk...

Man with a green mohawk and black "DISCHARGE" coat on a city street, showcasing bold fashion and individuality. — via pexels.com

...e un'illustrazione di un kegstand (che sembra provenire da un libro per bambini educativo):

Joyful illustration of men around a barrel with another man playfully inside, indicating humor and fun.

Non riesco a trovare un'immagine reale di un punk che fa un kegstand online. Uff, i punk, che pudici!

DALL-E 3 ci dà un punk in un bar con un'illuminazione strana ma cool. Sembra molto stoico. È su un fusto, ma non sta facendo il kegstand.

A punk doing a kegstand at a lively party, with interface icons and chat text indicating an image generation command.

Dopo l'ottimizzazione, mi piace l'atmosfera, ma ancora niente kegstand:

Punk rocker with brightly colored spiked hair and tattoos, performing a keg stand at a lively underground party in a graffiti

Dovrebbero cambiare il nome in Stable Diffusion ER, perché questo tizio(?) ha bisogno di andare all'ospedale:

Man performing a handstand on a wooden barrel outdoors, dressed in black, with a red and white building and a clear sky in th

Dopo l'ottimizzazione sembra molto meglio. C'è un fusto. C'è un punk. Ancora niente kegstand, purtroppo.

Energetic punk music scene in an underground venue with a crowd, punk in leather and mohawk hairstyles.

Chi è il punk e chi è solo spazzatura?

	Prima dell'ottimizzazione	Dopo l'ottimizzazione
DALL-E 3	🥈 Punk, check. Fusto check. Kegstand, non proprio	🥈 L'ottimizzazione ha cambiato un po' l'atmosfera, ma ancora niente kegstand
Stable Diffusion XL	🥉 Ahia. Non è un punk. Non è un kegstand. A malapena un essere umano. E facendo un kegstand così, non sarà più nessun tipo di essere umano ancora per molto.	🥈 L'ottimizzazione ci ha dato un risultato molto migliore, mostrando un punk che interagisce con un fusto. Niente body horror questa volta.

tagConteggio dei Punteggi

Ora che la competizione è finita, conteremo i punteggi come segue:

💩: zero punti
🥉: un punto
🥈: due punti
🥇: tre punti

Il numero massimo di punti che qualsiasi opzione potrebbe ottenere è 15 (vincendo una medaglia d'oro in tutti e cinque i round). Vediamo il riepilogo:

Sfida	DALL-E 3		Stable Diffusion XL
	Prima di PromptPerfect	Dopo PromptPerfect	Prima di PromptPerfect	Dopo PromptPerfect
Figura notevole	💩 0	🥉 1	🥇 3	🥇 3
Materiale "coperto da copyright"	💩 0	🥈 2	🥉 1	🥈 2
Testo	🥈 2	🥇 3	🥉 1	🥈 2
Creazioni maledette	🥇 3	🥇 3	🥉 1	🥉 1
Punk kegstand	🥈 2	🥈 2	🥉 1	🥈 2
Totale	🥉 7	🥇 11	🥉 7	🥈 10

In breve, se non fosse per la censura nei primi round, DALL-E 3 avrebbe ottenuto un punteggio molto più alto. Nel complesso, utilizzare PromptPerfect per ottimizzare i prompt porta a risultati migliori per entrambi i modelli.

Potete fidarvi di noi, perché questa è stata una competizione imparziale (fatta da noi, per noi, per il nostro prodotto). Seriamente però, i risultati parlano da soli. Provatelo voi stessi e vedete come va!