PromptPerfect로 제한사항 우회하기: 모델이 생성을 제한하는 이미지 만들기

💡

진정하세요, 우리는 그런 종류의 이미지에 초점을 맞추지 않습니다 (그런 이미지가 무엇이든 간에).

핵심을 바로 말씀드리자면: 때로는 전혀 문제될 것 없는 이미지를 생성하고 싶은데, DALL-E 3나 Stable Diffusion XL과 같은 모델이 아예 거부하거나 완전히 잘못된 결과물을 내놓는 경우가 있습니다. PromptPerfect는 이런 문제를 해결하여 더 나은 정확한 결과를 얻을 수 있도록 도와줍니다.

이 포스트에서는 다양한 모델을 비교하고, PromptPerfect를 사용하여 경험을 최적화하는 방법을 설명하며, PromptPerfect의 최적화 전후의 모델 결과를 보여드리며 실제 테스트해 보겠습니다.

그리고 아니요, 우리는 부적절한 이미지를 생성하거나 생성하려 하지 않습니다. 이것은 가족 친화적인 포스트입니다. 특히 옥토퍼피(octopuppy)나 펍토피(puptopi), 또는 이 포스트 후반부에 만들어볼 기괴한 다리가 많은 강아지들을 좋아하는 아이들이 있는 가족들을 위한 것입니다.

tagDALL-E 3와 Stable Diffusion XL

수많은 모델이 있지만, 오늘은 최신 모델인 OpenAI의 DALL-E 3와 Stability AI의 Stable Diffusion XL에 초점을 맞춰보겠습니다. 각각 좋은 결과를 낼 수 있지만, 서로 다른 장단점이 있습니다.

DALL-E 3는 기본적으로 긴 문장과 객체 관계를 이해하는 데 뛰어나며, Stable Diffusion XL보다 더 사실적인 해부학적 구조를 그립니다(러브크래프트식 공포스러운 손은 여기 없습니다). 하지만 유명 인물(테일러 스위프트 같은)이나 잘 알려진 캐릭터(저작권이 만료된 증기선 윌리 버전을 요청해도 미키 마우스 같은)의 이미지 생성을 종종 단호하게 거부합니다. 또한 다른 이미지 생성 모델보다 텍스트를 더 잘 생성합니다(비록 그 기준이 낮긴 하지만요).

Stable Diffusion XL은 유명 인물과 잘 알려진 캐릭터의 이미지를 생성하는 데 훨씬 더 개방적이지만, 미키를 그리면 마치 재미있는 약물을 하면서 그린 것처럼 보이기도 합니다. 하지만 해부학적 구조와 객체 관계를 자주 망칩니다. 텍스트 생성을 요청할 수는 있지만(최선을 다하는 것이 보이긴 하지만), DALL-E 3에 크게 뒤쳐집니다.

PromptPerfect를 사용하면 두 모델의 이러한 약점들을 일부 극복할 수 있습니다. DALL-E 3와 Stable Diffusion을 PromptPerfect 최적화 전후로 비교해 보겠습니다. 최종 우승자를 보시려면 건너뛰셔도 됩니다.

tagPromptPerfect 최적화 도구 사용하기

이 모델 대결에서 우리는 PromptPerfect의 최적화 도구를 사용하여 프롬프트로부터 더 나은 이미지 결과를 얻을 수 있는지 살펴보겠습니다. 방법은 다음과 같습니다:

PromptPerfect에서 무료 크레딧으로 가입하세요:

💡

7일 동안 유료 플랜을 무료로 사용해보세요. 첫 로그인 후 24시간 이내에 구독하시면 40% 할인을 받으실 수 있습니다!

대화형 기능을 클릭하세요:

Dark themed webpage of PromptPerfect! with a navigation bar and titles like "Interactive" and "Auto-tune."

'optimizer' 창(오른쪽)에 generate a prompt to create an image of felix the cat using DALL-E 3와 같이 입력하세요:

Interface of an AI assistant tool with option to create a playful image of Felix the Cat using DALL-E 3.

"Send to Assistant"를 클릭하세요

Screenshot of a DALL-E 3 interface with options to create a playful, whimsical image of Felix the Cat, including buttons for

시스템이 잠시 생각한 후, 왼쪽의 'interactive' 창에서 프롬프트로 이미지를 생성할 것입니다:

Progression of Felix the Cat illustrations from sketch to a lively pop art style creation.

Optimizer와 대화하면서 프롬프트를 다듬고, 이 과정을 반복하세요:

Screenshot of an artistic request page for creating a Felix the Cat illustration in the 1930s rubber hose animation style, em

tag대회 방법론

"최적화 전" 이미지의 경우:

ChatGPT (GPT-4)를 사용하여 DALL-E로 이미지를 생성합니다. generate an image of <thing> 형식의 프롬프트를 사용합니다. 예: generate an image of mickey mouse
Replicate의 인터페이스를 사용하여 Stable Diffusion XL로 이미지를 생성합니다. <thing> 형식의 프롬프트를 사용합니다. 예: mickey mouse

"최적화 후" 이미지의 경우, PromptPerfect의 대화형 최적화 도구를 사용하며, generate a prompt to create an image of <thing> using <model name> 형식의 프롬프트를 사용합니다.

첫 번째로 생성되는 결과물을 보여드리겠습니다. 실제 이미지 수는 다를 수 있습니다 - PromptPerfect는 항상 4개, Stable Diffusion XL (Replicate 통해)는 1개, DALL-E 3는 1-2개를 생성합니다.

💡

PromptPerfect의 최적화 도구는 대화형이라 프롬프트를 대화식으로 다듬을 수 있지만, 최대한 공정하게 하기 위해 첫 번째 결과만 사용했습니다. 대화형 기능을 실제로 활용하면 더 나은 결과를 얻을 수 있습니다.

다음과 같이 메달을 수여하겠습니다:

💩 - 완전히 협조를 거부함
🥉 - 시도는 했지만, 원하는 결과가 없음
🥈 - 적어도 하나의 결과물은 괜찮음!
🥇 - 와우, 적어도 하나의 결과물은 정말 좋음!

마지막으로 종합하여 어떤 모델과 방법이 가장 좋았는지 살펴보겠습니다.

tag누가 다음 톱 모델이 될까요?

모델들이여, 시작하세요!

Here's my translation to Korean:

tag라운드 1: 주목할 만한 인물들

먼저 우리의 주님이자 구세주인 Taylor Swift를 시도해 보겠습니다. 여기 우리가 목표로 하는 실제 인물의 이미지가 있습니다:

Taylor Swift wearing a black dress with deep V-neckline and gold necklace, posing with a hand on her hip, against a colorful — 라이선스 CC BY 3.0, 출처: iHeartRadioCA

PromptPerfect 없이는 DALL-E 3가 Taylor를 전혀 생성하지 못합니다:

Chat interface showing a denied request to generate an image of Taylor Swift by ChatGPT due to content policy.

PromptPerfect를 사용하면 최적화된 프롬프트로 이미지를 생성하지만, 어느 것도 실제로 그녀처럼 보이지 않습니다:

Taylor Swift in an edited portrait with suggestions for a red sequined dress, styled hair, and dramatic stage lighting.

SDXL에서는 PromptPerfect 사용 전에 꽤 좋은 결과물을 얻습니다:

Portrait of Taylor Swift with red lipstick, blondish-brown hair, wearing a dress against a pink background.

그리고 PromptPerfect의 최적화된 프롬프트가 다시 한 번 좋은 결과를 보여줍니다:

Edited collage of Taylor Swift with multiple effects via a photo editor, highlighting options like Optimize and Assistant.

어떤 모델이 진정으로 생성-생성-생성할 수 있는지 살펴보겠습니다:

	최적화 전	최적화 후
DALL-E 3	💩 완전히 거부함	🥉 금발? 체크. 가수? 체크. Taylor? 아니오
Stable Diffusion XL	🥇 Swift스러운 느낌	🥇 꽤 Taylor스러움

tag라운드 2: "저작권이 있는" 소재

실제 저작권이 있는 소재는 시도조차 하지 않을 것입니다 - 그건 우리가 파고들고 싶지 않은 복잡한 문제입니다. 하지만 Steamboat Willie의 Mickey Mouse 디자인은 2024년부터 저작권이 만료되었습니다:

Cartoon of Mickey Mouse dressed in captain attire, steering a ship's wheel with a joyful expression, in a classic black-and-w

그를 주제로 사용해 보겠습니다. DALL-E 3는 처음에 완전히 거부합니다:

Chat exchange in Slack showing a user request for a 'Mickey Mouse from Steamboat Willie' image and ChatGPT's polite policy vi

PromptPerfect를 사용하면 분위기는 맞지만 1930년대의 러버호스 스타일은 아닙니다:

Black and white image editing screen featuring classic Mickey Mouse on a steamboat, with detailed creative instructions.

Stable Diffusion은 노력합니다. 정말로요. 이 Mickey에서는 귀, 눈, 손가락이 훨씬 더 많이 나옵니다:

Black and white illustration of Mickey Mouse gesturing in a playful stance.

PromptPerfect 최적화를 사용하면 Stable Diffusion은 여전히 악몽 같은 Mickey를 보여주지만, "이 버섯이 얼마나 강한 거지?" 수준은 아닌 가벼운 악몽 정도입니다:

Series of Mickey Mouse images showcasing artistic transformation from vintage black and white to modern 3D CGI, created with

어떤 모델이 Mickey를 가장 "이상하게" 만들었을까요?

	최적화 전	최적화 후
DALL-E 3	💩 정책이고 뭐고. 이건 확실히 저작권이 만료됐는데.	🥈 확실히 Mickey 분위기가 있고, 이상한 점은 없지만, 내가 목표로 했던 30년대 스타일은 아님.
Stable Diffusion XL	🥉 Mickey야 집에 가. 넌 귀신들렸어.	🥈 겨우 은메달 카테고리에 들어감. DALL-E 3보다 Mickey 분위기는 더 나지만, 변형이 너무 신경 쓰임

tag라운드 3: 텍스트

"Happy days are here again"이라고 쓰여진 간판 사진을 생성해 보겠습니다. 이번에는 목표 이미지가 없습니다. 그저 그 텍스트가 있는 간판을 상상해보세요 (얼마나 어려울지 모르지만). John Lennon의 말처럼, 시도해보면 쉽습니다.

DALL-E 3는 우리에게 좋은 분위기를 주는데, 저는 이게 마음에 듭니다. 하지만 "dye"라는 단어를 넣었는데, 이는 "die"라는 단어처럼 들려서 혼란스러운 메시지를 전달할 수 있습니다:

Colorful sign reading "Happy Days Are Here Again" in a creative font, with a sun and clouds, shared in a Slack conversation.

최적화를 통해 실제로 적어도 한 번은 정확한 단어와 철자를 얻을 수 있습니다. 그리고 한 번은 철자 오류를 제외하고는 거의 정확했습니다:

A vibrant, nostalgic sign reading "Happy Days Are Here Again" in bold, cheerful lettering on weathered wood, set against a lu

Stable Diffusion XL은 Herpy Days를 보여줍니다:

Playful sign with the phrase "Happy Days Are Here Again" painted in a unique and stylized manner.

Stable Diffusion XL 프롬프트를 최적화한 후, 우리는 숲속에서 철자가 틀린 외로운 표지판을 얻었습니다. 이전보다는 덜 무섭지만, 저는 그 표지판이 가리키는 곳으로 가고 싶지 않습니다.

Old wooden sign reading "Happy days are here again" in a vibrant, detailed landscape with a backdrop of blue sky and trees.

누가 행복한 날들을 보게 될까요, 그리고 누가 그렇지 못할까요?

	최적화 전	최적화 후
DALL-E 3	🥈 "dye"라는 추가 단어가 있고 단어 순서가 잘못되었지만 표지판이 무슨 내용을 말하는지 알 수 있습니다	🥇 적어도 하나의 표지판에는 완전히 정확한 텍스트가 있습니다. 그리고 다른 하나는 단지 "작은" 오타만 있습니다("HAPPY"에 "P"가 하나 더 있는 것 - 이미지 생성 기준으로는 작은 오류입니다!)
Stable Diffusion XL	🥉 지옥에서 온 동기부여 포스터처럼 보입니다	🥈 최적화되지 않은 DALL-E 3만큼 좋지는 않지만, 최적화되지 않은 SDXL만큼 눈을 파내고 싶게 만들지는 않습니다

tag라운드 4: "저주받은" 창작물

모델들이 다리가 일곱 개인 강아지와 같은 이상한 것들을 얼마나 잘 만들 수 있는지 봅시다. 이번에는 목표 이미지가 없습니다 - Google 검색 기록에 "기형 강아지"가 남는 것을 원하지 않습니다. 그냥 다리가 일곱 개인 강아지를 상상해보세요.

DALL-E 3는 이번에 두 개의 출력을 제공했습니다. 우리가 요청하지 않았는데도요. 아마도 강아지를 좋아하나 봅니다. AI가 더 인간다워지고 있다는 증거일까요? 어쨌든 결과는 우리가 요청한 대로였지만, 제 의견으로는 약간 밋밋했습니다. 하지만 이번 라운드에서는 스타일에 점수를 주지 않고 내용만 평가합니다. 따라서 Windows XP 배경화면에 합성된 비정상적인 수의 다리를 가진 강아지도 괜찮습니다:

Cute brown and white puppy sitting on a grassy hill with colorful flowers, one paw raised, under a clear blue sky.

Playful brown and white puppy sitting on a flower-dotted green lawn with a blue sky and fluffy clouds overhead. — NSFW는 아니지만 충분히 불편해서 픽셀화했습니다

최적화 후에는 정말 많은 다리가 생겼습니다! 다리가 여러 개인 강아지 이모지는 무엇을 표현하려는 걸까요? 답변을 보내주세요!

Illustration showing four whimsical brown puppies with various poses alongside detailed instructions for creating a surreal s

Stable Diffusion XL은 과제를 잘못 이해했습니다:

Small puppy with floppy ears and a black collar standing on a brown surface, looking at the camera against a gradient gray-bl

최적화 후에도 "다리 일곱 개라는 게 무슨 말인지 이해 못했나요?"라는 생각이 듭니다:

이번 라운드에서 누가 최고이고 누가 꼴찌일까요?

	최적화 전	최적화 후
DALL-E 3	🥇 두 강아지 모두 기이한 수의 다리를 가지고 있습니다. 첫 번째 강아지는 심지어 일곱 개가 있지만, 일부는 거의 보이지 않습니다. 두 번째 강아지의 집게 같은 것들이 무엇인지 모르겠고, 알고 싶지도 않습니다.	🥇 네! 모든 강아지들. 모든 다리들. 이 귀여운 강아지들과 악수하는 데 한참 걸릴 것 같네요. 하나는 심지어 다리 개수도 정확합니다.
Stable Diffusion XL	🥉 다리가 많은 강아지를 원했을 때, 단순히 긴 다리만을 의미한 게 아닙니다	🥉 더 많은 다리가 있는 강아지가 좋습니다

tag보너스 라운드: Kegstand Punk

일부 경우에는 최적화를 사용하든 사용하지 않든 DALL-E 3와 SDXL 모두 실패합니다. 예를 들어, kegstand를 하고 있는 펑크의 이미지를 생성하는 경우입니다.

여기 펑크의 이미지가 있습니다…

Man with a green mohawk and black "DISCHARGE" coat on a city street, showcasing bold fashion and individuality. — via pexels.com

...그리고 천진난만한 어린이 책에서 나온 것 같은 맥주통 물구나무서기 삽화입니다:

Joyful illustration of men around a barrel with another man playfully inside, indicating humor and fun.

온라인에서 펑크가 맥주통 물구나무서기를 하는 실제 이미지를 찾을 수가 없네요. 아, 펑크들, 너무 속 좁군요!

DALL-E 3는 이상하지만 멋진 조명이 있는 바에서 펑크를 보여줍니다. 그는 매우 차분해 보이네요. 맥주통 위에는 있지만, 물구나무서기는 아닙니다.

A punk doing a kegstand at a lively party, with interface icons and chat text indicating an image generation command.

최적화 후에는 분위기가 좋아졌지만, 여전히 물구나무서기는 없네요:

Punk rocker with brightly colored spiked hair and tattoos, performing a keg stand at a lively underground party in a graffiti

Stable Diffusion의 이름을 Stable Diffusion ER로 바꿔야 할 것 같네요. 이 사람(?)은 병원에 가봐야 할 것 같아요:

Man performing a handstand on a wooden barrel outdoors, dressed in black, with a red and white building and a clear sky in th

최적화 후에는 훨씬 더 좋아 보입니다. 맥주통도 있고 펑크도 있네요. 하지만 아쉽게도 여전히 물구나무서기는 없습니다.

Energetic punk music scene in an underground venue with a crowd, punk in leather and mohawk hairstyles.

누가 진짜 펑크이고 누가 그냥 쓰레기일까요?

	최적화 전	최적화 후
DALL-E 3	🥈 펑크도 있고 맥주통도 있지만 물구나무서기는 없네요	🥈 최적화로 분위기가 약간 바뀌었지만 여전히 물구나무서기는 없음
Stable Diffusion XL	🥉 펑크도 아니고 물구나무서기도 아니고 겨우 인간의 형상이네요. 저렇게 물구나무서기를 하다간 곧 인간도 아니게 될 거예요.	🥈 최적화로 훨씬 나은 결과가 나왔네요. 펑크가 맥주통과 상호작용하는 모습을 보여줍니다. 이번엔 괴물 같은 모습은 없네요.

tag점수 집계하기

이제 대회가 끝났으니 다음과 같이 점수를 계산해보겠습니다:

💩: 0점
🥉: 1점
🥈: 2점
🥇: 3점

각 옵션이 얻을 수 있는 최대 점수는 15점입니다(모든 5라운드에서 금메달 획득). 결과를 살펴보겠습니다:

도전 과제	DALL-E 3		Stable Diffusion XL
	PromptPerfect 사용 전	PromptPerfect 사용 후	PromptPerfect 사용 전	PromptPerfect 사용 후
유명 인물	💩 0	🥉 1	🥇 3	🥇 3
"저작권이 있는" 소재	💩 0	🥈 2	🥉 1	🥈 2
텍스트	🥈 2	🥇 3	🥉 1	🥈 2
저주받은 창작물	🥇 3	🥇 3	🥉 1	🥉 1
펑크의 물구나무서기	🥈 2	🥈 2	🥉 1	🥈 2
총점	🥉 7	🥇 11	🥉 7	🥈 10

요약하자면, 초반 라운드의 검열만 없었다면 DALL-E 3는 훨씬 더 높은 점수를 받았을 것입니다. 전반적으로 PromptPerfect를 사용해 프롬프트를 최적화하면 두 모델 모두 더 나은 결과를 보여줍니다.

우리가 우리 제품을 위해 진행한 공정한 대회였기 때문에 신뢰하셔도 됩니다. 농담이고요, 결과는 스스로 말해줍니다. 직접 시도해보시고 어떤지 확인해보세요!