핵심을 바로 말씀드리자면: 때로는 전혀 문제될 것 없는 이미지를 생성하고 싶은데, DALL-E 3나 Stable Diffusion XL과 같은 모델이 아예 거부하거나 완전히 잘못된 결과물을 내놓는 경우가 있습니다. PromptPerfect는 이런 문제를 해결하여 더 나은 정확한 결과를 얻을 수 있도록 도와줍니다.

이 포스트에서는 다양한 모델을 비교하고, PromptPerfect를 사용하여 경험을 최적화하는 방법을 설명하며, PromptPerfect의 최적화 전후의 모델 결과를 보여드리며 실제 테스트해 보겠습니다.
그리고 아니요, 우리는 부적절한 이미지를 생성하거나 생성하려 하지 않습니다. 이것은 가족 친화적인 포스트입니다. 특히 옥토퍼피(octopuppy)나 펍토피(puptopi), 또는 이 포스트 후반부에 만들어볼 기괴한 다리가 많은 강아지들을 좋아하는 아이들이 있는 가족들을 위한 것입니다.
tagDALL-E 3와 Stable Diffusion XL
수많은 모델이 있지만, 오늘은 최신 모델인 OpenAI의 DALL-E 3와 Stability AI의 Stable Diffusion XL에 초점을 맞춰보겠습니다. 각각 좋은 결과를 낼 수 있지만, 서로 다른 장단점이 있습니다.
DALL-E 3는 기본적으로 긴 문장과 객체 관계를 이해하는 데 뛰어나며, Stable Diffusion XL보다 더 사실적인 해부학적 구조를 그립니다(러브크래프트식 공포스러운 손은 여기 없습니다). 하지만 유명 인물(테일러 스위프트 같은)이나 잘 알려진 캐릭터(저작권이 만료된 증기선 윌리 버전을 요청해도 미키 마우스 같은)의 이미지 생성을 종종 단호하게 거부합니다. 또한 다른 이미지 생성 모델보다 텍스트를 더 잘 생성합니다(비록 그 기준이 낮긴 하지만요).
Stable Diffusion XL은 유명 인물과 잘 알려진 캐릭터의 이미지를 생성하는 데 훨씬 더 개방적이지만, 미키를 그리면 마치 재미있는 약물을 하면서 그린 것처럼 보이기도 합니다. 하지만 해부학적 구조와 객체 관계를 자주 망칩니다. 텍스트 생성을 요청할 수는 있지만(최선을 다하는 것이 보이긴 하지만), DALL-E 3에 크게 뒤쳐집니다.
PromptPerfect를 사용하면 두 모델의 이러한 약점들을 일부 극복할 수 있습니다. DALL-E 3와 Stable Diffusion을 PromptPerfect 최적화 전후로 비교해 보겠습니다. 최종 우승자를 보시려면 건너뛰셔도 됩니다.
tagPromptPerfect 최적화 도구 사용하기
이 모델 대결에서 우리는 PromptPerfect의 최적화 도구를 사용하여 프롬프트로부터 더 나은 이미지 결과를 얻을 수 있는지 살펴보겠습니다. 방법은 다음과 같습니다:
PromptPerfect에서 무료 크레딧으로 가입하세요:

대화형 기능을 클릭하세요:

'optimizer' 창(오른쪽)에 generate a prompt to create an image of felix the cat using DALL-E 3
와 같이 입력하세요:

"Send to Assistant"를 클릭하세요

시스템이 잠시 생각한 후, 왼쪽의 'interactive' 창에서 프롬프트로 이미지를 생성할 것입니다:

Optimizer와 대화하면서 프롬프트를 다듬고, 이 과정을 반복하세요:

tag대회 방법론
"최적화 전" 이미지의 경우:
- ChatGPT (GPT-4)를 사용하여 DALL-E로 이미지를 생성합니다.
generate an image of <thing>
형식의 프롬프트를 사용합니다. 예:generate an image of mickey mouse
- Replicate의 인터페이스를 사용하여 Stable Diffusion XL로 이미지를 생성합니다.
<thing>
형식의 프롬프트를 사용합니다. 예:mickey mouse
"최적화 후" 이미지의 경우, PromptPerfect의 대화형 최적화 도구를 사용하며, generate a prompt to create an image of <thing> using <model name>
형식의 프롬프트를 사용합니다.
첫 번째로 생성되는 결과물을 보여드리겠습니다. 실제 이미지 수는 다를 수 있습니다 - PromptPerfect는 항상 4개, Stable Diffusion XL (Replicate 통해)는 1개, DALL-E 3는 1-2개를 생성합니다.
다음과 같이 메달을 수여하겠습니다:
- 💩 - 완전히 협조를 거부함
- 🥉 - 시도는 했지만, 원하는 결과가 없음
- 🥈 - 적어도 하나의 결과물은 괜찮음!
- 🥇 - 와우, 적어도 하나의 결과물은 정말 좋음!
마지막으로 종합하여 어떤 모델과 방법이 가장 좋았는지 살펴보겠습니다.
tag누가 다음 톱 모델이 될까요?
모델들이여, 시작하세요!
Here's my translation to Korean:tag라운드 1: 주목할 만한 인물들
먼저 우리의 주님이자 구세주인 Taylor Swift를 시도해 보겠습니다. 여기 우리가 목표로 하는 실제 인물의 이미지가 있습니다:

PromptPerfect 없이는 DALL-E 3가 Taylor를 전혀 생성하지 못합니다:

PromptPerfect를 사용하면 최적화된 프롬프트로 이미지를 생성하지만, 어느 것도 실제로 그녀처럼 보이지 않습니다:

SDXL에서는 PromptPerfect 사용 전에 꽤 좋은 결과물을 얻습니다:

그리고 PromptPerfect의 최적화된 프롬프트가 다시 한 번 좋은 결과를 보여줍니다:

어떤 모델이 진정으로 생성-생성-생성할 수 있는지 살펴보겠습니다:
최적화 전 | 최적화 후 | |
---|---|---|
DALL-E 3 | 💩 완전히 거부함 | 🥉 금발? 체크. 가수? 체크. Taylor? 아니오 |
Stable Diffusion XL | 🥇 Swift스러운 느낌 | 🥇 꽤 Taylor스러움 |
tag라운드 2: "저작권이 있는" 소재
실제 저작권이 있는 소재는 시도조차 하지 않을 것입니다 - 그건 우리가 파고들고 싶지 않은 복잡한 문제입니다. 하지만 Steamboat Willie의 Mickey Mouse 디자인은 2024년부터 저작권이 만료되었습니다:

그를 주제로 사용해 보겠습니다. DALL-E 3는 처음에 완전히 거부합니다:

PromptPerfect를 사용하면 분위기는 맞지만 1930년대의 러버호스 스타일은 아닙니다:

Stable Diffusion은 노력합니다. 정말로요. 이 Mickey에서는 귀, 눈, 손가락이 훨씬 더 많이 나옵니다:

PromptPerfect 최적화를 사용하면 Stable Diffusion은 여전히 악몽 같은 Mickey를 보여주지만, "이 버섯이 얼마나 강한 거지?" 수준은 아닌 가벼운 악몽 정도입니다:

어떤 모델이 Mickey를 가장 "이상하게" 만들었을까요?
최적화 전 | 최적화 후 | |
---|---|---|
DALL-E 3 | 💩 정책이고 뭐고. 이건 확실히 저작권이 만료됐는데. | 🥈 확실히 Mickey 분위기가 있고, 이상한 점은 없지만, 내가 목표로 했던 30년대 스타일은 아님. |
Stable Diffusion XL | 🥉 Mickey야 집에 가. 넌 귀신들렸어. | 🥈 겨우 은메달 카테고리에 들어감. DALL-E 3보다 Mickey 분위기는 더 나지만, 변형이 너무 신경 쓰임 |
tag라운드 3: 텍스트
"Happy days are here again"이라고 쓰여진 간판 사진을 생성해 보겠습니다. 이번에는 목표 이미지가 없습니다. 그저 그 텍스트가 있는 간판을 상상해보세요 (얼마나 어려울지 모르지만). John Lennon의 말처럼, 시도해보면 쉽습니다.
DALL-E 3는 우리에게 좋은 분위기를 주는데, 저는 이게 마음에 듭니다. 하지만 "dye"라는 단어를 넣었는데, 이는 "die"라는 단어처럼 들려서 혼란스러운 메시지를 전달할 수 있습니다:

최적화를 통해 실제로 적어도 한 번은 정확한 단어와 철자를 얻을 수 있습니다. 그리고 한 번은 철자 오류를 제외하고는 거의 정확했습니다:

Stable Diffusion XL은 Herpy Days를 보여줍니다:

Stable Diffusion XL 프롬프트를 최적화한 후, 우리는 숲속에서 철자가 틀린 외로운 표지판을 얻었습니다. 이전보다는 덜 무섭지만, 저는 그 표지판이 가리키는 곳으로 가고 싶지 않습니다.

누가 행복한 날들을 보게 될까요, 그리고 누가 그렇지 못할까요?
최적화 전 | 최적화 후 | |
---|---|---|
DALL-E 3 | 🥈 "dye"라는 추가 단어가 있고 단어 순서가 잘못되었지만 표지판이 무슨 내용을 말하는지 알 수 있습니다 | 🥇 적어도 하나의 표지판에는 완전히 정확한 텍스트가 있습니다. 그리고 다른 하나는 단지 "작은" 오타만 있습니다("HAPPY"에 "P"가 하나 더 있는 것 - 이미지 생성 기준으로는 작은 오류입니다!) |
Stable Diffusion XL | 🥉 지옥에서 온 동기부여 포스터처럼 보입니다 | 🥈 최적화되지 않은 DALL-E 3만큼 좋지는 않지만, 최적화되지 않은 SDXL만큼 눈을 파내고 싶게 만들지는 않습니다 |
tag라운드 4: "저주받은" 창작물
모델들이 다리가 일곱 개인 강아지와 같은 이상한 것들을 얼마나 잘 만들 수 있는지 봅시다. 이번에는 목표 이미지가 없습니다 - Google 검색 기록에 "기형 강아지"가 남는 것을 원하지 않습니다. 그냥 다리가 일곱 개인 강아지를 상상해보세요.
DALL-E 3는 이번에 두 개의 출력을 제공했습니다. 우리가 요청하지 않았는데도요. 아마도 강아지를 좋아하나 봅니다. AI가 더 인간다워지고 있다는 증거일까요? 어쨌든 결과는 우리가 요청한 대로였지만, 제 의견으로는 약간 밋밋했습니다. 하지만 이번 라운드에서는 스타일에 점수를 주지 않고 내용만 평가합니다. 따라서 Windows XP 배경화면에 합성된 비정상적인 수의 다리를 가진 강아지도 괜찮습니다:


최적화 후에는 정말 많은 다리가 생겼습니다! 다리가 여러 개인 강아지 이모지는 무엇을 표현하려는 걸까요? 답변을 보내주세요!

Stable Diffusion XL은 과제를 잘못 이해했습니다:

최적화 후에도 "다리 일곱 개라는 게 무슨 말인지 이해 못했나요?"라는 생각이 듭니다:

이번 라운드에서 누가 최고이고 누가 꼴찌일까요?
최적화 전 | 최적화 후 | |
---|---|---|
DALL-E 3 | 🥇 두 강아지 모두 기이한 수의 다리를 가지고 있습니다. 첫 번째 강아지는 심지어 일곱 개가 있지만, 일부는 거의 보이지 않습니다. 두 번째 강아지의 집게 같은 것들이 무엇인지 모르겠고, 알고 싶지도 않습니다. | 🥇 네! 모든 강아지들. 모든 다리들. 이 귀여운 강아지들과 악수하는 데 한참 걸릴 것 같네요. 하나는 심지어 다리 개수도 정확합니다. |
Stable Diffusion XL | 🥉 다리가 많은 강아지를 원했을 때, 단순히 긴 다리만을 의미한 게 아닙니다 | 🥉 더 많은 다리가 있는 강아지가 좋습니다 |
tag보너스 라운드: Kegstand Punk
일부 경우에는 최적화를 사용하든 사용하지 않든 DALL-E 3와 SDXL 모두 실패합니다. 예를 들어, kegstand를 하고 있는 펑크의 이미지를 생성하는 경우입니다.
여기 펑크의 이미지가 있습니다…

...그리고 천진난만한 어린이 책에서 나온 것 같은 맥주통 물구나무서기 삽화입니다:

온라인에서 펑크가 맥주통 물구나무서기를 하는 실제 이미지를 찾을 수가 없네요. 아, 펑크들, 너무 속 좁군요!
DALL-E 3는 이상하지만 멋진 조명이 있는 바에서 펑크를 보여줍니다. 그는 매우 차분해 보이네요. 맥주통 위에는 있지만, 물구나무서기는 아닙니다.

최적화 후에는 분위기가 좋아졌지만, 여전히 물구나무서기는 없네요:

Stable Diffusion의 이름을 Stable Diffusion ER로 바꿔야 할 것 같네요. 이 사람(?)은 병원에 가봐야 할 것 같아요:

최적화 후에는 훨씬 더 좋아 보입니다. 맥주통도 있고 펑크도 있네요. 하지만 아쉽게도 여전히 물구나무서기는 없습니다.

누가 진짜 펑크이고 누가 그냥 쓰레기일까요?
최적화 전 | 최적화 후 | |
---|---|---|
DALL-E 3 | 🥈 펑크도 있고 맥주통도 있지만 물구나무서기는 없네요 | 🥈 최적화로 분위기가 약간 바뀌었지만 여전히 물구나무서기는 없음 |
Stable Diffusion XL | 🥉 펑크도 아니고 물구나무서기도 아니고 겨우 인간의 형상이네요. 저렇게 물구나무서기를 하다간 곧 인간도 아니게 될 거예요. | 🥈 최적화로 훨씬 나은 결과가 나왔네요. 펑크가 맥주통과 상호작용하는 모습을 보여줍니다. 이번엔 괴물 같은 모습은 없네요. |
tag점수 집계하기
이제 대회가 끝났으니 다음과 같이 점수를 계산해보겠습니다:
- 💩: 0점
- 🥉: 1점
- 🥈: 2점
- 🥇: 3점
각 옵션이 얻을 수 있는 최대 점수는 15점입니다(모든 5라운드에서 금메달 획득). 결과를 살펴보겠습니다:
도전 과제 | DALL-E 3 | Stable Diffusion XL | ||
---|---|---|---|---|
PromptPerfect 사용 전 | PromptPerfect 사용 후 | PromptPerfect 사용 전 | PromptPerfect 사용 후 | |
유명 인물 | 💩 0 | 🥉 1 | 🥇 3 | 🥇 3 |
"저작권이 있는" 소재 | 💩 0 | 🥈 2 | 🥉 1 | 🥈 2 |
텍스트 | 🥈 2 | 🥇 3 | 🥉 1 | 🥈 2 |
저주받은 창작물 | 🥇 3 | 🥇 3 | 🥉 1 | 🥉 1 |
펑크의 물구나무서기 | 🥈 2 | 🥈 2 | 🥉 1 | 🥈 2 |
총점 | 🥉 7 | 🥇 11 | 🥉 7 | 🥈 10 |
요약하자면, 초반 라운드의 검열만 없었다면 DALL-E 3는 훨씬 더 높은 점수를 받았을 것입니다. 전반적으로 PromptPerfect를 사용해 프롬프트를 최적화하면 두 모델 모두 더 나은 결과를 보여줍니다.
우리가 우리 제품을 위해 진행한 공정한 대회였기 때문에 신뢰하셔도 됩니다. 농담이고요, 결과는 스스로 말해줍니다. 직접 시도해보시고 어떤지 확인해보세요!