Перейдем сразу к делу: Иногда вам нужно сгенерировать совершенно безобидное изображение, а модель (например, DALL-E 3 или Stable Diffusion XL) либо категорически отказывается это делать, либо создает что-то совершенно неправильное. PromptPerfect помогает с этим, давая вам лучшие и более точные результаты.

В этой статье мы сравним различные модели, объясним, как использовать PromptPerfect для оптимизации вашего опыта, и проверим его на практике, показав вам результаты обеих моделей до и после использования оптимизатора PromptPerfect.
И нет, мы не генерируем (и не пытаемся генерировать) никаких неприличных картинок. Это семейный пост, особенно для семей с детьми, которые любят осьминожков-щенков. Или щенко-осьминогов. Или как бы мы ни назвали этих странных многоногих собачек, которых создадим позже в посте.
tagDALL-E 3 и Stable Diffusion XL
Хотя существует множество моделей, сегодня мы сосредоточимся на новых звездах: DALL-E 3 от OpenAI и Stable Diffusion XL от Stability AI. Хотя каждая из них может достигать хороших результатов, у них есть разные сильные и слабые стороны.
Говоря о DALL-E 3, из коробки она хорошо понимает длинные предложения и взаимосвязи объектов, и рисует более реалистичную анатомию, чем Stable Diffusion XL (здесь нет лавкрафтовских ужасных рук). Однако она часто наотрез отказывается генерировать изображения известных личностей (например, Тейлор Свифт) или известных персонажей (как Микки Маус, даже если мы просим версию из не защищенного авторским правом "Пароходика Вилли"). Она также генерирует текст лучше, чем любая другая модель генерации изображений (хотя это низкая планка).
Stable Diffusion XL гораздо более открыта к генерации изображений известных личностей и персонажей, хотя некоторые её изображения Микки выглядят так, будто их рисовали под воздействием очень веселых веществ. Однако она часто путается в анатомии и взаимосвязях объектов. Хотя вы можете попросить её сгенерировать текст (и видно, что она очень старается), она сильно отстает от DALL-E 3 в этом аспекте.
С помощью PromptPerfect мы можем обойти некоторые из этих слабостей обеих моделей. Мы сравним DALL-E 3 и Stable Diffusion до и после использования оптимизации PromptPerfect. Вы можете пропустить вперед, чтобы увидеть окончательного победителя.
tagИспользование оптимизатора PromptPerfect
В этой битве моделей мы используем оптимизатор PromptPerfect, чтобы увидеть, как можно получить лучшие результаты изображений из наших запросов. Вот как это сделать:
Зарегистрируйтесь для получения бесплатных кредитов на PromptPerfect:

Нажмите на интерактивную функцию:

В панели 'optimizer' (справа) напишите что-то вроде generate a prompt to create an image of felix the cat using DALL-E 3
:

Нажмите "Send to Assistant"

Она немного подумает, затем сгенерирует изображение из запроса в панели 'interactive' слева:

Улучшайте свой запрос, общаясь с Optimizer, затем повторяйте процесс:

tagМетодология конкурса
Для изображений "до" мы будем использовать:
- ChatGPT (GPT-4) для генерации изображений с DALL-E, используя запрос
generate an image of <thing>
, напримерgenerate an image of mickey mouse
. - Интерфейс Replicate для генерации изображений с Stable Diffusion XL, используя запрос
<thing>
, напримерmickey mouse
.
Для изображений "после" мы будем использовать интерактивный оптимизатор PromptPerfect, используя запрос generate a prompt to create an image of <thing> using <model name>
.
Мы представим первый полученный результат. Количество фактических изображений может варьироваться - PromptPerfect всегда генерирует четыре, Stable Diffusion XL (через Replicate) - одно, а DALL-E 3 - одно или два.
Мы будем присуждать медали следующим образом:
- 💩 - категорически отказалась сотрудничать
- 🥉 - пыталась, но ни один из результатов не был тем, что мы ищем
- 🥈 - хотя бы один из результатов был приемлемым!
- 🥇 - вау, хотя бы один из результатов был действительно хорошим!
В конце мы подведем итоги и посмотрим, какая модель и метод оказались лучшими.
tagКто станет следующей топ-моделью?
Модели, заводите моторы!
Here is my translation:tagРаунд 1: Известные личности
Давайте для начала попробуем нашего Господа и Спасителя Тейлор Свифт. Вот реальное изображение человека, которого мы пытаемся воссоздать:

Без PromptPerfect, DALL-E 3 напрямую отказывается создавать Тейлор:

С PromptPerfect он генерирует изображения с оптимизированным запросом, но ни одно из них на самом деле не похоже на неё:

С SDXL до использования PromptPerfect мы получаем довольно хорошее изображение:

И оптимизированный запрос PromptPerfect снова даёт результат:

Давайте посмотрим, какие модели действительно смогли сгенерировать:
До оптимизации | После оптимизации | |
---|---|---|
DALL-E 3 | 💩 Полный отказ | 🥉 Блондинка? Да. Певица? Да. Тейлор? Нет |
Stable Diffusion XL | 🥇 Атмосфера Свифт | 🥇 Довольно похоже на Тейлор |
tagРаунд 2: "Защищённый авторским правом" материал
Мы даже не будем пытаться работать с действительно защищённым авторским правом материалом — это целый клубок проблем, в который мы не хотим погружаться. Однако дизайн Микки Мауса из "Пароходика Вилли" вышел из-под защиты авторских прав в 2024 году:

Давайте используем его в качестве объекта. DALL-E 3 сначала наотрез отказывается:

С PromptPerfect мы получаем результаты с правильной атмосферой, но не в стиле rubber hose 1930-х годов:

Stable Diffusion пытается. Действительно пытается. С этим Микки вы получаете гораздо больше ушей, глаз и пальцев за свои деньги:

С оптимизацией PromptPerfect Stable Diffusion всё ещё даёт нам Микки из кошмарного сна, но скорее лёгкого жара, чем "насколько же сильные эти грибы?":

Какая модель добавляет "жуть" в Микки?
До оптимизации | После оптимизации | |
---|---|---|
DALL-E 3 | 💩 политика шмолитика. Это точно вышло из-под защиты авторских прав. | 🥈 Определённо есть атмосфера Микки, без странностей, просто не тот стиль 30-х, которого я добивался. |
Stable Diffusion XL | 🥉 Иди домой, Микки. Тобой овладели. | 🥈 Едва дотягивает до серебряной медали. Больше атмосферы Микки, чем у DALL-E 3, но искажения очень отвлекают |
tagРаунд 3: Текст
Давайте создадим изображение вывески с надписью "Happy days are here again". В этот раз без целевого изображения, просто представьте (как бы сложно это ни было) вывеску с этим текстом. Как сказал Джон Леннон, это легко, если попробовать.
DALL-E 3 дарит нам позитивные вибрации, что мне нравится. Однако он добавляет слово "dye". Поскольку оно звучит как "die", это может создавать двусмысленность:

После оптимизации мы действительно получаем правильную формулировку и написание без лишних слов, по крайней мере один раз. А в другой раз почти идеально, за исключением опечатки:

Stable Diffusion XL дает нам Herpy Days:

После оптимизации промпта для Stable Diffusion XL мы получаем одинокую табличку с ошибкой в лесу. Это менее пугающе, чем раньше, хотя лично я бы не последовал за этим указателем, куда бы он ни вел.

Кто увидит счастливые дни, а кто нет?
До оптимизации | После оптимизации | |
---|---|---|
DALL-E 3 | 🥈 Видно, что написано на табличке, хотя добавлено лишнее слово "dye" и порядок слов нарушен | 🥇 По крайней мере одна из табличек имеет полностью правильный текст. А у другой всего лишь "небольшая" опечатка (лишняя "P" в "HAPPY" - мелочь по меркам генерации изображений!) |
Stable Diffusion XL | 🥉 Выглядит как мотивационный постер из Ада | 🥈 Не так хорошо, как неоптимизированный DALL-E 3, но не вызывает такого желания выколоть себе глаза, как неоптимизированный SDXL |
tagРаунд 4: "Проклятые" творения
Давайте посмотрим, насколько хорошо модели могут адаптироваться к странным вещам, например, к щенку с семью лапами. На этот раз без целевого изображения - я не хочу, чтобы "деформированные щенки" были в моей истории Google. Просто представьте щенка с семью лапами.
DALL-E 3 на этот раз дал нам два результата. Мы не просили об этом. Видимо, он просто любит собак. Доказательство того, что ИИ становится более человечным? В любом случае, результаты были такими, как мы просили, хотя и немного скучными, на мой взгляд. Тем не менее, в этом раунде мы не оцениваем стиль, только содержание. Так что собака с абсурдным количеством лап на фоне обоев Windows XP работает:


После оптимизации - столько лап! Интересно, что означает эмодзи многоногой собаки? Присылайте свои ответы!

Stable Diffusion XL неправильно понял задание:

Даже после оптимизации мы думаем: "какую часть из 'семь лап' ты не понял?":

Кто лидер стаи, а кто последний щенок в помете в этом раунде?
До оптимизации | После оптимизации | |
---|---|---|
DALL-E 3 | 🥇 У обоих щенков странное количество лап. У первого щенка даже семь, хотя некоторые из них едва видны. Хотя я не знаю, что это за захватные приспособления у второго щенка, и не хочу знать. | 🥇 ДА. Все щенки. Все лапы. С этими милашками можно пожимать лапы вечно. У одного даже правильное количество лап. |
Stable Diffusion XL | 🥉 Когда я хочу щенка с кучей лап, я не имею в виду просто длинные лапы | 🥉 Мне нравятся щенки с большим количеством лап |
tagБонусный раунд: Панк на кеге
В некоторых случаях DALL-E 3 и SDXL оба терпят неудачу, независимо от того, используем мы оптимизацию или нет. Например, при генерации изображения панка, делающего стойку на кеге.
Вот изображение панка...

...и иллюстрация распития пива из бочонка (которая выглядит как из доброй детской книжки):

Я не могу найти в интернете реальное изображение панка, пьющего из бочонка. Ух, панки, такие скромники!
DALL-E 3 показывает нам панка в баре со странным, но крутым освещением. Он выглядит очень стоически. Он на бочке, но не пьет из нее.

После оптимизации мне нравится атмосфера, но всё еще нет питья из бочки:

Им стоит переименовать его в Stable Diffusion ER, потому что этому парню(?) нужно в больницу:

После оптимизации выглядит намного лучше. Есть бочка. Есть панк. Но, увы, всё еще нет питья из бочки.

Кто здесь панк, а кто просто мусор?
До оптимизации | После оптимизации | |
---|---|---|
DALL-E 3 | 🥈 Панк есть. Бочка есть. Питья из бочки нет | 🥈 Оптимизация немного изменила атмосферу, но всё еще нет питья из бочки |
Stable Diffusion XL | 🥉 Ой. Не панк. Не питьё из бочки. Едва ли человек. И делая стойку на бочке таким образом, он недолго останется человеком. | 🥈 Оптимизация дала нам гораздо лучший результат, показывая панка, взаимодействующего с бочкой. На этот раз без ужасов. |
tagПодсчет очков
Теперь, когда соревнование закончено, мы подсчитаем очки следующим образом:
- 💩: ноль очков
- 🥉: одно очко
- 🥈: два очка
- 🥇: три очка
Максимальное количество очков, которое мог набрать любой вариант - 15 (золотая медаль во всех пяти раундах). Давайте посмотрим на разбивку:
Задание | DALL-E 3 | Stable Diffusion XL | ||
---|---|---|---|---|
До PromptPerfect | После PromptPerfect | До PromptPerfect | После PromptPerfect | |
Известная личность | 💩 0 | 🥉 1 | 🥇 3 | 🥇 3 |
«Защищенный авторским правом» материал | 💩 0 | 🥈 2 | 🥉 1 | 🥈 2 |
Текст | 🥈 2 | 🥇 3 | 🥉 1 | 🥈 2 |
Проклятые создания | 🥇 3 | 🥇 3 | 🥉 1 | 🥉 1 |
Панк, пьющий из бочки | 🥈 2 | 🥈 2 | 🥉 1 | 🥈 2 |
Итого | 🥉 7 | 🥇 11 | 🥉 7 | 🥈 10 |
Если коротко, если бы не цензура в первых раундах, DALL-E 3 набрал бы гораздо больше очков. В целом, использование PromptPerfect для оптимизации промптов приводит к лучшим результатам для обеих моделей.
Вы можете доверять нам, потому что это было беспристрастное соревнование (проведенное нами, для нас, для нашего собственного продукта). Если серьезно, результаты говорят сами за себя. Попробуйте сами и посмотрите, как это работает!