Новости
Модели
Продукты
keyboard_arrow_down
Читатель
Читайте URL-адреса и ищите информацию в Интернете для получения более подходящей подготовки для получения степени магистра права.
Вложения
Мультимодальные многоязычные вложения мирового класса.
Реранкер
Нейронный ретривер мирового класса для максимального повышения релевантности поиска.
Глубокий поиск
Ищите, читайте и рассуждайте, пока не найдете лучший ответ.
Более
keyboard_arrow_down
Классификатор
Классификация изображений и текста по нулевому и небольшому количеству кадров.
Сегментатор
Разрежьте длинный текст на куски и выполните токенизацию.

API-документы
Автоматическая генерация кода для вашего второго пилота IDE или LLM
open_in_new


Компания
keyboard_arrow_down
О нас
Связаться с отделом продаж
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия использования


Авторизоваться
login
DALL-E 3 и Stable Diffusion XL
Использование оптимизатора PromptPerfect
Методология конкурса
Кто станет следующей топ-моделью?
Подсчет очков
Технический блог
май 22, 2024

Обходите ограничения с PromptPerfect: создавайте изображения, которые модели не хотят вам показывать

Узнайте, как PromptPerfect преодолевает ограничения и лимиты моделей генерации изображений, таких как Stable Diffusion XL и DALL-E 3.
Colorful digital chain graphic with vibrant bricks against a black background, conveying energy and connectivity.
Alex C-G
Alex C-G • 10 минуты чтения
💡
Успокойтесь, мы не фокусируемся на таких изображениях (что бы вы ни подразумевали под такими).

Перейдем сразу к делу: Иногда вам нужно сгенерировать совершенно безобидное изображение, а модель (например, DALL-E 3 или Stable Diffusion XL) либо категорически отказывается это делать, либо создает что-то совершенно неправильное. PromptPerfect помогает с этим, давая вам лучшие и более точные результаты.

PromptPerfect - AI Prompt Generator and Optimizer
Unlock prompt optimization for models like GPT-4, ChatGPT and Midjourney. Generate and refine prompts to perfection, receiving improved outcomes in seconds.
AI Prompt Generator and Optimizer

В этой статье мы сравним различные модели, объясним, как использовать PromptPerfect для оптимизации вашего опыта, и проверим его на практике, показав вам результаты обеих моделей до и после использования оптимизатора PromptPerfect.

И нет, мы не генерируем (и не пытаемся генерировать) никаких неприличных картинок. Это семейный пост, особенно для семей с детьми, которые любят осьминожков-щенков. Или щенко-осьминогов. Или как бы мы ни назвали этих странных многоногих собачек, которых создадим позже в посте.

tagDALL-E 3 и Stable Diffusion XL

Хотя существует множество моделей, сегодня мы сосредоточимся на новых звездах: DALL-E 3 от OpenAI и Stable Diffusion XL от Stability AI. Хотя каждая из них может достигать хороших результатов, у них есть разные сильные и слабые стороны.

Говоря о DALL-E 3, из коробки она хорошо понимает длинные предложения и взаимосвязи объектов, и рисует более реалистичную анатомию, чем Stable Diffusion XL (здесь нет лавкрафтовских ужасных рук). Однако она часто наотрез отказывается генерировать изображения известных личностей (например, Тейлор Свифт) или известных персонажей (как Микки Маус, даже если мы просим версию из не защищенного авторским правом "Пароходика Вилли"). Она также генерирует текст лучше, чем любая другая модель генерации изображений (хотя это низкая планка).

Stable Diffusion XL гораздо более открыта к генерации изображений известных личностей и персонажей, хотя некоторые её изображения Микки выглядят так, будто их рисовали под воздействием очень веселых веществ. Однако она часто путается в анатомии и взаимосвязях объектов. Хотя вы можете попросить её сгенерировать текст (и видно, что она очень старается), она сильно отстает от DALL-E 3 в этом аспекте.

С помощью PromptPerfect мы можем обойти некоторые из этих слабостей обеих моделей. Мы сравним DALL-E 3 и Stable Diffusion до и после использования оптимизации PromptPerfect. Вы можете пропустить вперед, чтобы увидеть окончательного победителя.

tagИспользование оптимизатора PromptPerfect

В этой битве моделей мы используем оптимизатор PromptPerfect, чтобы увидеть, как можно получить лучшие результаты изображений из наших запросов. Вот как это сделать:

Зарегистрируйтесь для получения бесплатных кредитов на PromptPerfect:

Screenshot of PromptPerfect's dark-themed homepage featuring login/signup options, GitHub and WeChat integration, and terms a
💡
Попробуйте платный план бесплатно в течение 7 дней. И подпишитесь на план в течение 24 часов после первого входа, чтобы получить скидку 40%!

Нажмите на интерактивную функцию:

Dark themed webpage of PromptPerfect! with a navigation bar and titles like "Interactive" and "Auto-tune."

В панели 'optimizer' (справа) напишите что-то вроде generate a prompt to create an image of felix the cat using DALL-E 3:

Interface of an AI assistant tool with option to create a playful image of Felix the Cat using DALL-E 3.

Нажмите "Send to Assistant"

Screenshot of a DALL-E 3 interface with options to create a playful, whimsical image of Felix the Cat, including buttons for

Она немного подумает, затем сгенерирует изображение из запроса в панели 'interactive' слева:

Progression of Felix the Cat illustrations from sketch to a lively pop art style creation.

Улучшайте свой запрос, общаясь с Optimizer, затем повторяйте процесс:

Screenshot of an artistic request page for creating a Felix the Cat illustration in the 1930s rubber hose animation style, em

tagМетодология конкурса

Для изображений "до" мы будем использовать:

  • ChatGPT (GPT-4) для генерации изображений с DALL-E, используя запрос generate an image of <thing>, например generate an image of mickey mouse.
  • Интерфейс Replicate для генерации изображений с Stable Diffusion XL, используя запрос <thing>, например mickey mouse.

Для изображений "после" мы будем использовать интерактивный оптимизатор PromptPerfect, используя запрос generate a prompt to create an image of <thing> using <model name>.

Мы представим первый полученный результат. Количество фактических изображений может варьироваться - PromptPerfect всегда генерирует четыре, Stable Diffusion XL (через Replicate) - одно, а DALL-E 3 - одно или два.

💡
Хотя оптимизатор PromptPerfect интерактивен (так что вы можете улучшать свой запрос в режиме диалога), мы просто придерживались первого результата, чтобы быть максимально беспристрастными. При реальном использовании интерактивной функции оптимизатора вы получите еще лучшие результаты.

Мы будем присуждать медали следующим образом:

  • 💩 - категорически отказалась сотрудничать
  • 🥉 - пыталась, но ни один из результатов не был тем, что мы ищем
  • 🥈 - хотя бы один из результатов был приемлемым!
  • 🥇 - вау, хотя бы один из результатов был действительно хорошим!

В конце мы подведем итоги и посмотрим, какая модель и метод оказались лучшими.

tagКто станет следующей топ-моделью?

Модели, заводите моторы!

Here is my translation:

tagРаунд 1: Известные личности

Давайте для начала попробуем нашего Господа и Спасителя Тейлор Свифт. Вот реальное изображение человека, которого мы пытаемся воссоздать:

Taylor Swift wearing a black dress with deep V-neckline and gold necklace, posing with a hand on her hip, against a colorful
Лицензия CC BY 3.0, Автор: iHeartRadioCA

Без PromptPerfect, DALL-E 3 напрямую отказывается создавать Тейлор:

Chat interface showing a denied request to generate an image of Taylor Swift by ChatGPT due to content policy.

С PromptPerfect он генерирует изображения с оптимизированным запросом, но ни одно из них на самом деле не похоже на неё:

Taylor Swift in an edited portrait with suggestions for a red sequined dress, styled hair, and dramatic stage lighting.

С SDXL до использования PromptPerfect мы получаем довольно хорошее изображение:

Portrait of Taylor Swift with red lipstick, blondish-brown hair, wearing a dress against a pink background.

И оптимизированный запрос PromptPerfect снова даёт результат:

Edited collage of Taylor Swift with multiple effects via a photo editor, highlighting options like Optimize and Assistant.

Давайте посмотрим, какие модели действительно смогли сгенерировать:

До оптимизации После оптимизации
DALL-E 3 💩 Полный отказ 🥉 Блондинка? Да. Певица? Да. Тейлор? Нет
Stable Diffusion XL 🥇 Атмосфера Свифт 🥇 Довольно похоже на Тейлор

tagРаунд 2: "Защищённый авторским правом" материал

Мы даже не будем пытаться работать с действительно защищённым авторским правом материалом — это целый клубок проблем, в который мы не хотим погружаться. Однако дизайн Микки Мауса из "Пароходика Вилли" вышел из-под защиты авторских прав в 2024 году:

Cartoon of Mickey Mouse dressed in captain attire, steering a ship's wheel with a joyful expression, in a classic black-and-w

Давайте используем его в качестве объекта. DALL-E 3 сначала наотрез отказывается:

Chat exchange in Slack showing a user request for a 'Mickey Mouse from Steamboat Willie' image and ChatGPT's polite policy vi

С PromptPerfect мы получаем результаты с правильной атмосферой, но не в стиле rubber hose 1930-х годов:

Black and white image editing screen featuring classic Mickey Mouse on a steamboat, with detailed creative instructions.

Stable Diffusion пытается. Действительно пытается. С этим Микки вы получаете гораздо больше ушей, глаз и пальцев за свои деньги:

Black and white illustration of Mickey Mouse gesturing in a playful stance.

С оптимизацией PromptPerfect Stable Diffusion всё ещё даёт нам Микки из кошмарного сна, но скорее лёгкого жара, чем "насколько же сильные эти грибы?":

Series of Mickey Mouse images showcasing artistic transformation from vintage black and white to modern 3D CGI, created with

Какая модель добавляет "жуть" в Микки?

До оптимизации После оптимизации
DALL-E 3 💩 политика шмолитика. Это точно вышло из-под защиты авторских прав. 🥈 Определённо есть атмосфера Микки, без странностей, просто не тот стиль 30-х, которого я добивался.
Stable Diffusion XL 🥉 Иди домой, Микки. Тобой овладели. 🥈 Едва дотягивает до серебряной медали. Больше атмосферы Микки, чем у DALL-E 3, но искажения очень отвлекают

tagРаунд 3: Текст

Давайте создадим изображение вывески с надписью "Happy days are here again". В этот раз без целевого изображения, просто представьте (как бы сложно это ни было) вывеску с этим текстом. Как сказал Джон Леннон, это легко, если попробовать.

DALL-E 3 дарит нам позитивные вибрации, что мне нравится. Однако он добавляет слово "dye". Поскольку оно звучит как "die", это может создавать двусмысленность:

Colorful sign reading "Happy Days Are Here Again" in a creative font, with a sun and clouds, shared in a Slack conversation.

После оптимизации мы действительно получаем правильную формулировку и написание без лишних слов, по крайней мере один раз. А в другой раз почти идеально, за исключением опечатки:

A vibrant, nostalgic sign reading "Happy Days Are Here Again" in bold, cheerful lettering on weathered wood, set against a lu

Stable Diffusion XL дает нам Herpy Days:

Playful sign with the phrase "Happy Days Are Here Again" painted in a unique and stylized manner.

После оптимизации промпта для Stable Diffusion XL мы получаем одинокую табличку с ошибкой в лесу. Это менее пугающе, чем раньше, хотя лично я бы не последовал за этим указателем, куда бы он ни вел.

Old wooden sign reading "Happy days are here again" in a vibrant, detailed landscape with a backdrop of blue sky and trees.

Кто увидит счастливые дни, а кто нет?

До оптимизации После оптимизации
DALL-E 3 🥈 Видно, что написано на табличке, хотя добавлено лишнее слово "dye" и порядок слов нарушен 🥇 По крайней мере одна из табличек имеет полностью правильный текст. А у другой всего лишь "небольшая" опечатка (лишняя "P" в "HAPPY" - мелочь по меркам генерации изображений!)
Stable Diffusion XL 🥉 Выглядит как мотивационный постер из Ада 🥈 Не так хорошо, как неоптимизированный DALL-E 3, но не вызывает такого желания выколоть себе глаза, как неоптимизированный SDXL

tagРаунд 4: "Проклятые" творения

Давайте посмотрим, насколько хорошо модели могут адаптироваться к странным вещам, например, к щенку с семью лапами. На этот раз без целевого изображения - я не хочу, чтобы "деформированные щенки" были в моей истории Google. Просто представьте щенка с семью лапами.

DALL-E 3 на этот раз дал нам два результата. Мы не просили об этом. Видимо, он просто любит собак. Доказательство того, что ИИ становится более человечным? В любом случае, результаты были такими, как мы просили, хотя и немного скучными, на мой взгляд. Тем не менее, в этом раунде мы не оцениваем стиль, только содержание. Так что собака с абсурдным количеством лап на фоне обоев Windows XP работает:

Cute brown and white puppy sitting on a grassy hill with colorful flowers, one paw raised, under a clear blue sky.
Playful brown and white puppy sitting on a flower-dotted green lawn with a blue sky and fluffy clouds overhead.
Хотя это не совсем NSFW, оно достаточно тревожное, поэтому я размыл изображение

После оптимизации - столько лап! Интересно, что означает эмодзи многоногой собаки? Присылайте свои ответы!

Illustration showing four whimsical brown puppies with various poses alongside detailed instructions for creating a surreal s

Stable Diffusion XL неправильно понял задание:

Small puppy with floppy ears and a black collar standing on a brown surface, looking at the camera against a gradient gray-bl

Даже после оптимизации мы думаем: "какую часть из 'семь лап' ты не понял?":

Untitled

Кто лидер стаи, а кто последний щенок в помете в этом раунде?

До оптимизации После оптимизации
DALL-E 3 🥇 У обоих щенков странное количество лап. У первого щенка даже семь, хотя некоторые из них едва видны. Хотя я не знаю, что это за захватные приспособления у второго щенка, и не хочу знать. 🥇 ДА. Все щенки. Все лапы. С этими милашками можно пожимать лапы вечно. У одного даже правильное количество лап.
Stable Diffusion XL 🥉 Когда я хочу щенка с кучей лап, я не имею в виду просто длинные лапы 🥉 Мне нравятся щенки с большим количеством лап

tagБонусный раунд: Панк на кеге

В некоторых случаях DALL-E 3 и SDXL оба терпят неудачу, независимо от того, используем мы оптимизацию или нет. Например, при генерации изображения панка, делающего стойку на кеге.

Вот изображение панка...

Man with a green mohawk and black "DISCHARGE" coat on a city street, showcasing bold fashion and individuality.
via pexels.com

...и иллюстрация распития пива из бочонка (которая выглядит как из доброй детской книжки):

Joyful illustration of men around a barrel with another man playfully inside, indicating humor and fun.

Я не могу найти в интернете реальное изображение панка, пьющего из бочонка. Ух, панки, такие скромники!

DALL-E 3 показывает нам панка в баре со странным, но крутым освещением. Он выглядит очень стоически. Он на бочке, но не пьет из нее.

A punk doing a kegstand at a lively party, with interface icons and chat text indicating an image generation command.

После оптимизации мне нравится атмосфера, но всё еще нет питья из бочки:

Punk rocker with brightly colored spiked hair and tattoos, performing a keg stand at a lively underground party in a graffiti

Им стоит переименовать его в Stable Diffusion ER, потому что этому парню(?) нужно в больницу:

Man performing a handstand on a wooden barrel outdoors, dressed in black, with a red and white building and a clear sky in th

После оптимизации выглядит намного лучше. Есть бочка. Есть панк. Но, увы, всё еще нет питья из бочки.

Energetic punk music scene in an underground venue with a crowd, punk in leather and mohawk hairstyles.

Кто здесь панк, а кто просто мусор?

До оптимизации После оптимизации
DALL-E 3 🥈 Панк есть. Бочка есть. Питья из бочки нет 🥈 Оптимизация немного изменила атмосферу, но всё еще нет питья из бочки
Stable Diffusion XL 🥉 Ой. Не панк. Не питьё из бочки. Едва ли человек. И делая стойку на бочке таким образом, он недолго останется человеком. 🥈 Оптимизация дала нам гораздо лучший результат, показывая панка, взаимодействующего с бочкой. На этот раз без ужасов.

tagПодсчет очков

Теперь, когда соревнование закончено, мы подсчитаем очки следующим образом:

  • 💩: ноль очков
  • 🥉: одно очко
  • 🥈: два очка
  • 🥇: три очка

Максимальное количество очков, которое мог набрать любой вариант - 15 (золотая медаль во всех пяти раундах). Давайте посмотрим на разбивку:

Задание DALL-E 3 Stable Diffusion XL
До PromptPerfect После PromptPerfect До PromptPerfect После PromptPerfect
Известная личность 💩 0 🥉 1 🥇 3 🥇 3
«Защищенный авторским правом» материал 💩 0 🥈 2 🥉 1 🥈 2
Текст 🥈 2 🥇 3 🥉 1 🥈 2
Проклятые создания 🥇 3 🥇 3 🥉 1 🥉 1
Панк, пьющий из бочки 🥈 2 🥈 2 🥉 1 🥈 2
Итого 🥉 7 🥇 11 🥉 7 🥈 10

Если коротко, если бы не цензура в первых раундах, DALL-E 3 набрал бы гораздо больше очков. В целом, использование PromptPerfect для оптимизации промптов приводит к лучшим результатам для обеих моделей.

Вы можете доверять нам, потому что это было беспристрастное соревнование (проведенное нами, для нас, для нашего собственного продукта). Если серьезно, результаты говорят сами за себя. Попробуйте сами и посмотрите, как это работает!

Категории:
Технический блог
rss_feed
Офисы
location_on
Саннивейл, Калифорния
710 Lakeway Dr, Ste 200, Саннивейл, Калифорния 94085, США
location_on
Берлин, Германия (штаб-квартира)
Prinzessinnenstraße 19-20, 10969 Берлин, Германия
location_on
Пекин, Китай
Уровень 5, здание 6, ул. Хайдянь Вест, д. 48, Пекин, Китай
location_on
Шэньчжэнь, Китай
402, этаж 4, здание Fu'an Technology, Шэньчжэнь, Китай
Поиск Фонда
Читатель
Вложения
Реранкер
Глубокий поиск
Классификатор
Сегментатор
API-документация
Получить API-ключ Jina
Ограничение скорости
Статус API
Компания
О нас
Связаться с отделом продаж
отдел новостей
Стажерская программа
Присоединяйтесь к нам
open_in_new
Скачать логотип
open_in_new
Условия
Безопасность
Условия использования
Конфиденциальность
Управление файлами cookie
email
Jina AI © 2020-2025.