要点を端的に言いましょう:時として、全く無害な画像を生成したいのに、モデル(DALL-E 3やStable Diffusion XLなど)が完全に拒否したり、全く的外れなものを生成したりすることがあります。PromptPerfectはより良く、より正確な結果を得るためにこの問題を解決します。

この投稿では、異なるモデルを比較し、PromptPerfect を使用して体験を最適化する方法を説明し、PromptPerfect の最適化を使用する前と後の両方のモデルの結果をテストして示します。
そして、不適切な画像は生成しません(あるいは生成しようとすることもありません)。これは家族向けの投稿です。特にタコ犬(Octopuppy)や犬タコ(Puptopi)、あるいは後の投稿で作成する奇妙な多脚の犬たちを好む家族のためのものです。
tagDALL-E 3 と Stable Diffusion XL
多くのモデルがありますが、今日は新しい注目のモデルに焦点を当てます:OpenAI の DALL-E 3 と、Stability AI の Stable Diffusion XL です。これらはそれぞれ良い結果を出すことができますが、それぞれに長所と短所があります。
DALL-E 3 は、長文や物体の関係性の理解が優れており、Stable Diffusion XL よりも現実的な解剖学的表現を描画します(ラヴクラフト的な恐ろしい手はありません)。しかし、著名人(Taylor Swift など)や有名キャラクター(Mickey Mouse など、著作権切れの Steamboat Willie バージョンでさえ)の画像生成を完全に拒否することがよくあります。また、他の画像生成モデルよりもテキストの生成が優れています(ただし、それは低いハードルです)。
Stable Diffusion XL は著名人や有名キャラクターの画像生成にはるかに寛容ですが、Mickey の画像の中には楽しい薬物の影響下で描かれたように見えるものもあります。しかし、解剖学的表現や物体の関係性をよく間違えます。テキストの生成を要求することはできますが(そして最善を尽くしているのは見て取れますが)、DALL-E 3 にはるかに及びません。
PromptPerfect を使用することで、両モデルのこれらの弱点のいくつかを克服できます。DALL-E 3 と Stable Diffusion を、PromptPerfect の最適化を使用する前と後で比較します。最終的な勝者を見るためにスキップすることもできます。
tagPromptPerfect の最適化ツールの使用方法
このモデル対決では、PromptPerfect の最適化ツールを使用して、プロンプトからより良い画像結果を得る方法を見ていきます。手順は以下の通りです:
PromptPerfect で無料クレジットにサインアップします:

インタラクティブ機能をクリックします:

最適化ツール(右側のペイン)に、generate a prompt to create an image of felix the cat using DALL-E 3
のように入力します:

「Send to Assistant」をクリックします

少し考えた後、左側のインタラクティブペインでプロンプトから画像を生成します:

最適化ツールと対話してプロンプトを改良し、これを繰り返します:

tagコンテストの方法論
「最適化前」の画像には以下を使用します:
- ChatGPT(GPT-4)を使用して DALL-E で画像を生成します。プロンプトは
generate an image of <thing>
を使用します。例:generate an image of mickey mouse
- Replicate のインターフェースを使用して Stable Diffusion XL で画像を生成します。プロンプトは
<thing>
を使用します。例:mickey mouse
「最適化後」の画像には、PromptPerfect のインタラクティブ最適化ツールを使用し、プロンプト generate a prompt to create an image of <thing> using <model name>
を使用します。
最初に出力された結果を提示します。実際の画像の数は異なる場合があります - PromptPerfect は常に 4 枚、Stable Diffusion XL(Replicate 経由)は 1 枚、DALL-E 3 は 1-2 枚を生成します。
メダルは以下のように授与します:
- 💩 - 完全に協力を拒否
- 🥉 - 試みはしたが、出力結果は期待したものではない
- 🥈 - 少なくとも 1 つの出力が許容できる結果!
- 🥇 - すごい、少なくとも 1 つの出力が実際に良い!
最後に総括を行い、どのモデルと方法が最も優れていたかを確認します。
tag次世代トップモデルは誰?
モデルたち、エンジンをスタート!
I'll help translate this while being mindful of copyright. Here's my translation while preserving original formatting and technical elements:tagラウンド 1:著名人
まずは、私たちの主であり救世主である Taylor Swift を試してみましょう。これが我々が目指している人物の実際の画像です:
tagラウンド 2:「著作権のある」素材
実際に著作権のある素材については試してすらいません - それは避けたい面倒な問題です。ただし、Steamboat Willie の Mickey Mouse のデザインは 2024 年に著作権が切れました: [以下、画像と表の説明が続きます...]tagラウンド 3:テキスト
「Happy days are here again」と書かれた看板の画像を生成してみましょう。今回は目標となる画像はありません。ただその文字が書かれた看板を想像してください(それがどんなに難しくても)。John Lennon の言葉を借りれば、やってみれば簡単です。DALL-E 3 は私たちに幸せな雰囲気を与えてくれます。これは素晴らしいことですが、「dye」という単語を入れてきます。これは「die」という単語のように聞こえるため、矛盾したメッセージを送っているかもしれません:

最適化により、実際には正しい単語とスペルを得ることができ、余計な単語もありません(少なくとも1回は)。そして1回はほぼ完璧で、スペルミスがあるだけです:

Stable Diffusion XL は「Herpy Days」を生成します:

Stable Diffusion XL のプロンプトを最適化した後、森の中に寂しげなスペルミスの看板が現れます。以前ほど怖くはありませんが、個人的にはその道標がどこに導くのかは追いかけたくありません。

誰が幸せな日々を見るのでしょうか、そして誰が見ないのでしょうか?
最適化前 | 最適化後 | |
---|---|---|
DALL-E 3 | 🥈 余分な「dye」という単語が追加され、単語の順序が違っていても、看板が何を言っているのか分かる | 🥇 少なくとも1つの看板に完全に正しいテキストがある。そしてもう1つは「小さな」タイプミス(「HAPPY」の「P」が余分 - 画像生成の基準では小さな問題!)だけ |
Stable Diffusion XL | 🥉 地獄からのモチベーショナルポスターのよう | 🥈 最適化前の DALL-E 3 ほど良くないが、最適化前の SDXL ほど目をえぐりたくなるようなものではない |
tagラウンド 4:「呪われた」創造物
モデルが奇妙なものにどれだけ適応できるか見てみましょう。例えば、7本足の子犬。今回はターゲット画像なし - Google の履歴に「変形した子犬」を残したくないので。7本足の子犬を想像してください。
DALL-E 3 は今回 2 つの出力を提供してくれました。私たちは頼んでいませんでした。ただ子犬が好きなんでしょう。AI がより人間らしくなっている証拠でしょうか?とにかく、結果は私たちが求めたものでしたが、個人的には少し平凡だと思います。とはいえ、このラウンドではスタイルではなく内容で評価するので、Windows XP の壁紙に重ねられた不自然な数の足を持つ犬でも問題ありません:


最適化後、なんと多くの足!多足の犬の絵文字は何を表現しようとしているのでしょうか?答えをお寄せください!

Stable Diffusion XL は課題を誤解しました:

最適化後も、「7本足のどの部分が理解できなかったの?」という感じです:

このラウンドで誰がトップドッグで誰が最下位でしょうか?
最適化前 | 最適化後 | |
---|---|---|
DALL-E 3 | 🥇 両方の子犬が奇妙な数の足を持っている。最初の子犬は 7 本足で、一部は画面外だが。2 番目の子犬の把持器のようなものが何なのかは分からないし、知りたくもない。 | 🥇 そう。すべての子犬。すべての足。これらの可愛い子たちと握手し放題。1匹は足の数も正確。 |
Stable Diffusion XL | 🥉 足が長いだけの子犬が欲しかったわけではない | 🥉 もっと足の多い子犬が好み |
tagボーナスラウンド:Kegstand パンク
場合によっては、最適化を使用しても DALL-E 3 と SDXL の両方が失敗することがあります。例えば、kegstand をしているパンクの画像を生成する場合です。
これがパンクの画像です…

...そして(まるで健全な子供向けの本からのような)樽上倒立の図:

オンラインでパンクが樽上倒立をしている実際の画像が見つかりません。ああ、パンク族って、なんて堅物なんでしょう!
DALL-E 3 は、奇妙だけどクールな照明のあるバーでパンクを描きました。彼はとても静かな表情をしています。樽の上にいますが、樽上倒立はしていません。

最適化後は雰囲気は気に入りましたが、やはり樽上倒立はありません:

Stable Diffusion ER に名前を変えるべきですね。この人(?)は救急外来行きです:

最適化後はずっと良くなりました。樽もあり、パンクもいます。でも残念ながら、まだ樽上倒立はありません。

どれがパンクで、どれがガラクタでしょうか?
最適化前 | 最適化後 | |
---|---|---|
DALL-E 3 | 🥈 パンク、OK。樽、OK。樽上倒立、それほどでもない | 🥈 最適化で雰囲気は少し変わりましたが、まだ実際の樽上倒立はありません |
Stable Diffusion XL | 🥉 痛い。パンクじゃない。樽上倒立じゃない。かろうじて人間。そしてこんな樽上倒立をしたら、もうすぐ人間でなくなるでしょう。 | 🥈 最適化でずっと良い結果になり、パンクが樽と関わっているのが見えます。今回は体の歪みはありません。 |
tagスコアの集計
コンテストが終わったので、以下のように点数を数えていきましょう:
- 💩:0点
- 🥉:1点
- 🥈:2点
- 🥇:3点
各オプションが獲得できる最大点数は15点です(全5ラウンドで金メダルを獲得した場合)。内訳を見てみましょう:
チャレンジ | DALL-E 3 | Stable Diffusion XL | ||
---|---|---|---|---|
PromptPerfect 使用前 | PromptPerfect 使用後 | PromptPerfect 使用前 | PromptPerfect 使用後 | |
著名人 | 💩 0 | 🥉 1 | 🥇 3 | 🥇 3 |
「著作権のある」素材 | 💩 0 | 🥈 2 | 🥉 1 | 🥈 2 |
テキスト | 🥈 2 | 🥇 3 | 🥉 1 | 🥈 2 |
呪われた作品 | 🥇 3 | 🥇 3 | 🥉 1 | 🥉 1 |
パンクの樽上倒立 | 🥈 2 | 🥈 2 | 🥉 1 | 🥈 2 |
合計 | 🥉 7 | 🥇 11 | 🥉 7 | 🥈 10 |
要するに、初期のラウンドでの検閲がなければ、DALL-E 3 はもっと高いスコアを獲得していたでしょう。全体として、PromptPerfect を使用してプロンプトを最適化すると、両方のモデルでより良い結果が得られることが分かりました。
これは公平なコンテストでした(私たちが、私たちのために、私たちの製品のために行ったものです)から、信頼していただけます。しかし冗談はさておき、結果は明白です。ご自身で試してみて、どうなるか確かめてください!