DiffusionBeeとDraw Things5回目(リアル・実写系)4つのプロンプト比較だったはずが・・・。

d-d-ba260115 AI

今回は、以下の「リアル・実写系」で使われる4つの単語それぞれでどのような画像が生成されるのかを実験

  • Photograph:写真
  • Realistic:写実的
  • Photorealistic:写真のようにリアル
  • RAW photo:RWA写真

感覚的には、上から順番に「リアル」の詳細度が上がってくるのでは?と思っています。

そして今回は、背景と服装、表情などにも少し指示を出してみたいと思います。

office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl,

イメージ的には「オフィスで、30代くらいのメガネをかけた黒髪のOLが、しかめっ面をしながらデスクトップでタイピングしている」という感じ。

それでは早速・・・。

Photograph:写真

DiffusionBeeの場合

office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl, Photograph

むうう、やはり指示が多すぎたのか、「写真」だというのに、すっかりイラスト化しやがって。

しかも、30代どころか、学生感満載なうえ、指が奇形になっていて、しかめっ面もすっかりと忘れ無表情に。

しかし、今回「Photograph」を1番最後の行に入れていたので、指示が弱かったかもしれないので、一旦これをド頭に記載して、再度挑戦。

Photograph, office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl

「Photograph」を最初に記述してもダメか・・・。

まぁ、その他はうっすらと再現してくれているようですが、なぜにラップトップ??

やはりプロンプトだけで「リアル・実写系」は難しいのかな、この辺は別途「スタイル」を設定したほうが良いのかもしれませんね。

まぁ、この辺は後々試してみます。

Draw Thingsの場合

a woman sitting at a desk with a laptop

Draw Thingsも同じくイラストで来たか・・・。

こちらもデスクトップではなく、ラップトップをぶち込んでくる辺り、私の作った「プロンプト」自体が悪いとしか思えないので、少しプロンプトに手を加えてみることに(しかし、この程度のプロンプトでつまづくとは)。

まずは、文章じみた部分を「シンプルな単語」に、そして「office」 被りを取り除き、年齢も「30s」に変更、顔の表情は「なし」にします。

Photograph, 
office, 
japanese, woman, 30s, 
shorthair, blackhair, 
glasses, 
suit, 
working, 
desktop

まずは「Draw Things」で試し、それで問題なければ、再度「DiffusionBee」に持っていくことに。

Draw Thingsの場合(シンプル変更)

a woman in glasses is working on a laptop

ほほう、やはりプロンプトが下手くそでしたか・・・。

まぁ、いい出来だとは言えませんが、ちゃんと「リアル・実写系」にしてきたのは大進歩。

パソコンなど色々と言いたいことはありますが、まずはこれで良しとして、この「プロンプト」をDiffusionBeeでも試してみます。

DiffusionBeeの場合(シンプル変更)

Photograph, office, woman, japanese, 30s, shorthair, blackhair, glasses, suit, working, desktop

あらら、予想外・・・。

DiffusionBeeは「写真」はお好きではない?

どんなに形が崩れていても良かったのに、最低限「リアル・実写系」にしてくれないと、次へと進めないじゃないか。

いや、この感じだと「Photograph」なしバージョンで試してみたくなるでしょうーが。

「Photograph」なしバージョン

office, woman, japanese, 30s, shorthair, blackhair, glasses, suit, working, desktop

いやー、暴れまくっとるなぁ。

相変わらず「デスクトップ」を無視、なにやら鉛筆を指でくるくる回すというおちゃめな一面も。

ところどころに奇形感が出てきているので、やはりここら辺から「ネガティブプロンプト」も導入していかないと厳しそう。

まとめ

いまのところ、DiffusionBeeの方が癖がありそうで、Draw Thingsは「単語」であれば、しっかりとこちらの意図を汲み取ってくれそう。

というか「リアル・実写系」を試すには、少し早かったかもしれず、もっとシンプルなプロンプトのほうが良かったかもしれませんね。

他、3つのワードでは試すことができませんでしたけど、これ、DiffusionBeeとDraw Things、それぞれ単体で試してみた方が良さそうですね。

追記

どうやら、DiffusionBeeにおける失敗の原因は、「Photograph」というワードが「リアル・写実」を表現するには弱すぎるようで、さらにDiffusionBeeのデフォルト設定がプロンプトを強く押し通さないからのよう。

また、SDXL Base自体、写真専用モデルではないので、今回のような失敗を招いているようで、ポイントとなるのは、ネガティブプロンプトなのだそうで、ネガティブプロンプトを何も指定しない場合、SDXLは「絵として成立」させてしまいがちで、ネガティブプロンプトにおいて、イラスト的な線や非現実的な肌、均一すぎる照明などを禁止してみるのも一つの手なのだとか。

また「Photograph」に限らず、「写真とは」をどれだけ明確に定義できるかが鍵となるのだそうで、今回試していない3つのワードなら、すんなりと「リアル・写実」にしてくれるかもしれません。

あとで、試そ。

タイトルとURLをコピーしました