DiffusionBeeとDraw Things5回目（リアル・実写系）4つのプロンプト比較だったはずが・・・。

今回は、以下の「リアル・実写系」で使われる4つの単語それぞれで~~どのような画像が生成されるのかを実験~~。

Photograph：写真
~~Realistic：写実的~~
~~Photorealistic：写真のようにリアル~~
~~RAW photo：RWA写真~~

感覚的には、上から順番に「リアル」の詳細度が上がってくるのでは？と思っています。

そして今回は、背景と服装、表情などにも少し指示を出してみたいと思います。

office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl,

イメージ的には「オフィスで、30代くらいのメガネをかけた黒髪のOLが、しかめっ面をしながらデスクトップでタイピングしている」という感じ。

それでは早速・・・。

Photograph：写真
まとめ
1. 追記

Photograph：写真

DiffusionBeeの場合

office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl, Photograph

むうう、やはり指示が多すぎたのか、「写真」だというのに、すっかりイラスト化しやがって。

しかも、30代どころか、学生感満載なうえ、指が奇形になっていて、しかめっ面もすっかりと忘れ無表情に。

しかし、今回「Photograph」を1番最後の行に入れていたので、指示が弱かったかもしれないので、一旦これをド頭に記載して、再度挑戦。

Photograph, office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl

「Photograph」を最初に記述してもダメか・・・。

まぁ、その他はうっすらと再現してくれているようですが、なぜにラップトップ？？

やはりプロンプトだけで「リアル・実写系」は難しいのかな、この辺は別途「スタイル」を設定したほうが良いのかもしれませんね。

まぁ、この辺は後々試してみます。

Draw Thingsの場合

a woman sitting at a desk with a laptop

Draw Thingsも同じくイラストで来たか・・・。

こちらもデスクトップではなく、ラップトップをぶち込んでくる辺り、私の作った「プロンプト」自体が悪いとしか思えないので、少しプロンプトに手を加えてみることに（しかし、この程度のプロンプトでつまづくとは）。

まずは、文章じみた部分を「シンプルな単語」に、そして「office」被りを取り除き、年齢も「30s」に変更、顔の表情は「なし」にします。

Photograph, 
office, 
japanese, woman, 30s, 
shorthair, blackhair, 
glasses, 
suit, 
working, 
desktop

まずは「Draw Things」で試し、それで問題なければ、再度「DiffusionBee」に持っていくことに。

Draw Thingsの場合（シンプル変更）

a woman in glasses is working on a laptop

ほほう、やはりプロンプトが下手くそでしたか・・・。

まぁ、いい出来だとは言えませんが、ちゃんと「リアル・実写系」にしてきたのは大進歩。

パソコンなど色々と言いたいことはありますが、まずはこれで良しとして、この「プロンプト」をDiffusionBeeでも試してみます。

DiffusionBeeの場合（シンプル変更）

Photograph, office, woman, japanese, 30s, shorthair, blackhair, glasses, suit, working, desktop

あらら、予想外・・・。

DiffusionBeeは「写真」はお好きではない？

どんなに形が崩れていても良かったのに、最低限「リアル・実写系」にしてくれないと、次へと進めないじゃないか。

いや、この感じだと「Photograph」なしバージョンで試してみたくなるでしょうーが。

「Photograph」なしバージョン

office, woman, japanese, 30s, shorthair, blackhair, glasses, suit, working, desktop

いやー、暴れまくっとるなぁ。

相変わらず「デスクトップ」を無視、なにやら鉛筆を指でくるくる回すというおちゃめな一面も。

ところどころに奇形感が出てきているので、やはりここら辺から「ネガティブプロンプト」も導入していかないと厳しそう。

まとめ

いまのところ、DiffusionBeeの方が癖がありそうで、Draw Thingsは「単語」であれば、しっかりとこちらの意図を汲み取ってくれそう。

というか「リアル・実写系」を試すには、少し早かったかもしれず、もっとシンプルなプロンプトのほうが良かったかもしれませんね。

他、3つのワードでは試すことができませんでしたけど、これ、DiffusionBeeとDraw Things、それぞれ単体で試してみた方が良さそうですね。

追記

どうやら、DiffusionBeeにおける失敗の原因は、「Photograph」というワードが「リアル・写実」を表現するには弱すぎるようで、さらにDiffusionBeeのデフォルト設定がプロンプトを強く押し通さないからのよう。

また、SDXL Base自体、写真専用モデルではないので、今回のような失敗を招いているようで、ポイントとなるのは、ネガティブプロンプトなのだそうで、ネガティブプロンプトを何も指定しない場合、SDXLは「絵として成立」させてしまいがちで、ネガティブプロンプトにおいて、イラスト的な線や非現実的な肌、均一すぎる照明などを禁止してみるのも一つの手なのだとか。

また「Photograph」に限らず、「写真とは」をどれだけ明確に定義できるかが鍵となるのだそうで、今回試していない3つのワードなら、すんなりと「リアル・写実」にしてくれるかもしれません。

あとで、試そ。