今回は、以下の「リアル・実写系」で使われる4つの単語それぞれでどのような画像が生成されるのかを実験。
- Photograph:写真
Realistic:写実的Photorealistic:写真のようにリアルRAW photo:RWA写真
感覚的には、上から順番に「リアル」の詳細度が上がってくるのでは?と思っています。
そして今回は、背景と服装、表情などにも少し指示を出してみたいと思います。
office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl,
イメージ的には「オフィスで、30代くらいのメガネをかけた黒髪のOLが、しかめっ面をしながらデスクトップでタイピングしている」という感じ。
それでは早速・・・。
Photograph:写真
DiffusionBeeの場合

office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl, Photograph
むうう、やはり指示が多すぎたのか、「写真」だというのに、すっかりイラスト化しやがって。
しかも、30代どころか、学生感満載なうえ、指が奇形になっていて、しかめっ面もすっかりと忘れ無表情に。
しかし、今回「Photograph」を1番最後の行に入れていたので、指示が弱かったかもしれないので、一旦これをド頭に記載して、再度挑戦。

Photograph, office, office lady, japanese, thirties, short hair, black hair, glasses, suit, working at office, typing on desktop, scowl
「Photograph」を最初に記述してもダメか・・・。
まぁ、その他はうっすらと再現してくれているようですが、なぜにラップトップ??
やはりプロンプトだけで「リアル・実写系」は難しいのかな、この辺は別途「スタイル」を設定したほうが良いのかもしれませんね。
まぁ、この辺は後々試してみます。
Draw Thingsの場合

a woman sitting at a desk with a laptop
Draw Thingsも同じくイラストで来たか・・・。
こちらもデスクトップではなく、ラップトップをぶち込んでくる辺り、私の作った「プロンプト」自体が悪いとしか思えないので、少しプロンプトに手を加えてみることに(しかし、この程度のプロンプトでつまづくとは)。
まずは、文章じみた部分を「シンプルな単語」に、そして「office」 被りを取り除き、年齢も「30s」に変更、顔の表情は「なし」にします。
Photograph,
office,
japanese, woman, 30s,
shorthair, blackhair,
glasses,
suit,
working,
desktop
まずは「Draw Things」で試し、それで問題なければ、再度「DiffusionBee」に持っていくことに。
Draw Thingsの場合(シンプル変更)

a woman in glasses is working on a laptop
ほほう、やはりプロンプトが下手くそでしたか・・・。
まぁ、いい出来だとは言えませんが、ちゃんと「リアル・実写系」にしてきたのは大進歩。
パソコンなど色々と言いたいことはありますが、まずはこれで良しとして、この「プロンプト」をDiffusionBeeでも試してみます。
DiffusionBeeの場合(シンプル変更)

Photograph, office, woman, japanese, 30s, shorthair, blackhair, glasses, suit, working, desktop
あらら、予想外・・・。
DiffusionBeeは「写真」はお好きではない?
どんなに形が崩れていても良かったのに、最低限「リアル・実写系」にしてくれないと、次へと進めないじゃないか。
いや、この感じだと「Photograph」なしバージョンで試してみたくなるでしょうーが。
「Photograph」なしバージョン

office, woman, japanese, 30s, shorthair, blackhair, glasses, suit, working, desktop
いやー、暴れまくっとるなぁ。
相変わらず「デスクトップ」を無視、なにやら鉛筆を指でくるくる回すというおちゃめな一面も。
ところどころに奇形感が出てきているので、やはりここら辺から「ネガティブプロンプト」も導入していかないと厳しそう。
まとめ
いまのところ、DiffusionBeeの方が癖がありそうで、Draw Thingsは「単語」であれば、しっかりとこちらの意図を汲み取ってくれそう。
というか「リアル・実写系」を試すには、少し早かったかもしれず、もっとシンプルなプロンプトのほうが良かったかもしれませんね。
他、3つのワードでは試すことができませんでしたけど、これ、DiffusionBeeとDraw Things、それぞれ単体で試してみた方が良さそうですね。
追記
どうやら、DiffusionBeeにおける失敗の原因は、「Photograph」というワードが「リアル・写実」を表現するには弱すぎるようで、さらにDiffusionBeeのデフォルト設定がプロンプトを強く押し通さないからのよう。
また、SDXL Base自体、写真専用モデルではないので、今回のような失敗を招いているようで、ポイントとなるのは、ネガティブプロンプトなのだそうで、ネガティブプロンプトを何も指定しない場合、SDXLは「絵として成立」させてしまいがちで、ネガティブプロンプトにおいて、イラスト的な線や非現実的な肌、均一すぎる照明などを禁止してみるのも一つの手なのだとか。
また「Photograph」に限らず、「写真とは」をどれだけ明確に定義できるかが鍵となるのだそうで、今回試していない3つのワードなら、すんなりと「リアル・写実」にしてくれるかもしれません。
あとで、試そ。

