Macでお手軽に画像生成することのできるDiffusionBeeとDraw Things。
前回、単純なプロンプト「japanese girl」で画像を生成してみたのですが、今回はもう少し手を加え、「背景と服」を指定してみたいと思います。
まずは背景として「街の中」と「森の中」の2つ、そして「服」はシンプルに「Tシャツ」で試してみます。
ですので、プロンプトはシンプルに以下の2つ。
cityscape, japanese girl, shirt
forest, japanese girl, shirt
なお、今後は、画像生成モデルとしてどちらも「Stable Diffusion XL」を使用することにします。
他のモデルにまで手を広げてしまうと、ちょっと複雑化してしまいますから・・・
街の中(cityscape, japanese girl, shirt)
DiffusionBeeの場合

Seed : 25234 | Steps : 25 | Guidance Scale : 7.5 | Img Width : 768 | Img Height : 768 | Sampler : karras | Model : Stable Diffusion XL Base 1.0 | Mode : txt2img | Selected Style : none
いや、後ろ向きかい!!
しかも「日本人女性」というよりも、長髪の男感があるやないかい!
街並みについても「japanese」が入っているからか、日本の古風な建物が手前に、遠くには近未来なビルが入っており、まるでニンジャスレイヤー感が・・・。
まぁ、どシンプルな単語だけですので、この辺はもう少し細やかに設定していけば、望んでいるような画像は作ってくれそう。
Draw Thingsの場合

画像解析結果(BLIP2):
a girl with black hair standing next to a building
いやいや、これは手を抜きすぎ、やってくれたなぁ・・・。
とはいえ、これ、前回生成したときに画像サイズが大きく時間がかかってしまったので、512×512に縮小して試したのですが、これではお話にならないので、画像サイズを2倍の1024×1024に変更して再度チャレンジ。

画像解析結果(BLIP2):
a woman standing on a city street with a building in the background
あらあら、やっぱりある程度の画像サイズが必要なのでしょうか、まともな画像を生成してくれましたね。
DiffusionBeeの場合、生成したものの情報を確認することができるので、画像の横に掲載することはできるのですが、Draw Thingsには情報確認するようなところはないようなので(あるかもしれませんが)、画像生成後、「画像インタープリター」で作られた画像を解析し、そこでの結果を表記していきたいと思います。
今回の例で言えば、「cityscape, japanese girl, shirt」で作った画像の評価が「a woman standing on a city street with a building in the background」ということなり、これを基にさらにプロンプトを充実させていけるような感じなので、Draw Thingsは結構面白いかも。
今回生成された画像については、街の看板の文字に違和感があるくらいで、劇画タッチであるとはいえ、まぁ、よくできているんじゃないですかね?
色の使い方に中国感やサイバーパンク感があり、日本人のデザイナーならもっと赤色を抑えているでしょうね。
しかし、たった「4つ」のプロンプトでここまで画像生成してくれるわけですから、しっかりと画像を言語化できて、上手に指示すれば、もっといい感じのものを生み出してくれそう。
さて、次は「forest, japanese girl, shirt」。
森の中(forest, japanese girl, shirt)
DiffusionBeeの場合

Seed : 94813 | Steps : 25 | Guidance Scale : 7.5 | Img Width : 768 | Img Height : 768 | Sampler : karras | Model : Stable Diffusion XL Base 1.0 | Mode : txt2img | Selected Style : none
先の「街中」ではやってくれたDiffusionBeeですが、森は好きなのか、かなりのハイクオリティな作品を叩き出してきましたね。
これ、文句なしでしょ?たった「4つ」のプロンプトでこのクオリティ・・・。
正直なところ、DiffusionBeeもDraw Thingsもネガティブプロンプトを一切使っておらず、初歩の初歩レベルでの画像生成を行なっているのですが、ここまで仕上げてくるか・・・。
Draw Thingsの場合

画像解析結果(BLIP2):
a woman in a kimono standing in front of a tree
むむ、Draw Thingsは人工的な街並みのほうがお好きなのか?
急におかしなことになってきましたね。
劇画調はかわらず、人物は虚ろ、森林なだけに巫女感を出してはきているのですが、ネクタイと柄はちょっといただけない・・・。
DiffusionBeeにも巫女感があり、どうもAIは日本人女性には「着物」や「巫女衣装」などの古き良き日本の衣装を着せたいようですね。
まとめ
今回で2回目となるDiffusionBeeとDraw Thingsの画像比較なのですが、サンプルが少ないとはいえ、しっかりとした指示がなければ、DiffusionBeeはイラスト調、Draw Thingsは劇画タッチという感じのものを生成してくるようですね。
これ、明確に「イラスト調」「実写」としてみた場合も試してみたくなりました。
他にもDraw Thingsは、目の感じがちょっと怖いので、この辺もプロンプトに反映してあげると、もっと素敵なものを生み出してくれそうです。


