AI画像生成の検証 DALL-Eだけ空間の把握が違う?

この記事はアフィリエイトリンクを含みます

今回は、AI画像生成ツールのDALL-E、imageFX、Recraftに同じプロンプトを入れて画像を作ってみたときの話をちょっと紹介したいと思います。実は、DALL-Eを使ってるときに「被写体の位置を指定したのに、逆になっちゃうことがあったんだよね」という“AIあるある”に遭遇したことがあって。その現象を検証してみたので、これからAIで画像を作ろうって人にはけっこう役立つかも、と思っています。

1. 試したプロンプト

今回使ったプロンプトは、2つ
ざっくりこんな感じ。

  • 「中央に木製のカフェテーブル、テーブルの左側にコーヒーカップ、光が右の窓から差し込む」
  • 「20代日本人男性、薄暗い感じの都会の路地裏、男性の横向きのクローズアップ、男性は左端、16:9」

被写体の配置の解釈の違いを見たかったので、細かな指示は特にせず。
1つ目は、窓の位置、コーヒーカップの位置がどうなるか?
2つ目は、男性の位置、向きがどうなるか?
このあたりがどうなるのかみていきましょう。

2. 実際に生成した画像について

上に貼ってあるのが、左から順にDALL-E、imageFX、Recraftで出力された画像です。どれも落ち着いたカフェ感があって、コーヒーの湯気なんかもリアルでおもしろい。すぐにお気づきだと思いますが、DALL-Eで作った一番左の画像だけ窓の位置が逆なんですよね。

imageFXとRecraftのほうはコーヒーカップの位置は指示とは違いますが、窓の位置は右に来てくれてるので、概ねよしとできる内容ですね。

こちらが2つめのプロンプトの出力例
これも一番左のDALL-Eだけ男性の位置が逆なんですよね。

こうやって出力された画像を見比べると、画像の質も全然ちがって面白いですね。

3. DALL-Eだけ指定と逆になってしまう理由は?

「これってどうしてなんだろ?」って考えてみたけど、正直、DALL-Eの内部構造や学習データが関係してるので、はっきり断言はできないんですよね。ただ、こんな可能性はあるかも。

学習データの偏り
DALL-Eはめちゃくちゃ大量の画像・テキストペアで学習されてるらしいんだけど、位置関係的な解釈がたりないのかもしれない。

言語理解と画像生成のズレ
AIが「左右」を理解するとき、どの視点で考えてるかとか、文脈がどうなってるかで解釈にズレが生じることがあるんだと思う。「カメラ視点から見て左」なのか、「写真全体の中で左」なのか…など、意外にあいまいなところがあるんじゃないかな。

ランダム要素の影響
AIの画像生成はランダム性もあるから、たまたま生成段階で逆の配置になっちゃう場合もある。もちろん何度か生成してみると、ちゃんと右に窓が来るバージョンも出るかもしれない。。。

4. じゃあどうすればいい?対処法のアイデア

とりあえずAI画像生成全般に言えるけど、プロンプトは具体的に、詳しく書くほどイメージどおりになりやすいです。もし「左に絶対置いてほしい!」なら、こんな対策が考えられるかな。

視点をはっきり書く
例:「カメラ視点から見て左にカップを置く」みたいに書いておく。

キーワードを増やす
例:「Left side」「specifically on the left edge」「coffee cup is definitely on the left side」みたいに、左右に関する強調表現を入れる。

構図の追加情報をもっと盛り込む
例:右には窓があって、そこから日差しが入ってくる、とか、左にはカップ以外にも何か特徴がある、みたいにシチュエーションを具体化する。

左右の目印を増やす
例:右には窓、左にはカップ、テーブルの中央には◯◯がある、みたいな感じで、左右をはっきり示すと誤解が減るはず。

まとめ

同じプロンプトをDALL-E、imageFX、Recraftで使ったら、似たような雰囲気の「おしゃれカフェ写真」が生成されたけど、細部を見るとけっこう違いがありました。とくにDALL-Eは「左右が逆になる現象」がときどき起こるのが面白いところ。

ただ、AI画像生成はアップデートされるとガラッと精度が変わることもあるし、サービスによってクセもいろいろ。だから、気づいたらバージョンアップでそのへんが改善されてるかもしれません。何度か試してるうちに、ユーザー側で「こう書けば思いどおりになる」ってコツを掴むといいですよね。

もし「全然思った位置に来ない!」ってときは、

  • プロンプトをもっと詳しく書く
  • ほかのAIサービスも試してみる
  • 複数回生成して良いのを選ぶ

とかいろいろ挑戦してみてください。意外と「おっ、これならバッチリ!」って画像ができたりするかもしれませんよ。

ってことで、今回はDALL-Eで「指定とは逆に来ちゃう問題」を検証してみたレポでした。また何か面白い結果が出たらシェアするんで、よかったら見てみてくださいね。

ブラウザだけでできる 本格的なAI画像生成 【ConoHa AI Canvas】広告

高画質な画像が生成できるStable Diffusionを手軽につかえるサービスです!
商用利用可能なモデルもあるので、安心してビジネスでの利用もできますね。