こんにちは。株式会社シーエスエス、PS事業部のしゃるたんです。
今回も前回に引き続き、画像生成についてお伝えしていきます。
前回はImageFxというサービスをお伝えしたのですが、AIモデルの説明が抜けていたのでご紹介したいと思います。(前回の記事: ImageFXの使い方とコツ)
画像生成における主なAIモデルとそれぞれの特徴
画像生成における有名なAIモデルは下記4つがあります。
文章生成AIモデルに置き換えるとGPT、Claude、Gemini、LLamaの四天王的なポジションですかね(・ω・)フーン
<画像生成AIモデル>
・DALL-E 3(OpenAI社)
・Midjourney(Midjourney社)
・Imagen 3(Google社)
・Stable Diffusion-V3(Stability AI社 + オープンソース)
※ImageFxで使っているAIモデルはImagen 3となります。
私の画像生成や動画生成の調査方法は、最初にTikTokで存在を知り、Perplexityで詳しく調べて、実際に触ってみるという流れでやっているのですが、この分野は新しいAIサービスがどんどん出てきますので、あまり深追いせず・・です( ;∀;)チョイチョイガンバル!
まずは上記有名どころの特徴をまとめてみますね!!
DALL-E3
・テキストから直接、高精細で詳細な画像を生成する能力が高い
・複雑なコンセプトや創造的なプロンプトに対して強力なパフォーマンスを発揮
・プロンプトの意図を的確に捉えるため、意図した内容に忠実な画像を生成しやすい
Stable Diffusion-V3
・高解像度でクリアな画像を生成することが可能
・オープンソースの強みを活かし、多様なカスタマイズや微調整が可能
Midjourney
・芸術性や雰囲気を重視した画像生成を得意とする
・創造的かつスタイリッシュなアウトプットを得るのに適している
・色彩の使用や構図において独特の美学を持っていて視覚的に印象深い生成物が多い
Imagen 3
・高解像度かつフォトリアリスティックな画像生成に優れている
・複雑なシーンやリアリズムにフォーカスしたプロンプトに対して強力
・正確で現実に近い描写を行うことが可能。
同じプロンプトでどのように結果が変わるのか比較
実際に同じプロンプトでどのように結果が変わるのか、Imagen 3(Google社)、DALL-E 3(OpenAI社)、Stable Diffusion-V3(Stability AI社 + オープンソース)の3つを比較してみました。
※Midjourneyは課金していないので今回は見送らせて頂きます
動物を表現
オフィス風景を表現
人物を表現
建物を表現
まとめ:画像生成AIは使えるけど、再現性はない
原型を変えずに画像調整する方法
余談ですが、チャットGPTでも画像生成できるのですが、チャットでやり取りをしていると、一気に違う画像になってしまう時があります。
この場合の対処法は「この画像のGen-IDを教えて」と確認し「Gen-ID:XXXXXを変えずに、笑っている顔に変更して下さい」といった感じでやりとりすると原型を変えずに調整することができます。
ImageFXではシードをロックすればOKです。同じプロンプトと同じシード番号を使用すると、ほぼ同じ画像が生成されます。
一番使い勝手が良いのはDALL-E 3
今回は英単語区切りのプロンプトを作ったので、そこまで大きな差は出ませんでしたが、日本語で作るとStable Diffusion-V3は全く違う画像を作るし、Imagen 3は画像そのものを作ってくれないしで、けっこう日本語は扱いづらいなって思います。
その点、DALL-E 3はGPTが日本語から英語に変換してくれるので、一番使い勝手が良い印象です(*´꒳`*)ニッコリ
失敗例
ご参考までに失敗例も掲載します。
う=ん、DALL-E 3は机がスタイリッシュ過ぎるし、Stable Diffusion-V3は椅子が崩壊しとる。
あえて人物には触れない勇気(๑˃̵ᴗ˂̵)
ちなみにImageFXを紹介していたYouTubeでは、「京都の紅葉がきれいな風景で~~」と日本語で入れるだけでこんな素敵な画像が!!って言ってたのに、同じ文章を入れても画像は生成できなかったです( ノД`)シクシク…
再現性がないにもほどがあるわ!! バンバン(ノシ 'ω')ノシ
そんな訳!? で画像生成は面白いので、引き続き調査したいと思います。
それでは~ (≧▽≦)フリフリ
\システム開発なら、株式会社シー・エス・エスへ/
この記事を書いた人
【ニックネーム】しゃるたん
【経歴】入社23年目です。最初の10年は大手証券会社の約定報告システムの開発・保守を担当しました。その後、別の大手証券会社で9年ほどシステム部門で社員代替として、ユーザー部門からの相談に乗ってシステム起案したり、ベンダーとの橋渡しを行いました。単にユーザー要求をベンダーへ依頼するということではなく、ユーザー・ベンダーそれぞれとって最適で価値のあるシステムを一緒に考えて提案することが大変でした。
証券業務に約19年間従事した後、開発本部長として自社の開発部門を3年間取り仕切りました。直近では自社サービスの開発に係る業務や、開発の新機軸を探るための検討を行っています。
【得意な言語】VBA、C
【趣味】ゲーム、漫画
【一言】モンハンの新作とドラクエ3のリメイクが楽しみです(≧▼≦)ワッフ-イ