想像力をカタチにする画像生成AI。コンテンツ制作を変える最新技術とは

画像生成AI: 2023/7/10

想像力をカタチにする画像生成AI。
コンテンツ制作を変える最新技術とは

こんにちは！VONS picturesです。

第11回目のメルマガは、今話題の画像生成AIについてご紹介します。
※今後は、AR＜拡張現実＞だけでなく画像生成AIについてもメルマガでお伝えする予定です。

2022年は「画像生成AI元年」と呼ばれるほど画像生成AIが急速に普及し、クリエイターに限らず多くの人が利用し始めました。

特に最近話題になっているのが、「プロンプト」というテキストを入力して画像を作成する「拡散モデル（ディフュージョンモデル）」です。拡散モデルは、驚くほど精度の高い画像を簡単に作成できるとして、世界に旋風を巻き起こしています。

メルマガをご覧の皆さんの中にも、「Twitterやニュースで画像生成AIが使われたイラストを見た」という方もいるのではないでしょうか？　しかし、SNSやニュースでは成果物の素晴らしさばかりが注目されていて、画像生成AIにどのような技術が使われているか、あまり話題になっていません。

そこで今回のメルマガでは、画像生成AIの進化した技術についてお伝えし、さまざまな種類の「拡散モデル」でどのような画像を作成できるかご紹介します。さらに、画像生成AIを広告に活用するメリットも説明しているので、ぜひ最後までご覧ください！

1
画像生成AIの進化〜GANから拡散モデル〜
2
拡散モデルの実行環境
3
代表的な画像生成AIサービス
4
画像生成AIを広告に活用するメリット
5
まとめ

画像生成AIの進化〜GANから拡散モデル〜

従来、画像生成AIには「GAN」というAIアルゴリズムが使われていました。2014年に発表されたGANは「Generative Adversarial Network」の略称で「敵対的生成ネットワーク」と訳されます。

GANは、「Generator（生成）」と「Discriminator（識別）」という2つのネットワークで構成されています。偽物のデータを作るGeneratorと、偽物かどうかを見抜くDiscriminatorが競い合うことで、精度の高い画像を作成する仕組みです。

使い始めたばかりの頃は学習量が足りないので、Generatorは低品質のコンテンツを作成し、Discriminatorは偽物だと判定します。しかし、繰り返すうちに学習し、Discriminatorが偽物と判定できないくらい、本物に近い画像を作り出せるようになるのがGANの特徴です。

しかし、GANの課題として、学習が十分に行われないなど動作の不安定さが指摘されていました。そこで登場したのが、「拡散モデル（ディフュージョンモデル）」です。

拡散モデルは、画像にノイズを加え、プロンプト（テキストによる指示）に従ってノイズを段階的に取り除き、新しい画像を生成する仕組みです。GANと同様、拡散モデルも本物と区別ができないくらい精巧な画像を作成できます。

拡散モデルは、高品質な画像を安定的に生み出せるため、最先端の画像生成AIとして注目されています。次に、拡散モデルにおける2つの実行環境を見てみましょう。

拡散モデルの実行環境

拡散モデルの実行環境として、サーバで生成するケースと、ローカルPCで生成するケースの2種類があります。

サーバで生成するケースの例として、Midjourney（ミッドジャーニー）があげられます。Midjourneyは、テキストから画像を生成できるAIプログラムのひとつです。チャットサービスの「Discord（ディスコード）」からアクセスでき、自分専用のサーバも作成できます。

次に、ローカルPCで生成するケースの例として、Stable Diffusion（ステイブル・ディフュージョン）があります。Stable Diffusionも画像生成AIのひとつで、ブラウザ上でも使用できます。ローカル環境へインストールして実行することで、無制限に利用できます。ただし、ローカルPCで動作させるためには、高スペックのGPUが必要です。

代表的な画像生成AIサービス

次に、拡散モデルを用いた代表的な画像生成AIサービスを紹介します。

■Midjourney（ミッドジャーニー）

Midjourney（ミッドジャーニー）は、チャットサービスであるDiscordを介して使用する画像生成AIサービスです。Discordのチャンネル内でテキストを入力し、画像を作成します。

Midjourneyで作成した画像とプロンプトはこちらです。

プロンプトとは、何を生成するかAIに指示するためのテキストのこと。女性の画像を作成するために、以下のプロンプトを入力しました。

Midjourneyは、芸術性の高い画像を作成できる点が特徴です。実際、2022年にアメリカのコロラド州で開催されたアートコンテストにおいて、Midjourneyで作成した絵が優勝し、大きな議論を呼びました。

■Stable Diffusion（ステイブル・ディフュージョン）

Stable Diffusion（ステイブル・ディフュージョン）は、オープンソースの画像生成AIサービスです。

Stable Diffusionに、Midjourneyと同じ内容のプロンプトを入力し、女性の画像を作成してみました。同じ内容を指示しても、MidjourneyとStable Diffusionでは成果物に大きな違いがあることがわかります。

Stable DiffusionはPCが要件を満たしているなら、インストールすれば無制限に利用可能です。アニメのようなイラストや写実的な画像まで、さまざまな表現を楽しめます。

■DALL・E／DALL・E2（ダリ／ダリ2）

DALL・E／DALL・E2（ダリ／ダリ2）は、OpenAIが開発した画像生成AIです。OpenAIは、人間のように自然に会話ができるChatGPTを開発した企業でもあります。

出典：DALL・E2 Explained | OpenAI

2020年にDALL・Eが、2022年に出力画像の解像度が4倍になったDALL・E2が公開されました。DALL・E2は、クリエイティブな画像を作成できる点が特徴です。入力したプロンプトの要素を忠実に取り込み、個性的な画像を作成します。

■Adobe Firefly（アドビ・ファイアフライ）

Adobe Firefly（アドビ・ファイアフライ）は、商用利用に特化したAdobeの画像生成AIサービスです。PhotoshopやIllustratorなど他のAdobe製品と統合されているため、Adobeユーザーに最適なツールといえるでしょう。

出典：Adobe Firefly: Future Explorations｜Adobe

例えば、プロンプトに「植物がある明るいアートスタジオにいる人」と入力すると、以下のようなスタイリッシュな画像を作成します。

出典：Adobe Firefly: Future Explorations｜Adobe

普段からAdobe製品を使っているなら、Adobe Fireflyを試してみるのもおすすめです。

画像生成AIを広告に活用するメリット

画像生成AIを広告分野に活用するメリットとして、多様な画像を効率的に作成できる点があげられます。広告効果を高めるためには、ターゲットに刺さる広告を制作する必要があります。どのような広告のデザインなら反応率を上げられるか検証する場合、たくさんのデザインを準備して絞り込むことが大切です。

しかし、人手不足が深刻化している広告業界では、短時間で豊富なデザインを用意するのは簡単ではありません。そこで画像生成AIを活用すると、プロンプトを入力するだけで画像を瞬時に作成できます。作業が効率的になるだけでなく、AIは人のクリエイティビティをサポートしてくれる点もメリットといえます。

まとめ

テキストから高精度のデザインを作成できる画像生成AIは、飛躍的に進歩しています。今後、画像生成AIを広告に活用することで、素早い対応やクリエイティブな画像作成が実現するでしょう。

しかし、広告の制作がどれだけ便利になっても、プロンプトの入力など指示を出したり、デザインを選ぶのは人の価値観によります。そこで、専門家によるサポートが必要です。

VONS picturesは、今後AIがクリエイティブの世界に急速に浸透していくと考え、AIを使って企業やデザイナーを支援する事業を展開していきます。AIガバナンスを重視し、データプライバシーと倫理的な枠組みを守りながら、AIの力を最大限に活かした広告制作に取り組みます。

VONS picturesは、最先端技術とこれまでのクリエイティブスキルを融合して新たなソリューションを皆さまにお届けします。ご関心がありましたら、ぜひお気軽にお問合せください。

もっと詳しく知りたい方へ

株式会社ヴォンズ・ピクチャーズ　
デジタルコンテンツ研究所

詳細はこちら

記事は参考になりましたでしょうか？