ちょき☆ぱたん お気に入り紹介 (chokipatan.com)

第1部 本

脳&心理&人工知能

画像生成AIがよくわかる本(田中秀弥)

『図解ポケット 画像生成AIがよくわかる本』2023/5/20
田中秀弥 (著), 松村雄太 (監修)


(感想)
 テキストを入力しただけでイメージどおりの画像を生成できるツールの「画像生成AI」について、画像生成AIの基礎知識から著作権の問題、代表的なサービスとその使い方、さらにビジネスにおける活用事例や、将来の展望まで総合的に解説した入門書。巻末には用語解説や索引もついています。
 画像生成AIについては、次のように書いてありました。
「画像生成AIとは、ユーザーが生成したい画像のイメージをテキスト(単語や文章)や、参照画像を入力して指示することで、そのイメージに沿った画像を生成してくれるAIです。」
 この画像生成は、ジェネレーティブAIの一分野で、ジェネレーティブAIは次のようなもの。
「ジェネレーティブAIとは、「コンテンツやモノについてサンプルデータから学習し、それを使用して創造的かつ現実的な新しい生成物を生み出す機械学習手法」と定義されています。このAIで生み出すことができる成果物は、画像、動画、文章、音声、3Dモデルに至るまで多岐に及ぶため、ライフサイエンス、ヘルスケア、製造、材料科学、メディア、エンターティンメント、自動車、航空宇宙、防衛、エネルギーなどの様々な分野での活躍が期待されています。」
 ……本書には、画像生成AIだけでなく、文章、音声、プログラムなどを生成してくれるジェネレーティブAIの概説もあり、ジェネレーティブAIの現状や、産業での活用などを幅広く知ることができます。

   *
 さて、画像生成AIの性能を大幅に向上させたGAN というAIアルゴリズム(敵対的生成ネットワーク)については、次のように解説されていました(本書ではもっと詳しく説明されています)。
「GANは、Generator(生成ネットワーク)とDiscriminator(識別ネットワーク)と呼ばれる2つのネットワークを使用します。Generatorは偽物のデータを作り出し、Discriminatorには偽物のデータと本物のデータが与えられ、その真偽を判定します。この流れを繰り返すことで、Generatorは本物のデータに近い偽物データを生成できるようになります。」
 またStable Diffusionという画像生成AIは、基本的な考え方として「純粋なノイズ画像から少しずつノイズを取り除いていくことで、最終的に綺麗な画像を生成するという仕組み」だそうです。
 ……なんか仕組みはちょっと分かりにくいですが、このようにして作成された画像生成AIは、ピンボケした昔の写真の解像度を上げる、複数の顔の画像を取り込んで実際には存在しない人の画像を作る、絵の特徴を書いた文章から画像を生成する、オリジナル画像から雰囲気の異なる別の画像を生成する、などの高度な画像を生成できるのです。実際の画像もたくさん掲載されていましたが……AIが自動生成したとは思えない高品質のものが多くて、本当に驚きです。
 画像生成AIの代表的なサービスとその使い方としては、「Midjourney」、「にじジャーニー」、「Stable Diffusion(DreamStudio)」、「NovelAI」、「お絵描きばりぐっどくん・AIピカソ」、「TrinArt」、「DALL・E 2」、「Dream by WOMBO」、「Canva」、「Adobe Firefly」などが紹介されていました。
 また画像生成AIの活用事例(コミック制作、映像制作、ゲーム開発、建築デザイン、インテリアデザイン、広告クリエイティブの作成、自動車のデザイン、医療画像の作成)の紹介もあり、これもとても参考になります。
 そして画像生成AIには、次の3つの著作権問題があるそうです。
1)AIに学習させるデータセットに著作物を収集・提供することができるか(著作権者は自分の著作物の収集・提供を拒否できるか)
2)ユーザーが入力するプロンプトの文章が著作物として保護されるか
3)画像AIで作成した画像は著作物の対象物となりうるのか
 ……作成させた人間の創作への関与度合いが大きい場合は、著作権の対象になることがあるようです。なお、日本の法律としては次のように書いてありました。
「日本の法律では、AIの機械学習を目的にした著作物の利用は「著作権法律30条の4第2号」で基本的に認められています。著作物の種類や用途、商用利用の有無は問わず、許諾も不要ですが、「著作権者の利益を不当に害してはいけない」という但し書きが付いています。」
 ……ただし、画像生成AIの著作権に関しては、現在いろいろな問題があるようなので、今後は、取り扱いが変わっていくかもしれません。
 そして最終章の「ジェネレーティブAIのこれから」では、動画生成AI、視覚メディア生成、文書生成、音声・音響生成、コード・プログラム生成、業界特化の生成AI(教育、ゲーム、ヘルスケアなど)などが紹介されていて、ジェネレーティブAIは、静止画像だけでなく、すでに様々なものを生成していることに驚かされました。
 文章を要約するAI、音声クローンを生成するAI、作曲AIなどの他、自然言語の文書で指定するとプログラミングのコードに変換してくれるSourceAIなどもあるそうです。これらの生成AIは、まだまだ発展途上の段階のようでもありましたが、少なくとも仕事の「たたき台」を作らせるのに役にたつかもしれないと感じました。AIとの協働は、すでに現実になりつつあるようです。
 例えば、特許出願書類の自動生成AIや、AIリーガルアシスタントのCoCounsel(法律や判例に関する質問に回答してくれる検索・リサーチ機能、複雑な契約書類の要約、ドキュメントのレビューを行ってくれる)など、現実に利用が始まっているツールもあるようでした。
 最近は文書を自動生成してくれるChatGPTのビジネス・教育での活用が話題ですが、画像生成AIも、同じようにどんどん活用されていくんだろうなーと感じました。
 画像生成AIを図解で分かりやすく解説してくれる入門書です。みなさんも、ぜひ読んでみてください。
   *   *   *
 なお社会や科学、IT関連の本は変化のスピードが速いので、購入する場合は、対象の本が最新版であることを確認してください。

Amazon商品リンク

興味のある方は、ここをクリックしてAmazonで実際の商品をご覧ください。(クリックすると商品ページが新しいウィンドウで開くので、Amazonの商品を検索・購入できます。)