FE EXAM

生成AI(Generative AI)

文章・画像・音声などの新しいコンテンツを自動生成するAI

DIAGRAM
GAN拡散モデルTransformer
代表的な生成AIアーキテクチャ 3種GAN敵対的生成ネットワーク生成器Generator識別器Discriminator偽物を作る / 本物か見破るを競わせて精度を上げる用途: 画像生成・高解像度化Diffusion拡散モデル(ノイズ除去)ノイズ除去中🖼️完成ノイズを少しずつ取り除き画像を生成用途: テキストから画像生成Transformer自己注意機構ベース自己注意(Self-Attention)並列処理長文に強い文章生成・LLM の基盤技術用途: 文章・翻訳・対話代表的なサービスChatGPT文章生成Claude文章・対話Stable Diffusion画像生成Midjourney画像生成Suno / 音声系音楽生成入力(プロンプト)「猫の絵を描いて」などの指示生成AI出力(新しいコンテンツ)画像・文章・音声を新規に生成※ どのアーキテクチャも「学習したパターンから新しい出力を作る」点は共通
解説

📌
生成AIとは

大量の学習データパターンを学習AI新しく生成🖼️📝🎵判別ではなく「作り出す」のが特徴

生成AI(Generative AI)とは、文章・画像・音声・プログラムコードなどの新しいコンテンツを自動で作り出すAIのことです。AI=人工知能(人間の知的な作業をコンピュータで再現する技術)のうち、特に「ゼロから何かを生み出す」ことに特化したものを指します。

従来のAIの多くは「分類・判別」が得意でした。たとえば「この写真は犬か猫か」を当てるようなタイプです。生成AIはここから一歩進んで、「犬の絵を新しく描く」ことができます。
判別AI:与えられたデータがどれに当てはまるかを答える
生成AI:学習したパターンをもとに、世の中になかったデータを作り出す

身近な例で考えると、大量の名作小説を読み込んだ作家のようなものです。たくさんの文章のパターンを覚えた結果、似たような新しい物語を自分で書けるようになる──生成AIも同じく、膨大なデータから「それらしさ」のパターンを学び、それを組み合わせて新しい出力を作ります。上の図の入力(プロンプト=AIへの指示文)→ 生成AI → 出力の流れがその基本構造です。

📌
主要アーキテクチャ

生成AIの内部には、目的に応じて異なる「仕組み(アーキテクチャ)」が使われています。アーキテクチャ=AIの内部構造の設計方式のこと。代表的な3つを区別して理解しておきましょう。

主要な3つのアーキテクチャ:
GAN(敵対的生成ネットワーク):本物そっくりの偽物を作る「生成器」と、本物か偽物かを見破る「識別器」の2つを競わせて精度を高める。主に画像生成に使われる
拡散モデル(Diffusion Model):まずノイズ(砂嵐のような乱れ)だらけの画像から出発し、少しずつノイズを取り除いてきれいな画像を作る。テキストから画像を作るサービスの主流
Transformer(トランスフォーマー)自己注意機構という仕組みで文章中の単語同士の関係を捉える。文章生成・LLM(大規模言語モデル)の基盤

例えると、GAN は「贋作師と鑑定士のいたちごっこ」です。贋作師(生成器)が上手くなるほど鑑定士(識別器)も目が肥え、お互いに腕を磨き合います。一方拡散モデルは「曇ったガラスを少しずつ拭いて絵を浮かび上がらせる」イメージ。Transformer は「文章全体を見渡して、どの単語に注目すべきか配分する」仕組みと考えると整理しやすいです。上の図でそれぞれの内部構造を確認してください。

📌
LLMはなぜ流暢に話せるか

今日天気すべての単語の関係を同時に計算「今日は天気が」の次に来る単語の確率を計算良い最も確率が高い単語を順に選んで文章を作る

LLM(Large Language Model=大規模言語モデル)とは、Transformerをベースに膨大な量のテキストを学習させた生成AIのことです。ChatGPTやClaudeなど、文章で対話できるAIはほぼすべてLLMです。

なぜLLMは流暢な文章を作れるのか。答えは「次に来る単語を予測する」という単純な仕組みの積み重ねにあります。LLMは文章を1単語(トークン)ずつ出力しますが、各ステップで「これまでの全単語を見て、次に最もつながりの良い単語はどれか」を確率で計算します。
Transformerの自己注意機構:文中の全単語が互いにどう関係するかを一度に見渡せる
大規模な学習:インターネット上のテキストを大量に読み込むことで、自然な言い回しのパターンを記憶する
次単語予測の繰り返し:1単語ずつ予測を続けることで、長い文章も自然に作れる

身近な例で考えると、スマートフォンのフリック入力の予測変換が超高精度になったものです。「今日は天気が」と打つと「良い」「悪い」「最高」などの候補が並ぶ仕組みと基本は同じ。LLMはその候補選びを超大規模に行います。上の図のように、入力された単語全体の関係を見たうえで次の単語を選んでいます。

📌
プロンプトとハルシネーション

プロンプトAIへの指示文生成AI正確な出力ハルシネーションもっともらしく見えるが誤った内容を自信満々に出力することがある

プロンプト(prompt)とは、生成AIへの指示文や入力テキストのことです。「猫の俳句を作って」「この英文を訳して」などがプロンプトにあたります。同じAIでも、プロンプトの書き方一つで出力の質が大きく変わります。

ハルシネーション(hallucination)とは、AIが事実と異なる内容をもっともらしく出力してしまう現象です(幻覚と訳されることもあります)。

なぜハルシネーションが起きるのか。LLMは「次に来る単語として確率が高いもの」を選び続けるだけで、「その内容が本当に正しいかどうか」を確認する仕組みを持っていません。学習データに含まれていないことや、あいまいな質問に対しても、それらしい表現を組み合わせて答えを「作って」しまうため、自信満々に誤った情報を出すことがあります。
正しい場合:学習済みのパターンと一致した正確な出力
ハルシネーション:自然な言い回しでも内容が誤っている出力

生成AIを使う際は「AIが言ったことが必ず正しいとは限らない」という点を常に意識することが大切です。特に数字・固有名詞・最新情報などは人間が別途確認する習慣を持ちましょう。

📌
代表的なサービス

生成AIは、すでに私たちの身近でさまざまなサービスとして使われています。生成するコンテンツの種類ごとに、代表的なものを整理しておきましょう。

生成するもの代表的なサービス主なアーキテクチャ
文章・対話ChatGPT / Claude / GeminiTransformer
画像Stable Diffusion / Midjourney / DALL·E拡散モデル
音楽・音声Suno / 各種音声合成Transformer / GAN
動画Sora など拡散モデル + Transformer

これらのサービスは、ユーザーが入力するプロンプト(指示文)の良し悪しで出力の質が大きく変わります。指示の工夫をプロンプトエンジニアリングと呼び、近年注目されています。

生成AIを使ううえで押さえたいポイントは次の通りです。
・生成AIは誤った内容をもっともらしく出力することがある(ハルシネーション=もっともらしい嘘)
・学習データに含まれる著作権・個人情報・偏り(バイアス)に注意が必要
・出力をそのまま使わず、人間が確認・検証する運用が前提
こうした「便利さ」と「リスク」の両面を理解しておくことが大切です。

関連コンテンツ