FE EXAM

生成AI（Generative AI）

文章・画像・音声などの新しいコンテンツを自動生成するAI

DIAGRAM

GAN拡散モデルTransformer

解説

📌
生成AIとは

生成AI（Generative AI）とは、文章・画像・音声・プログラムコードなどの新しいコンテンツを自動で作り出すAIのことです。AI＝人工知能（人間の知的な作業をコンピュータで再現する技術）のうち、特に「ゼロから何かを生み出す」ことに特化したものを指します。

従来のAIの多くは「分類・判別」が得意でした。たとえば「この写真は犬か猫か」を当てるようなタイプです。生成AIはここから一歩進んで、「犬の絵を新しく描く」ことができます。
・判別AI：与えられたデータがどれに当てはまるかを答える
・生成AI：学習したパターンをもとに、世の中になかったデータを作り出す

身近な例で考えると、大量の名作小説を読み込んだ作家のようなものです。たくさんの文章のパターンを覚えた結果、似たような新しい物語を自分で書けるようになる──生成AIも同じく、膨大なデータから「それらしさ」のパターンを学び、それを組み合わせて新しい出力を作ります。上の図の入力（プロンプト＝AIへの指示文）→ 生成AI → 出力の流れがその基本構造です。

📌
主要アーキテクチャ

生成AIの内部には、目的に応じて異なる「仕組み（アーキテクチャ）」が使われています。アーキテクチャ＝AIの内部構造の設計方式のこと。代表的な3つを区別して理解しておきましょう。

主要な3つのアーキテクチャ:
・GAN（敵対的生成ネットワーク）：本物そっくりの偽物を作る「生成器」と、本物か偽物かを見破る「識別器」の2つを競わせて精度を高める。主に画像生成に使われる
・拡散モデル（Diffusion Model）：まずノイズ（砂嵐のような乱れ）だらけの画像から出発し、少しずつノイズを取り除いてきれいな画像を作る。テキストから画像を作るサービスの主流
・Transformer（トランスフォーマー）：自己注意機構という仕組みで文章中の単語同士の関係を捉える。文章生成・LLM（大規模言語モデル）の基盤

例えると、GAN は「贋作師と鑑定士のいたちごっこ」です。贋作師（生成器）が上手くなるほど鑑定士（識別器）も目が肥え、お互いに腕を磨き合います。一方拡散モデルは「曇ったガラスを少しずつ拭いて絵を浮かび上がらせる」イメージ。Transformer は「文章全体を見渡して、どの単語に注目すべきか配分する」仕組みと考えると整理しやすいです。上の図でそれぞれの内部構造を確認してください。

📌
LLMはなぜ流暢に話せるか

LLM（Large Language Model＝大規模言語モデル）とは、Transformerをベースに膨大な量のテキストを学習させた生成AIのことです。ChatGPTやClaudeなど、文章で対話できるAIはほぼすべてLLMです。

なぜLLMは流暢な文章を作れるのか。答えは「次に来る単語を予測する」という単純な仕組みの積み重ねにあります。LLMは文章を1単語（トークン）ずつ出力しますが、各ステップで「これまでの全単語を見て、次に最もつながりの良い単語はどれか」を確率で計算します。
・Transformerの自己注意機構：文中の全単語が互いにどう関係するかを一度に見渡せる
・大規模な学習：インターネット上のテキストを大量に読み込むことで、自然な言い回しのパターンを記憶する
・次単語予測の繰り返し：1単語ずつ予測を続けることで、長い文章も自然に作れる

身近な例で考えると、スマートフォンのフリック入力の予測変換が超高精度になったものです。「今日は天気が」と打つと「良い」「悪い」「最高」などの候補が並ぶ仕組みと基本は同じ。LLMはその候補選びを超大規模に行います。上の図のように、入力された単語全体の関係を見たうえで次の単語を選んでいます。

📌
プロンプトとハルシネーション

プロンプト（prompt）とは、生成AIへの指示文や入力テキストのことです。「猫の俳句を作って」「この英文を訳して」などがプロンプトにあたります。同じAIでも、プロンプトの書き方一つで出力の質が大きく変わります。

ハルシネーション（hallucination）とは、AIが事実と異なる内容をもっともらしく出力してしまう現象です（幻覚と訳されることもあります）。

なぜハルシネーションが起きるのか。LLMは「次に来る単語として確率が高いもの」を選び続けるだけで、「その内容が本当に正しいかどうか」を確認する仕組みを持っていません。学習データに含まれていないことや、あいまいな質問に対しても、それらしい表現を組み合わせて答えを「作って」しまうため、自信満々に誤った情報を出すことがあります。
・正しい場合：学習済みのパターンと一致した正確な出力
・ハルシネーション：自然な言い回しでも内容が誤っている出力

生成AIを使う際は「AIが言ったことが必ず正しいとは限らない」という点を常に意識することが大切です。特に数字・固有名詞・最新情報などは人間が別途確認する習慣を持ちましょう。

📌
代表的なサービス

生成AIは、すでに私たちの身近でさまざまなサービスとして使われています。生成するコンテンツの種類ごとに、代表的なものを整理しておきましょう。

生成するもの	代表的なサービス	主なアーキテクチャ
文章・対話	ChatGPT / Claude / Gemini	Transformer
画像	Stable Diffusion / Midjourney / DALL·E	拡散モデル
音楽・音声	Suno / 各種音声合成	Transformer / GAN
動画	Sora など	拡散モデル + Transformer

これらのサービスは、ユーザーが入力するプロンプト（指示文）の良し悪しで出力の質が大きく変わります。指示の工夫をプロンプトエンジニアリングと呼び、近年注目されています。

生成AIを使ううえで押さえたいポイントは次の通りです。
・生成AIは誤った内容をもっともらしく出力することがある（ハルシネーション＝もっともらしい嘘）
・学習データに含まれる著作権・個人情報・偏り（バイアス）に注意が必要
・出力をそのまま使わず、人間が確認・検証する運用が前提
こうした「便利さ」と「リスク」の両面を理解しておくことが大切です。