文章・画像・音声などの新しいコンテンツを自動生成するAI
生成AI(Generative AI)とは、文章・画像・音声・プログラムコードなどの新しいコンテンツを自動で作り出すAIのことです。AI=人工知能(人間の知的な作業をコンピュータで再現する技術)のうち、特に「ゼロから何かを生み出す」ことに特化したものを指します。
従来のAIの多くは「分類・判別」が得意でした。たとえば「この写真は犬か猫か」を当てるようなタイプです。生成AIはここから一歩進んで、「犬の絵を新しく描く」ことができます。
・判別AI:与えられたデータがどれに当てはまるかを答える
・生成AI:学習したパターンをもとに、世の中になかったデータを作り出す
身近な例で考えると、大量の名作小説を読み込んだ作家のようなものです。たくさんの文章のパターンを覚えた結果、似たような新しい物語を自分で書けるようになる──生成AIも同じく、膨大なデータから「それらしさ」のパターンを学び、それを組み合わせて新しい出力を作ります。上の図の入力(プロンプト=AIへの指示文)→ 生成AI → 出力の流れがその基本構造です。
生成AIの内部には、目的に応じて異なる「仕組み(アーキテクチャ)」が使われています。アーキテクチャ=AIの内部構造の設計方式のこと。代表的な3つを区別して理解しておきましょう。
主要な3つのアーキテクチャ:
・GAN(敵対的生成ネットワーク):本物そっくりの偽物を作る「生成器」と、本物か偽物かを見破る「識別器」の2つを競わせて精度を高める。主に画像生成に使われる
・拡散モデル(Diffusion Model):まずノイズ(砂嵐のような乱れ)だらけの画像から出発し、少しずつノイズを取り除いてきれいな画像を作る。テキストから画像を作るサービスの主流
・Transformer(トランスフォーマー):自己注意機構という仕組みで文章中の単語同士の関係を捉える。文章生成・LLM(大規模言語モデル)の基盤
例えると、GAN は「贋作師と鑑定士のいたちごっこ」です。贋作師(生成器)が上手くなるほど鑑定士(識別器)も目が肥え、お互いに腕を磨き合います。一方拡散モデルは「曇ったガラスを少しずつ拭いて絵を浮かび上がらせる」イメージ。Transformer は「文章全体を見渡して、どの単語に注目すべきか配分する」仕組みと考えると整理しやすいです。上の図でそれぞれの内部構造を確認してください。
LLM(Large Language Model=大規模言語モデル)とは、Transformerをベースに膨大な量のテキストを学習させた生成AIのことです。ChatGPTやClaudeなど、文章で対話できるAIはほぼすべてLLMです。
なぜLLMは流暢な文章を作れるのか。答えは「次に来る単語を予測する」という単純な仕組みの積み重ねにあります。LLMは文章を1単語(トークン)ずつ出力しますが、各ステップで「これまでの全単語を見て、次に最もつながりの良い単語はどれか」を確率で計算します。
・Transformerの自己注意機構:文中の全単語が互いにどう関係するかを一度に見渡せる
・大規模な学習:インターネット上のテキストを大量に読み込むことで、自然な言い回しのパターンを記憶する
・次単語予測の繰り返し:1単語ずつ予測を続けることで、長い文章も自然に作れる
身近な例で考えると、スマートフォンのフリック入力の予測変換が超高精度になったものです。「今日は天気が」と打つと「良い」「悪い」「最高」などの候補が並ぶ仕組みと基本は同じ。LLMはその候補選びを超大規模に行います。上の図のように、入力された単語全体の関係を見たうえで次の単語を選んでいます。
プロンプト(prompt)とは、生成AIへの指示文や入力テキストのことです。「猫の俳句を作って」「この英文を訳して」などがプロンプトにあたります。同じAIでも、プロンプトの書き方一つで出力の質が大きく変わります。
ハルシネーション(hallucination)とは、AIが事実と異なる内容をもっともらしく出力してしまう現象です(幻覚と訳されることもあります)。
なぜハルシネーションが起きるのか。LLMは「次に来る単語として確率が高いもの」を選び続けるだけで、「その内容が本当に正しいかどうか」を確認する仕組みを持っていません。学習データに含まれていないことや、あいまいな質問に対しても、それらしい表現を組み合わせて答えを「作って」しまうため、自信満々に誤った情報を出すことがあります。
・正しい場合:学習済みのパターンと一致した正確な出力
・ハルシネーション:自然な言い回しでも内容が誤っている出力
生成AIを使う際は「AIが言ったことが必ず正しいとは限らない」という点を常に意識することが大切です。特に数字・固有名詞・最新情報などは人間が別途確認する習慣を持ちましょう。
生成AIは、すでに私たちの身近でさまざまなサービスとして使われています。生成するコンテンツの種類ごとに、代表的なものを整理しておきましょう。
| 生成するもの | 代表的なサービス | 主なアーキテクチャ |
|---|---|---|
| 文章・対話 | ChatGPT / Claude / Gemini | Transformer |
| 画像 | Stable Diffusion / Midjourney / DALL·E | 拡散モデル |
| 音楽・音声 | Suno / 各種音声合成 | Transformer / GAN |
| 動画 | Sora など | 拡散モデル + Transformer |
これらのサービスは、ユーザーが入力するプロンプト(指示文)の良し悪しで出力の質が大きく変わります。指示の工夫をプロンプトエンジニアリングと呼び、近年注目されています。
生成AIを使ううえで押さえたいポイントは次の通りです。
・生成AIは誤った内容をもっともらしく出力することがある(ハルシネーション=もっともらしい嘘)
・学習データに含まれる著作権・個人情報・偏り(バイアス)に注意が必要
・出力をそのまま使わず、人間が確認・検証する運用が前提
こうした「便利さ」と「リスク」の両面を理解しておくことが大切です。