FE EXAM

大規模言語モデル（LLM）

膨大なテキストで学習し、人間のような文章を生成する大規模なAIモデル

DIAGRAM

トークン化埋め込み自己注意出力

解説

📌
LLMとは

大規模言語モデル（LLM＝Large Language Model）とは、膨大な量のテキストで学習し、人間のような自然な文章を生成できる大規模なAIモデルのことです。LLM はテキストを生成する生成AIの一種で、ChatGPT や Claude などの対話サービスの中核を担っています。

「大規模」という言葉には2つの意味があります。
・学習データが大規模：書籍・Webページ・記事など、膨大なテキストを読み込む
・モデルが大規模：内部の調整つまみ（パラメータ＝学習で決まる数値）が数十億〜数千億にもなる

LLM の根本的な働きは、意外にもシンプルで「文章の続きとして、次に来る単語を予測する」ことです。身近な例で言うと、スマホの予測変換を桁違いに賢くしたものと考えると分かりやすいです。「私は猫が」と入力すると「好き」を高い確率で予測する──これを1語ずつ繰り返すことで、長い文章を自然に生成します。上の図の流れがまさにこの仕組みです。

📌
Transformer・自己注意機構

ほとんどの LLM は Transformer（トランスフォーマー）という内部構造をベースにしています。その心臓部が自己注意機構（Self-Attention）です。文章を処理する大まかな流れは次の通りです。

処理の4ステップ:
・① トークン化：文章を「トークン」という小さな単位（単語や記号）に分割する
・② 埋め込み（Embedding）：各トークンを意味を表す数値の並び（ベクトル）に変換する
・③ 自己注意機構：文中の単語同士がどれだけ関係するかを計算し、文脈を理解する
・④ 出力：次に来るトークンを確率で予測し、最も確からしいものを選ぶ

自己注意機構の役割を身近な例で言うと、長文を読むときに「この『それ』は何を指している？」と前の単語を見返す作業に似ています。「猫は魚を見て、それを食べた」という文で、「それ」が「魚」を指すと判断できるのは、人間が文中の単語の関係に注目しているからです。自己注意機構はすべての単語の組み合わせについて関連の強さ（注意の重み）を計算し、文脈を捉えます。

Transformer が画期的だったのは、従来の手法と違い文章を最初から順番に1語ずつ処理する必要がなく、まとめて並列に処理できる点です。これにより大量データの学習が現実的になり、LLM の急速な進化につながりました。「Transformer」「自己注意（アテンション）」「事前学習」がLLMを理解するうえでのキーワードです。

📌
代表的なモデル

LLM には、開発元ごとに代表的なモデルがあります。多くは「事前学習＋微調整」という2段階で作られます。
・事前学習：膨大なテキストで「言葉の一般的な使い方」を広く学ぶ
・微調整（ファインチューニング）：特定の目的（対話・指示への応答など）に合わせて追加学習する

モデル / サービス	開発元	特徴
GPT / ChatGPT	OpenAI	対話型サービスを世界的に普及させた
Claude	Anthropic	長文の扱い・安全性を重視
Gemini	Google	画像なども扱うマルチモーダル対応
Llama	Meta	公開モデルで研究・自社利用しやすい