FE EXAM

ディープラーニング（Deep Learning）

多層のニューラルネットワークで複雑な特徴を自動的に学習する手法

INTERACTIVE VISUALIZATION

入力層

隠れ層

出力層

隠れ層の数

4

総レイヤー数

6

深さの評価

深いネットワーク（ディープ）

隠れ層の数4

15

プリセット

層を深くするほど抽象的な特徴を学ぶ層を重ねて非常に複雑・抽象的な特徴を自動で学習できる。入力に近い層は点や線などの単純な特徴を、出力に近い層ほどパーツや物体全体といった抽象的な特徴を捉えます。スライダーで隠れ層の数を変えてみましょう。

多層ネットワークの構造

最も深い隠れ層が学ぶ特徴: 顔・物体などの組み合わさった形

CNN: フィルタ処理（畳み込み）とプーリング

入力画像 5×5

→

畳み込み

3×3 フィルタ

畳み込み後 3×3

入力画像 5×5

→

プーリング

2×2 最大値

プーリング後 2×2

畳み込みは小さなフィルタを画像全体に滑らせて特徴（ここではエッジ）を抽出します。プーリングは領域の代表値（最大値）だけ残してサイズを縮め、位置のズレに強くします。

解説

🌊
ディープラーニングとは

ディープラーニング（深層学習）とは、隠れ層をたくさん重ねた多層のニューラルネットワークを使い、データから複雑な特徴を自動で学習する手法のことです。「ディープ＝深い」は層の数が多いことを指します。

従来の機械学習では、人間が「この特徴に注目しなさい」と特徴（＝注目すべき手がかり）を設計してあげる必要がありました。ディープラーニングの画期的な点は、その特徴の設計までネットワークが自動でやってくれることです。大量のデータと計算力が使えるようになったことで、画像認識・音声認識・翻訳などで人間に迫る精度を出せるようになりました。

上のツールで隠れ層の数のスライダーを動かすと、ネットワークが深くなる様子と、最も深い層が学ぶ特徴の抽象度が変わります。層を増やすほど「点・線 → パーツ → 物体全体」と段階的に抽象化される流れを確認してください。

🪜
多層化のメリット

層を深くする最大のメリットは、特徴を段階的に組み立てられることです。浅い層が学んだ単純な特徴を、次の層がさらに組み合わせて、より複雑で意味のある特徴を作り出していきます。

顔認識を例にすると、層が深まるにつれて学ぶ内容が次のように変わります。
・浅い層：明暗の境目（エッジ）や点・線など最も単純な特徴
・中間の層：目・鼻・口といったパーツ（部品）
・深い層：それらが組み合わさった「顔全体」や「誰の顔か」

身近な例で言うと、レゴブロックに似ています。小さなブロック（単純な特徴）を少しずつ組み合わせて、最終的に大きな作品（複雑な概念）を作り上げるイメージです。ただし、層を深くしすぎると学習が難しくなったり、訓練データに合わせすぎる過学習が起きやすくなる点には注意が必要です。

📌
特徴量の自動抽出とは

特徴量（とくちょうりょう）とは、AIが判断するときに参考にする「手がかりの数値」のことです。たとえば「猫かどうか」を判定するとき、「耳の形」「目の位置」「毛の模様」などが特徴量にあたります。

なぜ自動抽出がそれほど革命的なのか。従来の機械学習では、「どの特徴量を使うか」を人間が設計する必要がありました。専門家が何日も費やして手がかりを選び、そのリストをAIに渡して初めて学習が始まる、という流れです。ところがディープラーニングは、生のデータ（画像・音・文章など）をそのまま与えるだけで、「どこに注目すればよいか」をネットワーク自身が学習中に見つけます。
・自動抽出のメリット：人間が気づかないような微妙なパターンも捉えられる
・従来手法のボトルネック：特徴設計の質でAIの精度がほぼ決まってしまう

身近な例で考えると、魚の見分け方を誰かに教えてもらわなくても、大量の写真を見るうちに自然と「鱗の光り方・ヒレの形」で見分けられるようになる子どものような感覚です。上の図のように、従来の機械学習は「人が特徴設計→AI学習」の2ステップですが、ディープラーニングは生データからそのまま答えに向かえます。

📌
従来の機械学習との違い

比較項目	従来の機械学習	ディープラーニング
特徴の設計	人間が手作業で行う	ネットワークが自動で行う
必要なデータ量	比較的少なくてもOK	大量のデータが必要
得意なこと	ルールが明確な問題	画像・音声・自然言語など複雑な問題
理解のしやすさ	「なぜその判断か」が追いやすい	内部が複雑で理解しにくい（ブラックボックス）

ディープラーニングは万能ではありません。従来の機械学習（＝特徴量を人が設計してAIに学ばせる手法）にはディープラーニングにはない利点があります。
・データが少ない場面では従来手法の方が安定することが多い
・「なぜそう判断したか」が重要な場面（医療・金融など）では、判断理由が追いやすい従来手法が好まれることもある
・シンプルな問題（スパムメール判定など）ではオーバースペックになりやすい

なぜディープラーニングは内部が分かりにくくなるのか。ディープラーニングは何千・何万ものパラメータ（＝学習で調整される数値）が複雑に絡み合って答えを出すため、人間が「どのパラメータがなぜ反応したか」を追うのがほぼ不可能です。この性質をブラックボックスと呼びます。精度の高さとトレードオフの関係にある点を理解しておきましょう。

🧩
CNN/RNN/Transformerの違い

ディープラーニングには、扱うデータの種類に合わせた代表的なアーキテクチャ（ネットワークの設計の型）があります。代表的なのが次の3つです。

種類	正式名・特徴	得意なデータ	主な用途
CNN	畳み込みニューラルネット	画像のような空間的な特徴	画像認識・物体検出
RNN	再帰型ニューラルネット	時系列・順序のあるデータ	音声認識・以前の機械翻訳
Transformer	トランスフォーマー	長い文脈・注意機構で全体を参照	大規模言語モデル（生成AI）

・CNN（畳み込みニューラルネット）：フィルタを画像に滑らせて空間的な特徴を抽出。画像認識の定番
・RNN（再帰型ニューラルネット）：前の出力を次の入力に回し、順序のあるデータを扱う
・Transformer：注意機構（Attention）で文中のどこが重要かを見極め、長い文脈を一度に扱える。今の生成AI・大規模言語モデルの基盤

上のツールの下半分では、CNN の心臓部である畳み込みとプーリングの処理を実際の数値で見られます。フィルタが特徴を取り出し、プーリングで情報を圧縮する流れが CNN の基本動作です。