FE EXAM

ディープラーニング(Deep Learning)

多層のニューラルネットワークで複雑な特徴を自動的に学習する手法

INTERACTIVE VISUALIZATION
入力層
隠れ層
出力層
隠れ層の数
4
総レイヤー数
6
深さの評価
深いネットワーク(ディープ)
隠れ層の数4
15
プリセット
層を深くするほど抽象的な特徴を学ぶ層を重ねて非常に複雑・抽象的な特徴を自動で学習できる。入力に近い層は点や線などの単純な特徴を、出力に近い層ほどパーツや物体全体といった抽象的な特徴を捉えます。スライダーで隠れ層の数を変えてみましょう。
多層ネットワークの構造
入力h1h2h3h4出力
最も深い隠れ層が学ぶ特徴: 顔・物体などの組み合わさった形
CNN: フィルタ処理(畳み込み)とプーリング
入力画像 5×5
0010001110111110111000100
畳み込み
3×3 フィルタ
畳み込み後 3×3
-20-2000-20-2
入力画像 5×5
0010001110111110111000100
プーリング
2×2 最大値
プーリング後 2×2
1111
畳み込みは小さなフィルタを画像全体に滑らせて特徴(ここではエッジ)を抽出します。プーリングは領域の代表値(最大値)だけ残してサイズを縮め、位置のズレに強くします。
解説

🌊
ディープラーニングとは

多数の隠れ層 = ディープ(深い)

ディープラーニング(深層学習)とは、隠れ層をたくさん重ねた多層のニューラルネットワークを使い、データから複雑な特徴を自動で学習する手法のことです。「ディープ=深い」は層の数が多いことを指します。

従来の機械学習では、人間が「この特徴に注目しなさい」と特徴(=注目すべき手がかり)を設計してあげる必要がありました。ディープラーニングの画期的な点は、その特徴の設計までネットワークが自動でやってくれることです。大量のデータと計算力が使えるようになったことで、画像認識・音声認識・翻訳などで人間に迫る精度を出せるようになりました。

上のツールで隠れ層の数のスライダーを動かすと、ネットワークが深くなる様子と、最も深い層が学ぶ特徴の抽象度が変わります。層を増やすほど「点・線 → パーツ → 物体全体」と段階的に抽象化される流れを確認してください。

🪜
多層化のメリット

点・線角・形パーツ層を経るごとに特徴が抽象化される

層を深くする最大のメリットは、特徴を段階的に組み立てられることです。浅い層が学んだ単純な特徴を、次の層がさらに組み合わせて、より複雑で意味のある特徴を作り出していきます。

顔認識を例にすると、層が深まるにつれて学ぶ内容が次のように変わります。
浅い層:明暗の境目(エッジ)や点・線など最も単純な特徴
中間の層:目・鼻・口といったパーツ(部品)
深い層:それらが組み合わさった「顔全体」や「誰の顔か」

身近な例で言うと、レゴブロックに似ています。小さなブロック(単純な特徴)を少しずつ組み合わせて、最終的に大きな作品(複雑な概念)を作り上げるイメージです。ただし、層を深くしすぎると学習が難しくなったり、訓練データに合わせすぎる過学習が起きやすくなる点には注意が必要です。

📌
特徴量の自動抽出とは

従来の機械学習生データ人が特徴設計分類・予測ディープラーニング生データ自動で特徴抽出分類・予測「何に注目するか」を自分で見つけるのがDLの革新

特徴量(とくちょうりょう)とは、AIが判断するときに参考にする「手がかりの数値」のことです。たとえば「猫かどうか」を判定するとき、「耳の形」「目の位置」「毛の模様」などが特徴量にあたります。

なぜ自動抽出がそれほど革命的なのか。従来の機械学習では、「どの特徴量を使うか」を人間が設計する必要がありました。専門家が何日も費やして手がかりを選び、そのリストをAIに渡して初めて学習が始まる、という流れです。ところがディープラーニングは、生のデータ(画像・音・文章など)をそのまま与えるだけで、「どこに注目すればよいか」をネットワーク自身が学習中に見つけます。
自動抽出のメリット:人間が気づかないような微妙なパターンも捉えられる
従来手法のボトルネック:特徴設計の質でAIの精度がほぼ決まってしまう

身近な例で考えると、魚の見分け方を誰かに教えてもらわなくても、大量の写真を見るうちに自然と「鱗の光り方・ヒレの形」で見分けられるようになる子どものような感覚です。上の図のように、従来の機械学習は「人が特徴設計→AI学習」の2ステップですが、ディープラーニングは生データからそのまま答えに向かえます。

📌
従来の機械学習との違い

比較項目従来の機械学習ディープラーニング
特徴の設計人間が手作業で行うネットワークが自動で行う
必要なデータ量比較的少なくてもOK大量のデータが必要
得意なことルールが明確な問題画像・音声・自然言語など複雑な問題
理解のしやすさ「なぜその判断か」が追いやすい内部が複雑で理解しにくい(ブラックボックス)

ディープラーニングは万能ではありません。従来の機械学習(=特徴量を人が設計してAIに学ばせる手法)にはディープラーニングにはない利点があります。
データが少ない場面では従来手法の方が安定することが多い
「なぜそう判断したか」が重要な場面(医療・金融など)では、判断理由が追いやすい従来手法が好まれることもある
シンプルな問題(スパムメール判定など)ではオーバースペックになりやすい

なぜディープラーニングは内部が分かりにくくなるのか。ディープラーニングは何千・何万ものパラメータ(=学習で調整される数値)が複雑に絡み合って答えを出すため、人間が「どのパラメータがなぜ反応したか」を追うのがほぼ不可能です。この性質をブラックボックスと呼びます。精度の高さとトレードオフの関係にある点を理解しておきましょう。

🧩
CNN/RNN/Transformerの違い

CNN画像RNN時系列Transformer言語・文脈

ディープラーニングには、扱うデータの種類に合わせた代表的なアーキテクチャ(ネットワークの設計の型)があります。代表的なのが次の3つです。

種類正式名・特徴得意なデータ主な用途
CNN畳み込みニューラルネット画像のような空間的な特徴画像認識・物体検出
RNN再帰型ニューラルネット時系列・順序のあるデータ音声認識・以前の機械翻訳
Transformerトランスフォーマー長い文脈・注意機構で全体を参照大規模言語モデル(生成AI)

CNN(畳み込みニューラルネット):フィルタを画像に滑らせて空間的な特徴を抽出。画像認識の定番
RNN(再帰型ニューラルネット):前の出力を次の入力に回し、順序のあるデータを扱う
Transformer:注意機構(Attention)で文中のどこが重要かを見極め、長い文脈を一度に扱える。今の生成AI・大規模言語モデルの基盤

上のツールの下半分では、CNN の心臓部である畳み込みプーリングの処理を実際の数値で見られます。フィルタが特徴を取り出し、プーリングで情報を圧縮する流れが CNN の基本動作です。

関連コンテンツ