多層のニューラルネットワークで複雑な特徴を自動的に学習する手法
ディープラーニング(深層学習)とは、隠れ層をたくさん重ねた多層のニューラルネットワークを使い、データから複雑な特徴を自動で学習する手法のことです。「ディープ=深い」は層の数が多いことを指します。
従来の機械学習では、人間が「この特徴に注目しなさい」と特徴(=注目すべき手がかり)を設計してあげる必要がありました。ディープラーニングの画期的な点は、その特徴の設計までネットワークが自動でやってくれることです。大量のデータと計算力が使えるようになったことで、画像認識・音声認識・翻訳などで人間に迫る精度を出せるようになりました。
上のツールで隠れ層の数のスライダーを動かすと、ネットワークが深くなる様子と、最も深い層が学ぶ特徴の抽象度が変わります。層を増やすほど「点・線 → パーツ → 物体全体」と段階的に抽象化される流れを確認してください。
層を深くする最大のメリットは、特徴を段階的に組み立てられることです。浅い層が学んだ単純な特徴を、次の層がさらに組み合わせて、より複雑で意味のある特徴を作り出していきます。
顔認識を例にすると、層が深まるにつれて学ぶ内容が次のように変わります。
・浅い層:明暗の境目(エッジ)や点・線など最も単純な特徴
・中間の層:目・鼻・口といったパーツ(部品)
・深い層:それらが組み合わさった「顔全体」や「誰の顔か」
身近な例で言うと、レゴブロックに似ています。小さなブロック(単純な特徴)を少しずつ組み合わせて、最終的に大きな作品(複雑な概念)を作り上げるイメージです。ただし、層を深くしすぎると学習が難しくなったり、訓練データに合わせすぎる過学習が起きやすくなる点には注意が必要です。
特徴量(とくちょうりょう)とは、AIが判断するときに参考にする「手がかりの数値」のことです。たとえば「猫かどうか」を判定するとき、「耳の形」「目の位置」「毛の模様」などが特徴量にあたります。
なぜ自動抽出がそれほど革命的なのか。従来の機械学習では、「どの特徴量を使うか」を人間が設計する必要がありました。専門家が何日も費やして手がかりを選び、そのリストをAIに渡して初めて学習が始まる、という流れです。ところがディープラーニングは、生のデータ(画像・音・文章など)をそのまま与えるだけで、「どこに注目すればよいか」をネットワーク自身が学習中に見つけます。
・自動抽出のメリット:人間が気づかないような微妙なパターンも捉えられる
・従来手法のボトルネック:特徴設計の質でAIの精度がほぼ決まってしまう
身近な例で考えると、魚の見分け方を誰かに教えてもらわなくても、大量の写真を見るうちに自然と「鱗の光り方・ヒレの形」で見分けられるようになる子どものような感覚です。上の図のように、従来の機械学習は「人が特徴設計→AI学習」の2ステップですが、ディープラーニングは生データからそのまま答えに向かえます。
| 比較項目 | 従来の機械学習 | ディープラーニング |
|---|---|---|
| 特徴の設計 | 人間が手作業で行う | ネットワークが自動で行う |
| 必要なデータ量 | 比較的少なくてもOK | 大量のデータが必要 |
| 得意なこと | ルールが明確な問題 | 画像・音声・自然言語など複雑な問題 |
| 理解のしやすさ | 「なぜその判断か」が追いやすい | 内部が複雑で理解しにくい(ブラックボックス) |
ディープラーニングは万能ではありません。従来の機械学習(=特徴量を人が設計してAIに学ばせる手法)にはディープラーニングにはない利点があります。
・データが少ない場面では従来手法の方が安定することが多い
・「なぜそう判断したか」が重要な場面(医療・金融など)では、判断理由が追いやすい従来手法が好まれることもある
・シンプルな問題(スパムメール判定など)ではオーバースペックになりやすい
なぜディープラーニングは内部が分かりにくくなるのか。ディープラーニングは何千・何万ものパラメータ(=学習で調整される数値)が複雑に絡み合って答えを出すため、人間が「どのパラメータがなぜ反応したか」を追うのがほぼ不可能です。この性質をブラックボックスと呼びます。精度の高さとトレードオフの関係にある点を理解しておきましょう。
ディープラーニングには、扱うデータの種類に合わせた代表的なアーキテクチャ(ネットワークの設計の型)があります。代表的なのが次の3つです。
| 種類 | 正式名・特徴 | 得意なデータ | 主な用途 |
|---|---|---|---|
| CNN | 畳み込みニューラルネット | 画像のような空間的な特徴 | 画像認識・物体検出 |
| RNN | 再帰型ニューラルネット | 時系列・順序のあるデータ | 音声認識・以前の機械翻訳 |
| Transformer | トランスフォーマー | 長い文脈・注意機構で全体を参照 | 大規模言語モデル(生成AI) |
・CNN(畳み込みニューラルネット):フィルタを画像に滑らせて空間的な特徴を抽出。画像認識の定番
・RNN(再帰型ニューラルネット):前の出力を次の入力に回し、順序のあるデータを扱う
・Transformer:注意機構(Attention)で文中のどこが重要かを見極め、長い文脈を一度に扱える。今の生成AI・大規模言語モデルの基盤
上のツールの下半分では、CNN の心臓部である畳み込みとプーリングの処理を実際の数値で見られます。フィルタが特徴を取り出し、プーリングで情報を圧縮する流れが CNN の基本動作です。