分散の平方根で、元データと同じ単位で散らばりを表す指標
標準偏差(standard deviation)とは、データのばらつきを元データと同じ単位で表す指標です。記号は σ(小文字シグマ)または SD。分散の平方根を取って計算します。
σ = √分散 = √(Σ(x − μ)² / n)
身近な例として、テストの点数の標準偏差がよく使われます。平均点 60、標準偏差 10 のテストなら「だいたい 50〜70 点の範囲に多くの人が集まっている」と直感的に分かります。一方、同じ平均でも標準偏差が 25 なら「35〜85 点まで広く散らばっている」イメージ。
偏差値も標準偏差を使って計算される指標で、偏差値 = (x − μ) / σ × 10 + 50 で求めます。平均ピッタリで偏差値 50、+1σ で偏差値 60、+2σ で偏差値 70 となります。
標準偏差と分散は同じ「散らばり」を測る指標ですが、表現の仕方が違います。両者の関係はシンプル:
標準偏差 σ = √分散 σ² / 分散 σ² = (標準偏差 σ)²
具体例:データ {40, 50, 60}
平均 μ = 50
偏差: −10, 0, 10
偏差²: 100, 0, 100
分散 σ² = 200 / 3 ≈ 66.67
標準偏差 σ = √66.67 ≈ 8.16
| 指標 | 計算 | 特徴 |
|---|---|---|
| 分散 σ² | Σ(x − μ)² / n | 数学的に扱いやすい(微分しやすい) |
| 標準偏差 σ | √(分散) | 直感的に解釈しやすい(元と同じ単位) |
計算過程では分散を経由する必要があり、「分散を求める → 平方根を取る」という 2 段階の手順になります。順序を逆にしないことが重要です。
「各値と平均の差(偏差)をそのまま足すと、必ずゼロになってしまう」。これが二乗する理由です。プラスの偏差とマイナスの偏差が打ち消し合うため、足し合わせても「散らばりの大きさ」を測れません。
なぜ二乗するとゼロにならないのか。二乗するとマイナスの偏差(例: −10)も必ずプラス(例: 100)に変わります。これでプラスとマイナスが打ち消し合わず、散らばりの合計が正しく計算できるのです。
・偏差: −10, 0, +10 → 合計 0(使えない)
・偏差²: 100, 0, 100 → 合計 200(散らばりが見える)
絶対値を使えばいいのでは?と思うかもしれませんが、絶対値は数学的に扱いにくく(微分できない等)、二乗の方が計算や理論展開がしやすいため統計では標準的に使われます。二乗した後に平方根を取り戻すことで元の単位に戻すのが標準偏差の設計です。
標準偏差の計算は4ステップで行います。データ 40, 50, 60, 70, 80(平均 60)を例に見てみましょう。
・ステップ①: 平均を求める → 60
・ステップ②: 各値から平均を引いた偏差を求める → −20, −10, 0, +10, +20
・ステップ③: 偏差を二乗して全部足し、個数で割る(=分散)→ 200
・ステップ④: 分散の平方根を取る(=標準偏差)→ √200 ≈ 14.14
標準偏差 14.14 が何を意味するか。「データが平均 60 を中心に、おおむね ±14 点ほど散らばっている」と読めます。実際 40〜80 の範囲はちょうど平均の両側に約 20 ずつ広がっており、標準偏差がその散らばりを1つの数で表していることが分かります。
別のデータ(例: 58, 59, 60, 61, 62)の場合、平均は同じ 60 でも標準偏差は ≈ 1.41 ととても小さくなります。平均が同じでも標準偏差が違えば、データの形がまったく違うことを標準偏差は教えてくれます。
分散は便利な指標ですが、欠点は単位がもとデータの二乗になってしまうこと。たとえば点数のデータなら分散の単位は「点²」、身長(cm)なら「cm²」と、現実の何を測っているのか直感的に掴めません。
標準偏差は平方根を取ることで単位が元データと一致します。これで「平均から ±σ どれくらい離れているか」を、点数なら「点」、身長なら「cm」と元の物差しで語れるようになります。
具体例 あるテストで平均点 60 点、分散 100「点²」と言われてもピンときませんが、標準偏差 10 点と言われれば「平均 60 点を中心に、おおむね 50〜70 点に多くの人が集まっている」と即座にイメージできます。
正規分布の経験則(68-95-99.7 ルール)
・±1σ 内:約 68% のデータが入る
・±2σ 内:約 95% のデータが入る
・±3σ 内:約 99.7% のデータが入る
元データと同じ単位だからこそ、「身長 ±1σ なら何 cm?」のように具体的に語れます。
散らばりを求めるときは、まず分散を計算し、最後に平方根を取って標準偏差にするという流れになります。データ間の比較や、平均との差を「何σ離れているか」と表現するときにも標準偏差が活躍します。