人間の聴覚特性を利用して音声を圧縮する非可逆音声形式
MP3(エムピースリー、MPEG-1 Audio Layer-3)とは、音声を大幅に小さく圧縮する代表的な音声形式です。動画規格のMPEGの音声部分から生まれ、音楽配信や携帯音楽プレーヤーを一気に普及させました。
MP3は非可逆圧縮(=展開しても完全には元へ戻らない圧縮)です。元のCD音源(WAV形式)を、ファイルサイズでおよそ1/10にまで縮められます。それでも多くの人が「ほぼ同じ音」と感じるのが特徴です。
なぜ大きく削っても気づきにくいのか。その秘密が「人間の聴覚特性(耳のクセ)を利用する」点です。人が実際には聞き取れていない音を見つけ出し、思い切って捨ててしまうのです。これを支えるのが次に説明するマスキング効果です。
マスキング効果とは、大きな音のそばにある小さな音は、人の耳には聞こえなくなるという聴覚の性質です。MP3はこの性質を逆手に取り、「どうせ聞こえない音」を計算で見つけて削除します。
削るかどうかは次の観点で判断されます。
・音量の差:大きい音の近くにある小さい音はかき消される → 削除
・周波数の近さ:高さ(周波数)が近い音ほどマスクされやすい
・可聴域外:そもそも人間が聞き取れない高すぎる/低すぎる音 → 削除
身近な例で言うと、大音量のライブ会場でのささやき声です。静かな部屋なら聞こえるささやき声も、大音量の演奏の中ではまったく聞こえません。「聞こえないものは記録しても無駄」という発想で大胆にデータを減らすのがMP3の核心です。
MP3では圧縮の強さをビットレート(1秒あたりのデータ量、単位はkbps)で指定します。値を変えると音質とファイルサイズが連動して変わります。
| ビットレート | 音質 | ファイルサイズ | 主な用途 |
|---|---|---|---|
| 64 kbps | 粗い | 小さい | 音声・通話・ラジオ |
| 128 kbps | 標準 | ほどよい | 一般的な音楽配信 |
| 320 kbps | 高音質 | 大きい | こだわりのリスニング |
ビットレートには明確なトレードオフ(あちらを立てればこちらが立たずの関係)があります。
・ビットレートを上げる:音質は良くなるが、ファイルは大きくなる
・ビットレートを下げる:ファイルは小さくなるが、音質は劣化する
一般的な音楽では128kbps前後が品質と容量のバランスのよい目安とされます。
身近な例で言うと、写真の解像度に似ています。高解像度ほどきれいですが容量も大きい。用途に合わせて「どこまで質を落として小さくするか」を選ぶ点が同じです。「ビットレートが高い=高音質かつ大容量」という関係を押さえておくとよいでしょう。