音について

いろいろな教科書にのっていることですが、音と音の振舞いについて、私の言葉で紹介してみたいと思います。「ナンダソウダッタノカ」と思っていただけることが何か一つでもあれば、面目です。


●音とは
音とはすなわち(小刻みな)気圧の変化のことです。音を出すというのは、何かを振動させて、その周囲にある空気を押し縮めたり引き延ばしたりして気圧の変化を作ることを言います
気圧の変化の量が、音の大きい小さいとなり、変化の速さ・周期が音の高さです。その振動=周期が早いとキーンという音になり、ゆっくりだとフルフルッという音になります。チューニングの基準音として使われている440Hzは、一秒間に440回、気圧があがったり下がったりしていることを表しています。

以下は現実の音楽演奏(演奏会の収録)における気圧変化の様子を、時間軸に添って表したものです。

音の大きいところは波形の山(振れ)が大きく、音の小さいところは波形は山(振れ)が小さいことを表しています。波のくびれているところは曲と曲の間です。音楽の、音響効果としてのダイナミクス構造を一望することができます。

つまり録音は以下の図のごとく、気圧の変化の経過を電気の性質を利用して記録することだと言えると思います。逆に再生は、ふたたび空気の気圧変化を作り出すことにほかなりません。

下の図絵はマイクロホンの動作原理を表しています。

すなわち、マイクロホンは気圧の変化(の増減)を電気のプラス/マイナスに変換し、よって音は電気のプラス/マイナスの変化(の経過)として記録されます。

●ステレオの概念
普段、何気なくオーディオ機器のことを指してステレオと言ってみたりしていますが、ステレオとはステレオフォニックつまり、立体的な音源の位置や音が鳴っている空間の広がりや雰囲気を含めた音響効果を再現しようとする意図のことを言います。基本的には、ステレオは左右の2チャンネルで立体性を表現しようとします。それは人間の耳が2個一組であることに由来します。たとえば、1つのマイクロフォンで目の前の道を通る消防自動車の音を録音し、再生したとします。すると当然ではありますがスピーカーから出るのは、消防自動車の音がだんだん大きくなって、ある時から小さくなってゆく音です。

その音から映像をイメージすると、スピーカーの所に消防自動車が近付いてきてまた戻っていくように感じられると思います。

しかし左右2本の(ステレオ)マイクロフォンを使って、マイクロホンの前を通り過ぎる消防自動車の音を録音し、ステレオで再生したとします。すると、音による消防自動車のイメージは、録音したときマイクロホンがあった場所にいるかのように、右から近付いてきて左に走り抜けていきます。

端的に言ってこれがステレオの効果です。たとえば音楽を聴くのにも、理想的な録音と再生環境がそろい、演奏者のいる場所や場の空気の感じが再現されると、臨場感が増し、音楽が生き生きしたものになります。
生録による現実音の録再では、さらに要求は厳しく、音楽にはないような過酷な(?)音や、場の雰囲気をつくっている極めて極めて微細な音が「忠実に」再生されることが必要です。音楽についても他の音響についても、録音が良ければ良いほど、再生装置が良ければ良いほど、再生される音は迫真のものとなります。

ただ音楽を聴くという目的について言えば、ステレオである必要はありません。モノラルの方が音楽に集中できるという人もいます。

生録は臨場感、再生される音のリアリズムを追求する営みなので、当然ステレオ収録になります。

●信号対雑音比
聞かせたい目的の音(信号=Signal)の平均レベルと聞かせたくない音(雑音=Noize)の比から、信号対雑音比としてSN比(エスエヌヒ)ないしS/N(エスエヌ)などと言い習わされています。

雑音にはテープのヒスノイズ(何も録音してないのにシィーといっているやつ)録音機器のノイズフロア(何もかけていなのにボリュームを上げるとシィーというやつ)マイクロホン自体のノイズ。衣擦れ、空調の音など、本来聞かせたくない音の諸々が含まれます。
雑音が少なく目的の音がスッキリ聞こえる状態はS/Nが良い。雑音が多く目的の音が貧弱であればS/Nが悪いと言います。
生録の場面でもっともS/Nを左右するのは。収録の環境と目的の音源の音量です。もともと騒がしい場所、絶えず何らかの不要な音がしている場所での録音では、S/Nの良い録音はのぞめません。
一方、周囲が静かで目的の音が十分に大きく、しかも音源とマイクの距離を縮められるなら、ノイズと目的の音の比が大きくとれ、SN比はよくなります。
相対的に目的の音を大きく録音するためには目的の音源にマイクロホンを近付ける(雑音源を遠ざける)方法、またマイクロホンの指向性の鋭いものを用いるなどの方法があります。雑音の素性が目的の音とは高さの違う、特定の音域に分布したものならばイコライザー等の電気的な処理で低減するなどの方法もあります。しかしそういった電気的処理は必ず望ましからぬ副作用をもっています。
優秀なマイクロホンのもつSN比は120dB、テープレコーダーで60〜70dB、デジタルレコーダーで90dBと言われています。ただし少なくとも録音する場所のSN比が、機器よりも大きくないと、その性能を発揮することはできません。本サイトで紹介しているデジタル・ポータブルレコーダー一般のSN比は、専用の録音スタジオレベルの静かな場所と高品位のマイクロフォンでないと(スペック上は)真価を発揮できません。

●耳の音量感覚と物理的音量
1000Hzの純音の音圧レベルを基準に、これと同じ大きさに聞こえる他の周波数の純音の音圧をラウドネスレべルと呼びます。
各周波数の等しいラウドネスレベルを結んだ曲線を音の大きさの等感曲線と呼びます。

ここで読み取れることは、人間の耳は、1000Hz付近では物理的音圧と聴感的音圧がほぼ同率であるのに対し、高い周波数、あるいは低い周波数は感覚が鈍く、とくに低い周波数、とくに高い周波数は急激に鈍感になるということです。
つまり、耳ではそれほど聞こえなかった低音、高音も、マイクロホンは忠実にとらえ、録音しているということになります。実際、録音現場では気が付かなかった風(非常に低い音に相当)や空調の音、地下鉄の音などに後で気付くこともよくあります。

●近接効果

←典型的なボーカル用マイクロホンの(形状の)例

主に歌を録音する時問題になることですが、人の口のような小さな音源にマイクロホンを近付けると相対的に低音の出力が増加します。これを近接効果いって音源とマイクロホンの距離が近いほど顕著にあらわれます。
近接効果の現れる距離は、マイクの種類によっても違いますが、30センチくらいからのようです。

ボーカル用のマイクロホンでは、音源との距離が数センチの時に平坦な特性となるようはじめから近接効果を見込んで、低音域の感度を下げた設計がなされています。

点線がマイクロホンの素の特性。実線が音から1センチの時の特性。

●発せられた音の減衰は距離の2乗に反比例
ある一点から音が発せられたとすると、音は四方八方へ広がり、広がった分だけ減衰しながら伝わってゆきます。どのくらい減衰するかというと、距離の2乗に反比例して減衰することになります。

つまり、距離が2倍になると音圧は4分の1、実際には音源にも一定の大きさがあり、室内では反射音の影響もあるので理論通りにはいかないですが、音源から1メートルのところで聞いていた音が、2メートルでは4分の1に、逆に10センチにまで近付けば1,000倍の大きさになるということになります。実際にマイクロホンやレコーダーはこの近い音源と遠い音源の音の勢力関係を忠実に記録し再生します。しかし一方人間の感覚は距離の2乗に反比例---よりもっと緩やかな変化にしか感じられません。この感覚のズレが録音物に対する違和感を生じる原因と考えます。

●ダイナミックレンジ
ダイナミックレンジとは小さい音から大きい音に至る音量の較差・範囲であり、場合によりダイナミクスという言い方もされます。ダイナミックレンジは(一意の厳密な定義もありますが)対象となる音や状況によって色々な説明ができます。一例として楽器の出せるダイナミックレンジと環境音の音量感(音圧)を対比した図表を掲げます。

もうひとつ、ダイナミックレンジを説明するグラフとして、自然界の音の中で、可聴範囲と音楽と言語がどのような強さ、高さの音を扱っているのかを表したものを掲げます。

 

聴覚におけるダイナミックレンジは聴覚で聞き取りうる最小音量から、聞き取れる最大音量までの幅です。当然、小さい音は聞き取れない。また聞きとれる最大音量を超えると、物理的な音を大きくしていっても、感覚的には飽和状態というかそれ以上大きな音として感じられない状態になります。人間が音として感じる最小の音を1とすると、音として感じる最大の音はその10,000,000倍ともいわれています。
一般に、難聴になると小さい音(特に高い音)が聞き取れなくなる、すなわち可聴ダイナミックレンジが狭まった状態になったといえます。また一般にイヌは人間より微小な音を聞き取れる(耳がいい)といいます、反対にどこまで大きな音を変化のある音として感じられるのかわかりませんが、微少レベルでの感度が高いと言えると思います。
音楽・演奏のダイナミックレンジは、演奏者が意図して出しうる最小の音と最大の音の較差といえます。ですから、オーケストラは最大級にダイナミックレンジの大きな演奏形態といえます。比してリコーダーの独奏はダイナミックレンジが狭いです。(そーっと吹くと音が出ない、強く吹くと風切り音になってしまい演奏にならない) 
環境のダイナミックレンジは、その場所のノイズレベルに依ります。たとえば非常に雑音の少ない、静粛なスタジオでは、小さい音から大きい音まで扱えますので、ダイナミックレンジは広いと言えます。パチンコ屋や街頭等、雑音の多い環境では、小さい音は雑音に埋もれて聞き取れなくなってしまいます。たとえば会話するにも大声でないと聞き取ってもらえません。しゃべりに 抑揚をつけるためには更に大声を出さなければなりません。表現の幅は狭い。扱える音のダイナミックレンジが狭いということになります。
録音機器におけるダイナミックレンジは、録音機器に固有の雑音とこれ以上大きな音はその音の変化が記録できません、という、飽和レベルによってきまります。現実的にはマイクロフォン自体のダイナミックレンジ、レコーダーのダイナミックレンジ、録音メディア(フォーマット)のダイナミックレンジの総合されたダイナミックレンジということにります。それらが理想的に組み合わせられた場合、マイク、レコーダー、メディアのうちもっともダイナミックレンジの狭いもののダイナミックレンジがその録音システムにおけるダイナミックレンジとなります。
機器の性能で考えると、低廉なオーディオ機器は機器固有の雑音(何もしていない状態でも出る・聞こえるシィーというような雑音)が多く、大きな音も出ないしボリュームを上げるとすぐに音が割れる傾向にあります。一方大型高品位のオーディオシステムは機器固有の雑音も低く押さえられ、音量を上げても音質の劣化は緩やかです。つまりCDラジカセは実用的なダイナミックレンジが狭く、大型高品位のオーディオシステムは広いといえます。
自然界では、生物の聴覚や測定器の能力で検知できる範囲を超えた小音量も大音量もあると考えられるため、あえていうなら自然界のダイナミックレンジは無限大といえるかもしれません。もちろんこのダイナミクスを収録できるレコーダーはありません。
余談ですが、近年一般家庭用のDVD再生に重心を置いたオーディオ機器やカーオーディオ等において(メーカーによって表現は違いますが)「曲や盤によってばらついた音量を自動的に調整する」とか「小音量時に聴きやすくする」とか「ナレーションを聴き取りやすくする」とか、謳った機能が付加されている機器が開発されていますが、これは再生時に機械が勝手にダイナミクス調整を行うもので、音源に込められた本来有るべき抑揚を損う機能と言えます。

●周波数特性
自然界には、人が耳で音として捉えることができないような低い音から、聞こえないような高い音(いわゆる超音波)まで、上下に無限の周波数があると考えられますが、オーディオで一般に扱う「周波数特性」はその中の一定の範囲(一般に可聴周波数範囲と言われる20ヘルツから20,000Hz)の音の有り様を表します。周波数特性は横軸に音の高さ、縦軸に音の大きさを目盛ったグラフであらわします。
一般に人間の聴覚は20ヘルツから20,000Hzの音を聞くことが出来ると言われていますが、聴覚の特徴として、特に低いや高い音になると、その音の大きさの変化を敏感にとらえにくくなる性質があります。たとえば低い音、すなわち20ー30Hz以下の音になると、耳で音として感じるというよりは、肌にサササーっという感触があったり、耳元で髪の毛がフルフルーっと振動したり、ユラユラッっとした圧迫感というか眩暈のような感じがします。音と言うより空間の揺れ、風に近い感触です。日常の何かの爆発とか、地震とか、劇的に大きな振動にならないと通常では気が付きにくいです。
10,000 Hzくらいの音はいわゆるキーンとした感じ。15,000Hz以上になると、何かが鳴っているような感じはするけれど、音として聞こえている感触ともちょっと違う、耳の奥、頭が痺れるようなシィーーーンとした不快感としてとらえられる感じがします。(古い喩えになりますが)音を消したテレビが部屋のどこかでついている時、水平同期信号の15.75kHzが不快な高音を発生しているのに気付くときがあります。ADSLモデムも凄まじく不快な(大音量の?)高音を出します。高低いずれの場合も、音が鳴っていることはわかっても、一定レベル以上の音量にならないと聞き取りにくい、また音色の変化もわかりにくい特徴があります。
一方一番感度の高いのは特に人間の喋り声の帯域で、たとえば一般に電話の周波数特性は(ダイナミックレンジともに)身近にあるあらゆるオーディオ機器の中でも最低の部類であるといってもよいと思いますが、人は受話器の向こうの人の微妙な感情の変化をも、その声色から読み取ってしまいます。また楽器の演奏家は1Hzにも満たないきわめて微妙な音程のズレを敏感に感じています。楽器の出せる音域はやはり人間のもっとも敏感に感じとれる音域といえます。
前項のグラフの通り、人間が意志の疎通や表現として実際に扱っている音域は、可聴周波数帯域の低い方のごく一部です。しかし、意図的に出している音(音程)は低くても、音には様々な倍音が含まれておりその倍音の構成と倍音相互の勢力バランスが響き・音色の変化をつくっています。一般に金属のベル等のキンキンした音の出るものは極めて高い周波数に及ぶ倍音を豊富に含んでおり、その特有の音色を作っています。
オーディオ機器における周波数特性は極めて重要です、一般に周波数のFrequencyの頭をとってF特などと言ったりします。広い帯域はワイドレンジ、狭い帯域はナロウレンジなどといいます。

グラフは、私がポータブルレコーダーと組み合わせてよく使っている RODE/NT4の周波数特性です。低いほうは20Hzまでレベルダウンせずに伸びています。

オーディオ機器の発展はダイナミックレンジの拡大と周波数特性の広帯域化の歴史といえます。エジソンが最初に発明した鑞管式蓄音機は、凄まじい雑音の中から人の声らしきものがやっと聞き取れる感じでした。録再における周波数特性は極めてナロウで、きわめて大きな音しか刻み込むことのできないものでした。現在ではデジタルレコーダーの普及で、一般向けの安価な機器でもダイナミックレンジ90dB, 周波数特性も20〜20000Hzを謳っています。
ただ残念なことに、現実の市場で本サイトで紹介しているポータブルレコーダーと並んで売られている(一般家電市場にある)マイクロホンの性能は、実際録音し得る音声のスペックをかなり下回っています。上記NT-4のような「直流バイアス式コンデンサーマイクロフォン」を使うと、本サイトで紹介しているポータブルレコーダーがいかに優れた録音再生能力をもっているか、よくわかります。

このページのトップへ

トップに戻る