聴き手から、音源がどの位置にあるように感じられるかということを定位感と呼ぶ。ここでは、ヘッドフォンでの鑑賞を前提に定位の問題について触れてみたい。
以下の記事に現れる左右表現は、すべて聴き手から見た左右である。
以下のように、聴き手の前方45度に位置する音源からの音がどのように聴こえるか考えてみたい。
図中の青い点が音源、黒い円が頭部、赤い円が耳、青い線が直接音の経路(一部頭の中にめりこんでいるが、音が回り込むものと考えて無視する:回り込みによる経路の延長も考慮していない)両耳の間は20cm(0.2m)離れていると仮定した。
この後の説明と前後するが、左耳に届く直接音は回り込みによるものなので、低音ほど大きく、高音ほど小さく聴こえるはずである(耳から音源までの間を頭部が遮らない程度の角度であれば考慮しなくてよい)。
ここで、聴き手(両耳の中心点)と音源の距離を50cm(0.5m)、2m、10mとすると、直接音は以下のようになる(それぞれの図で単位の一部が違うため注意)。
図中に3つ並んだ数字は、到達距離、到達時間、両耳の中心に届く(はずの)音波と比べた音量である(音速は340m/sで計算した)。一応一覧にしておくと、
到達時間の差は0.4ms(=400μs)程度であまり変わらないのに対して、音量差は距離が近いほど大きくなっていることがわかる。つまり、到達時間差に比べて音量差が大きいと近く、小さいと遠く感じられるはずである。音量差は差分増幅によって、時間差はチャンネルディレイによってある程度の調整が可能(詳しくはちょっと変わった使い方のページを参照:reFuse SoftwareのMid-Side Suiteなどを使えば自動でもできる)。
網羅的な一覧はデータのページに譲るが、0.5~10mくらいのオーダーでは角度が到達時間の差を支配的に左右し、30度で0.5ms、45度で0.4ms、60度で0.3msくらいである。このオーダーのハース効果をスピーカで実現しようとすると、たとえば0.5msのチャンネルディレイが引き起こすコムフィルタ様効果は一番低いディップが1000Hz、0.3msのチャンネルディレイでも1667Hzとちょっとやっかいである(1msで音波が進む距離は34cm前後なので、距離的なコントロールもセンチ単位で求められる)。
ハース効果の現れ方にどれだけの個人差があるのかわからないが、少なくともヘッドフォンでリスニングする限り、ハース効果による定位はかなり強力で、また周波数によって感じ方が変わる。
たとえば、Fluidのスネアドラムを片チャンネルだけ抜き出してモノラル化したものと48000KHzサンプリングの1サンプル分(20.8333...μs)のチャンネルディレイをかけたものを比較すると、筆者はブラインドでの判別がつかない。しかし、それに1000Hz,+9db,1octのピーキングイコライザをかけてやるとブラインドでもなんとか区別がつく(モノラルとチャンネルディレイ:加工の誤差をさけるため、モノラルファイルにEQをかけてからトラックを複製しチャンネルディレイトラックを作った)。48000KHzサンプリングの2サンプル分(41.666...μs)ずらしてやれば、イコライザなしでもブラインドで容易に区別できる(サンプルファイル)。
またこのステレオファイルは、48000KHzサンプリングの5サンプル分(104.1666...μsだが、約0.1msだと捉えて差し支えないだろう)のチャンネルディレイをかけたうえでPANを反対側に33%振ったものだが、ヘッドフォン再生だとだいたいセンター近くの定位に聴こえるのではないだろうか。ドラムスのオーバーヘッドマイクなどで用いられる手法で、左の方が先に聴こえるのに音量は右の方が大きい、またはその反対、というパターンである。
スピーカ再生だと100μs=0.1msオーダー(音速340m/sとすると3.4cm分)の時間的再現性は望むべくもない(PAだと1msから「影響がある」と扱うことが多いようだ)ため、どこまで汎用性がある手法かはわからないが、たとえば「ドラムスとヴォーカルを両方センターに定位させたいが、ヴォーカルとスネアドラムの干渉が気になる」などといった場合に有効かもしれない(余談だが、ピュアオーディオ界隈の人たちが視力検査に使うような「頭部固定器具」をどうして使わないのか、理解に苦しむ:筆者ですら、厳密性が求められるテストをスピーカで行うときは、机に台を乗せてマウス用のパームレストを置き、その上に顎を乗せて頭が動かないようにしている)。
ただし、あまり極端なねじれ関係を作る(たとえば1msのチャンネルディレイをかけてPANを反対に60%振るなど)と、音が2つに分裂して聴こえる(たとえば右から小さい音が聴こえた後に左から大きい別の音が聴こえたように感じるなど)ため、やりすぎには注意したい。
低音は回り込みを起こしやすいので、どの方向から鳴っていても音量は大きく変化しないはずである(到達距離が伸びる分の損失だけと考えてよい)。高音は回り込みを起こしにくいので、角度によっては直接音がほとんど聴こえないような場合もあるかもしれない(到達距離が伸びる分の損失だけでなく、そもそも耳に音が入らない)。
左右のチャンネルから出力される低音の音量が大きく違うと、スピーカで聴いている分には勝手に回り込んでくれるのだが、ヘッドフォンだとかなりキモチワルイ音になる(本来回り込みで聴こえるはずの低音が聞こえないため)。
手の込んだやり方をするなら、到達距離の違いによる音量差をまず一括で削ってやって、その後音源から遠い方のチャンネル(の直接音)にハイカットのシェルビングイコライザをかけてやるとよいのかもしれない。ダミーヘッドを使って実験すれば、どの周波数がどのくらい回り込むのか確認できるのだろうが、筆者が調べた限りそのような資料は見当たらなかった。
なお、極端な高音は正面で鳴るよりも横(耳の奥が見えるくらいの角度)で鳴った方が大きく聴こえるはずである。
もう少し複雑な使い方のリバーブの項も参照。リバーブと定位には深い関わりがある。聴き手が部屋の中心に位置しているとすると、部屋の右側に位置する音源からの反響音は以下のようになる(赤い線がアーリーリフレクションの音)
図には記入していないが、天井や床に反射した音は壁に反射した音ほど左右の位置に影響を受けないため、左耳に届く音は比較的アーリーリフレクションがばらけて遅く、右耳に届く音は比較的アーリーリフレクションがまとまっていて早いことがわかるだろう(ただし、上の図で聴き手が部屋の左端近くに移動すると、アーリーリフレクションのばらけ方は両耳であまり変わらなくなる:また、部屋の幅に対して音源までの距離が長いと、左右の耳に入る反射音のタイミングのズレが小さくなる)。
なお「アーリーリフレクションが遅い」ということはそれだけ「長い距離を伝って届いている」ということで、距離減衰もその分大きくなるので覚えておこう。本来は「音源の後方(聴き手前方の壁)からの反射音」「右の壁に反射して左の耳に届く音」「左の壁に反射して右の耳に届く音」なども考慮する必要があるが、とりあえず上記を認識しておくべきである。
さらに、部屋の横幅に比べて聴き手と音源までの距離が近いと直接音とアーリーリフレクションおよびアーリーリフレクションとリバーブテールの時間差(ひいては音量差も)が大きくなり、遠いと時間差が小さくなる。
薄い赤線はリバーブテールの一部。凝ったイフェクトをかけるなら、アーリーリフレクションのみのリバーブとリバーブテールのみのリバーブをパラ出しして、それぞれ調整を施してミックスしてもよいかもしれない。
遠くからの音は直接音と反響音が入り混じって届くことになり、壁の材質が柔らかいほど反響時に高音が減衰するため、ハイを絞ってやると距離が遠くなった感じになる(反射回数が多い分、リバーブテールの方が強い影響を受ける)。また、距離が遠いほどさまざまな経路で反射した音が目立ち(近い場合直接音とアーリーリフレクションの方が目立つ)、さまざまな位相の反射音が入り乱れることになる(リバーブをかけると音が遠くなるように感じ、アーリーリフレクションだけだとそれほどでもないのは、これに起因すると考えられる)。
また、高域の音は波長が短く、経路のちょっとした違いで位相がずれ、反射音同士や反射音と直接音がぶつかったときに打ち消しあって減衰する確率が高い。このため、距離が遠いほど高域の周波数特性が乱れると思われる(特性グラフの凹凸が多くなる:安物のヘッドフォンなどで金物が後ろに下がったような聴こえ方になるのは、これが原因だろう)。
原則としては、
Greg SchlaepferさんのBinaural SimulatorというVSTプラグインを使用すると、上記のような演算を(ヘッドフォン用のみならずスピーカ用の設定でも)自動処理することができる。ヘッドフォン(右の耳に入る音と左の耳に入る音を明確に区別できる)での利用を前提にしているなら、手動でもある程度のことができるはずである。PAスピーカ2本とマイク2本を部屋の中で動かしてA-Bステレオの音を作れるシミュレータもあったはずなのだが・・・名前を思い出せない(Silverspike(RubyTubeのメーカー)のRoomMachine(RoomMachine 844の前のバージョン)だったような違ったような:StarplugsのRuntimePannerなどA-Bステレオシミュレータは他にもある)。
スピーカで再生する場合、左スピーカの音が右の耳に、右スピーカの音が左の耳に入るのを防げないし、聴き手の耳との位置関係も決め打ちできないため、あまり厳密に考えない方がよいかもしれない。また、左右の音量差を大きくするとヘッドフォンで再生した際音源が近く感じられる(すでに述べたように、距離が変わっても角度が同じなら左右の耳への到達時間差の変動は小さく、一方音量差の変動は大きい)。
まずはサンプルファイルをダウンロードして展開しよう。ヘッドフォンで再生しないと効果がわからない(場合が多い)のでそのつもりで。org.flacが元ファイルで、左右同じ信号が入っており、単なるモノラルと同じである。
haasで始まるファイルはハース効果のテストで、末尾の数字は左右チャンネルの時間差(単位はμs:たとえばhaas_50.flacは右チャンネルの音を50μs遅らせてある:右チャンネルの音を遅らせる以外の加工はしていない)。50μsでもかすかに、100μsでははっきりと定位の移動が認識できると思う。ちなみに、100μsというと音波が3.4cm進むのにかかる時間とほぼ等しい(スピーカ再生だと、このレベルでのチャンネルディレイはあまり意味がない)。
teii_eq.flacは、イコライザでハイを削った音(適当に操作したが、多分1db/1octくらい)。オリジナルファイルと比べて遠くで鳴っている感じに聴き取れるはず。teii_pan.flacは、右チャンネルのみ音量を6db下げたもの。低音の楽器ほど妙な聴こえ方になると思う(スピーカで再生すれば、シンバルのみ左に動いたように聴こえるはず)。
teii_pd.flacはプリディレイのテストで、1番目はプリディレイなしのリバーブ、2番目はプリディレイありのリバーブ、3番目は1番目の左チャンネルと2番目の右チャンネルを合成したもの(プリディレイ以外のリバーブ設定は同じ)。1番目の音よりも2番目の音の方が距離感が明確で、3番目の音は左の壁が近く右の壁が遠い感じになっている。
音楽用には飛び道具的な使い方しかしないだろうが一応可能、という話その1。
一般には、聴覚上の上下の定位はない(あるいは音以外の条件で簡単に覆るほど弱い)ことになっているらしい。たとえば、音源が上下に移動するのを目で見ると、音自体は全く変わらなくても、音源が上下に移動したように感じる(定位の解釈は脳の高次野で行っているため、聴覚以外の情報も総合して知覚する)。
聴覚上の上下の定位はないことになっているとはいっても、音源が真上くらいまで移動すれば耳の正面から音が入りにくくなるため、ハイが減衰するのではないかと思われる。また、実際の室内を音源が上下移動した場合、天井や地面との距離が変わり、初期反射のばらけ方が変わるはずである(もう少し複雑な使い方のリバーブの項を参照)。たとえばMildonstudiosというサイトで配布されている3D Pannerというプラグイン(Audacityで動くかどうか確認していない)を使うと、上下の定位を擬似的に発生させられる。
ちなみに、聴き手が下を向いているときは床からの反射音が、上を向いているときは天井からの反射音が聴こえて音質が変わるはずだが、ヘッドフォンをしている場合はこれがまったく変化しない。このため、ヘッドフォンで音楽を流しながら目を瞑ったまま頭を上下に動かすと、奇妙な感覚を味わえる(左右に動かしたときほどではないが)。
音楽用には飛び道具的な使い方しかしないだろうが一応可能、という話その2。
実用上は、ルームシミュレータ(ルームリバーブのことではなく音源位置とマイク位置を指定可能なデジタル処理のもの)をかけるくらいしかない。たとえばProximityやSpace360というプラグイン(Audacityで動くかどうか確認していない)を使うと、遠近の定位を擬似的に発生させられる。
音楽用に使わないというのは、通常音楽に用いるような定位設定だと音源はほぼ横並びになっている(音が変わって聴こえるほど離れない)ため前後にずらす意味がないから。ありえるとしたらビッグバンドやオーケストラをあえてオンマイクで録った場合(というのもやっぱりナンセンスだなぁ)くらいだが、室内前提なら上記のようにルームシミュレータを使うのが一番である(別に実物のコンサートホールに行って根気よくIR測定してもいいけど)。ただし特殊効果としては、はっぴいえんどが「抱きしめたい」で使ったりと、例がないわけではない。
もし「マーチングバンドが遠くからやってくる状況を再現したい!」とかいうレアな需要がある場合は・・・直接音は「ハイ抜け」(空気のf特によるもので、白っぽいはずの太陽の光が大気の影響で青や赤になるのと同じ:オマケ3を参照)で、反射音は地面の質と地形を考慮、風の影響で音量が不規則に変化することも忘れずに(音の進行方向に対して向かい風だと距離が遠くなったのと同じ効果、追い風だと近くなったのと同じ効果になる)、といったところだろうか。
単純に「変な加工をやらかして音が遠くなった」場合、ハイを持ち上げれば多少誤魔化せるが、あくまで悪あがきなので失敗したところまで戻って改めて作業した方がよい。オンマイク録音の音(当然「間近で鳴っている音」が録れているはず)を遠くするのは、反響音の項で触れた事柄に注意しつつ無難にリバーブやルームシミュレータをかけておけばさして難しくない(乱れた高域特性を復元するのはほぼ不可能だが、逆は簡単:というか、あえて遠ざけなくても問題ない場合が多い)。
音楽を長くやっている人でなくとも、空気で「音が変わる」ことは経験的に承知していることだろう。これを理屈で考えると、結局空気の伝達関数を問題にしていることになる。
専門的な話は東京大学の研究速報や東京都立産業技術研究所研究報告の報告書が詳しいが、だいたい1KHzくらいから上が指数関数的に音響吸収されやすく、高域の吸収率は低温乾燥であるほど高くなる傾向を示す。
この高域の振舞いは酸素分子の関与が強いようで、酸素を取り除くと比較的フラットな特性になるらしい(ピュアオーディオに命をかけていて40KHzくらいの超音波が大好きな人は、今すぐ窒素充填機とガスマスクを買いに行こう)。酸素以外の影響については詳しい資料が見つからなかったが、イメージ的に、ホコリっぽい空気は吸収がよさそうな気がする(気がするだけ)。
まあ細かい理屈は置いておくとして、酸素が20%くらい混ざっている場合、空気中では高音ほど減衰が早く、低温ないし乾燥しているとその傾向が強くなる(実測するとリニアな相関は示さないので語弊があるが、だいたいにおいて:1KHzくらいの周波数だと温度や湿度の影響はあまり受けず、4KHzくらいから明らかに影響を受けるようだ)ということになる。