筆者はド文系で、高校程度の数学も怪しいところがたくさんあり、変なことを書いている可能性があるので注意。エンベロープ、アナログ回路、デジタル音声データなどの用語はその他のページで紹介しているものもある(フーリエ変換、関数窓、データ補間などについても、図入りの実例を掲載している)。サイン波・のこぎり波・矩形波などの波形については、音が出る原理のページ、演奏用語(同じ言葉でもイフェクト用語とは意味が異なる場合がある)については演奏用語のページを参照。
デシベル(decibel/db/dB)
元は仕事率の常用対数に10をかけたもので、比を表す。オーディオ分野では電圧または音圧の常用対数に20をかけたものとして扱うことが多いが、仕事率(W)は電圧(V)の2乗に比例するので同じ意味である(あくまで仕事率が何倍になるかが問題で、もし電圧が100倍なら仕事率は10000倍だから(log[10]100^2)*10=40db、と計算する代わりに(log[10]100)*20=40dbと計算してしまう、ということ)。常用対数の20倍で計算する場合、log[10]2≒0.301、log[10]3≒0.477、log[10]5≒0.699とすると、2倍なら6.02db、5分の1なら-13.98dbなどとなる。2倍≒6dbという関係は覚えておくとよい。「1Bの10分の1」という意識がある場合は「dB」とBを大文字で書くことが多い(「B」はフルスペルだと「bel」で、グレアムベルの名前から取られた)。
デシベル表記いろいろ
電気信号では1mWの電気を流す電圧が0dbで、600Ω系の回路(入力インピーダンスも出力インピーダンスも600Ωの回路のこと:アナログ電話や古いオーディオ機器など)では0.775V(普通は正弦波@1KHzの実効値)になる(とくにdbmという表記をする場合があり、1W@600Ωとなる電圧=30dbmを0dbWと書くこともある)。開放端電圧の場合はdbuまたはdbvと書く(0.775V@開放端で0dbu、入出力のインピーダンスを元に計算すれば、実際の電圧がわかる:最近のオーディオ機器は600Ωでインピーダンスマッチングをせず、1KΩで出して10KΩで受けるような場合が多いため、dbu表記の方が好まれる)が、似た表記のdbVは1V@開放端が0db(0dbm@600Ω系≒6dbu≒3.56dbVになるはず:0dbu≒-2.44dbV、0dbV≒2.44dbuという関係も、覚えておくと便利かも)。50Ω系の回路(無線機の内部回路など、高周波を扱うもの)では1mW@50Ωを0dbmとする場合もあるようで、その場合0dbm=0.224Vとなる(50Ω系ではdbμという単位もよく用いられ、日本では0dbμ=1μV@50Ωで0dbm=0.244V≒107dbμとなるが、アメリカでは0dbμ=1μV@開放端を指すことがあるらしく、その場合0dbm@50Ω系=113dbμ@開放端で計算しなければならない)。dbvとdbuの使い分けについては、dbVはよく使うがdbμはほとんど使わない600Ω系ではdbuが、dbμはよく使うがdbVはほとんど使わない50Ω系ではdbvが、それぞれ紛らわしさ回避の観点で好まれるようだ(600Ω系でdbvを使うことがないわけではない:dbVをdbsと書くこともある)。騒音評価では0.00002Pa(=20μPa)@1KHz実効値が0db(とくにdB SPLと書くことがあり、1Paで94dB SPLくらい:「SPL」は「sound pressure level」の意)で、A特性による重み付けをしたものはdB(A)またはdBA(A-weighted sound pressure level in dbの略:周波数補正の詳細については小野測器という会社の解説が詳しい)と称する。デジタル音声の場合最大音を0dB FS(「FS」は「full scale」の意)とすることが多い。ちなみに、VU(Volume Unit)メーターは普通4dbm(≒10dbu≒7.56dbV)の電圧で0VUを示し、dbと同じく10倍で20VUになる(IEC 60268-17などの規格で、信号入力から針の応答まで300ms、表示範囲は-20VU~+3VUなどと規定されているらしい)。
音圧(sound pressure/sound pressure level)
音は空気の粗密波で、気圧の変化幅(Pa)を実効値(後述)で表したものが音圧にあたる。桁が大きくなるので、普通デシベルで扱う。このとき基準値に注意が必要で、たとえば20dbの騒音というと人間が聞き取れる最小音(2*10^-5(Pa))の10倍の音圧(実効値)をもった粗密波のことだが、デジタルオーディオで-12dbの振幅といえば最大音圧の1/4の振幅で、値も振幅(ピーク値)を使うことが多い(もちろん、実効値を使うこともよくある)。明示したい場合は、前者の意味なら「dB SPL」、後者の意味なら「dB FS」と書いてやればよい(デシベルの項目を参照)。圧力と力と仕事率とエネルギーの関係について、1Pa = 1N/m^2、1W = 1N*m/s、1J = 1N*mなので、圧力(Pa)を面積(m^2)で積分すると力、圧力(Pa)を面積と変位(m^3)で積分するor力(N)を変位(m)で積分するとエネルギー、圧力(Pa)を面積と変位(m^3)で積分して時間(s)で微分するor力(N)を変位(m)で積分して時間(s)で微分すると仕事率になる。
リニア(linear)
英語で「直線の」という意味。(指数関数や対数関数などではなく)1次関数のグラフで表されるような相関関係についていう。たとえば、一辺Xcmの正方形の1辺の長さと周の長さはリニアな関係だが、1辺の長さと面積はリニアな関係でない。また、(音声データのように)時間軸を持ったデータを元の時間軸にしたがって編集することをリニア編集、そうでない場合をノンリニア編集という(厳密に区別できるようなものではなく、編集対象の音声を再生しながらでないと編集できないようなやり方ならリニア、再生しなくても編集できるようなやり方ならノンリニア、くらいの感覚的な使い方であることが多い)。
アンプ/増幅/増幅器(amp/amplify/amplifier)
信号の強さ(振幅)を変えること。イフェクタでは普通デシベルを使って増幅の割合を表す(振幅が3.16倍=仕事率が10倍になる=10db増幅されると、人間の耳には音量が約2倍になって聴こえる)。増幅のための装置(増幅器)のこともアンプと呼ぶが、こちらは種類がいろいろあって面倒(用途や方式が違うだけで、どれもアンプには違いないことから、わからなければ単に「アンプ」と呼んでおけばいい)。
周波数(frequency)
振動の周期を、1秒間に波が往復する回数で表したもの。音波では周波数が2倍になると音程が1オクターブ上がる。440Hzの音をA4(中央のCのすぐ上のA)にすることが多い。
スペクトラム(spectrum)
「範囲で分けたもの」というのが原義で、波動を(後述のフーリエ変換などを行って)周波数ごとの成分に分けたもの。スペクトルを分析する装置をスペクトルアナライザー(略してスペアナ)という。形容詞形の「スペクトラル」も「FFTを利用した」とか「各周波数成分を独立に扱う」といった意味で用いられる。
ハイ(high)
高音のこと。ハイだけを通すフィルターのことをハイパスフィルター(HPF)もしくはローカットフィルターという。波動関数を微分すると完全にリニアな特性の1次ハイパスフィルタ(f特のグラフが直線になる)をかけたのと同じことになる。
ロー(low)
低音のこと。ローだけを通すフィルターのことをローパスフィルター(LPF)もしくはハイカットフィルターという。ハイ/ローパスフィルタのカットオフ周波数は-3dbの減衰がある地点を指定するが、これは、ネットワーク回路(アンプからの信号を分岐させて、ウーファーにはハイパス、ツイーターにはローパスをかけてから渡す回路)で-12db/octのフィルタを-3dbクロスの逆相入力で使うことが多いからだと思われる。波動関数を積分すると完全にリニアな特性の1次ローパスフィルタ(f特のグラフが直線になる)をかけたのと同じことになる。
閾値(threshold)
「いきち」もしくは「しきいち」と読む。その値を境になにかが変化するという基準。イフェクタの場合、何かの値がこの基準を超えるor下回るとスイッチがオンオフされる。たとえばピークコンプレッサーの閾値を-10dbに設定した場合、音量が-10dbを超えるとコンプオン、下回るとオフになる。
ミュート/消音(mute)
読んで字のごとく音を消すことだが、楽器により動作が違う。たとえばピアノなら鍵盤から手を放すとダンパという装置が動いて音を止めるし、ハイハットシンバルではペダルを踏んで音を消す。鳴っている音を止めるだけでなく、最初から音が鳴らないようにすることもミュートという(ギターやベースでは、鳴らしたくない弦を手で軽く押さえて音が出ないようにすることが多い)。またとくに打楽器では、音を長く響かせないためのセッティングをミュートと呼ぶことがある(バスドラムのフロント面に穴を設けるとか、ドラムの中に毛布を入れるなど)。弱くミュートすることをハーフミュートと呼ぶこともあるが、楽器ごとにいろいろと呼び分けている例が多い(ギターのブリッジミュートとか、ピアノのハーフペダルとか)。
エンベロープ(envelope)
英語で「封筒」「包み」のことだが、シンセ用語だと「音の強さを縦軸、時間を横軸にとったグラフ」のこと。
アタック/立ち上がり(attac)
効果や変化が現れるまでの時間の長さ。たとえばピークコンプレッサーなら、音量が閾値を超えてからコンプがかかり始めるまでの時間。エンベロープにおいてアタックタイムというと、音が出始めてから音量が最大になるまでの時間。
ディケイ/減衰(decay)
文字通り減衰を表す。エンベロープにおいてディケイタイムというと、音量が最大になってからサステインレベルに落ちるまでの時間。
サステイン(sustain)
持続音(ピアノで鍵盤を押しっぱなしたときに出続ける音など)のこと。エンベロープにおいてサステインレベルというと、出続ける音の音量のこと。
リリース(release)
効果や変化が消えるまでの時間の長さ。たとえばピークコンプレッサーなら、音量が閾値を下回ってからコンプがかからなくなるまでの時間。エンベロープにおいてリリースタイムというと、サステインレベルから(ミュートをかけて)無音になるまでの時間。
ドライ(dry)
イフェクトをかける前の音。
ウェット(wet)
イフェクタが発生させた音。
キーイン(key in)
閾値の判断基準を入力するチャンネルのこと。たとえばコンプのキーインにバスドラムの音を入力すると、バスドラムの音量が閾値を超えたときだけコンプが作動し、加工対象の音量がどんなに大きくなってもバスドラムの音が小さければコンプは作動しない。この機能を持つイフェクトを「サイドチェイン」と形容することがある(たとえばキーイン機能があるコンプをサイドチェインコンプと呼ぶなど)。また、キーインに入力するシグナルを「トリガー」と呼ぶことがある。
ダンプ(damp/damping)
英語で「湿らせる」「邪魔する」の意味だが、イフェクタ用語では振動を止めること(制動・制振)を表す。リバーブのパラメータなどでは帰ってきた山彦の弱まり方を指し、とくに高音に注目して言うこともある。楽器でも、ピアノの弦の振動を止める装置がダンパ、ダンパを動かすペダルがダンパペダルと呼ばれる。
バイパス(bypass)
迂回回路もしくは迂回スイッチのこと。本来通るはずの回路を通らずに信号を外に出してしまう。イフェクタの場合、バイパススイッチがオンになっていると、イフェクトをかけずに入ってきた音をそのまま出力する。
LFO/低周波発生装置(Low Frequency Oscillator)
装置としては文字通りの意味だが、発生した低周波の利用法はさまざま。音量の制御に使ってトレモロをかけたり、音程の制御に使ってモジュレーションをかけたり、ディレイタイムを制御してフランジャーやコーラスを作ったり、その他いろいろ。
RMS/実効値(root-mean-square/Effective value)
日本語に訳すと「2乗して平均した平方根」だが、文字通りの意味。交流の電圧を直流に換算したものをいう。電圧をE、抵抗をRとすると、電流はE/Rなので電力P=E^2/Rとなり、これを時間で積分してから積分区間で割り(つまり平均して)平方根を取ってやると「同じ電力(仕事率)を生む直流電圧」つまりRMSを求められる(交流の電圧と実効値の比を考える場合、Rは約分されて消えるので最初から1と考えることが多い)。なお、上記のように「ある値を2乗してから積分すること」を自乗積分という(オーディオ分野の電気関連に限れば「交流電力を求めること」と同義だと考えてよい)。RMSはあくまで「区間平均」である(積分区間の取り方で値が変わる)ことを覚えておきたい。
平均値(Average value)と波高率(Crest Factor)と波形率(Form factor)
平均値はそのままの意味で、自乗積分しない素の平均値(ただし電圧がマイナスになる部分があると面倒なことになるので、半周期で考えたり絶対値で考えたりする)。波高率は最大振幅を実効値で除した値。振幅と周波数が同じなら、波形が鋭い(=最大電圧に近い電圧になる時間が短い)ほどRMSは小さくなる、つまり波高率が高くなる。波形率は実効値を平均値で除した値。やはり鋭い波形の方が大きな値になる(突出して大きな電圧があると、自乗積分するときに値が膨れるため)。振幅1のときの実効値と平均値と波高率と波形率は、正弦波で1/√2≒0.707と2/π≒0.637と√2≒1.41とπ/(2√2)=π/√8≒1.11、矩形波で1と1と1と1、三角波と鋸波で1/√3≒0.577と1/2=0.5と√3≒1.73と2/√3≒1.16になる。
リサジュー(リサージュ)曲線(図形)/ボウディッチ曲線(図形)(Lissajous curves (figure)/Bowditch curves (figure))
単振動を2つ用意して、片方を縦軸、もう片方を横軸にした平面図形。周波数が同じで位相差がゼロだと直線、完全に逆相だと真円になるという性質を持っている。オシレーターの出力と測定器の出力を入力して、単純な図形ができるようオシレータの周波数を調整すると、測定器に入力されている波動の位相や周波数を知ることができる(比較法)。
レゾナンス/共振(resonance)
共鳴音のことで、たとえばピアノでC4の鍵盤を叩くと(その倍音である)C5やG5の弦も震えて音を出す(ダンパペダルを踏んでいるとよくわかる)わけだが、これを再現したイフェクタをストリングレゾナンスなどという。音に限らず共鳴や共振などを広く指すこともあり、たとえばハイ/ローパスフィルタにおいては、カットオフ周波数(通常の閾値ではなく3db減衰する周波数で指定する)周辺の持ち上がり方またはその影響を指す(ショルダーともいう)。ハイ/ローパスフィルタの代表例として、f特がなだらかで自然な「曲線」になるベッセルと、やや歪みがあるもののシャープな「角」になるバタワースがあるのだが、前者よりも後者の方がQが大きい(=共鳴が出やすいというか、フィルタにつられて副作用的に変化する成分が顕著になる:Qについては後述)。ベッセル/バタワースについては、オリックス・レンテックという会社の測定器玉手箱というサイトに、わかりやすい解説がある。
グループディレイ/グループ遅延/群遅延(group delay)
フィルタを通したとき周波数によって位相のずれ方(位相歪み)が異なるが、それをグラフにしたものだと思っておけばだいたい問題ない。物理学的には位相特性を周波数で微分すると群遅延特性が得られるらしい(東京工科大学の渕一博さんという方の解説が詳しい:その1、その2)。たとえばハイ/ローパスフィルタだと、ベッセルフィルタのグループディレイは非常になだらかな変化になる。群遅延特性が周波数に対してフラットであることを線形位相(または線形位相推移:linear phase)、理論的に可能な範囲でもっともバラけ方が小さいものを最小位相(または最小位相推移:minimum phase)と呼び、最小位相はFIRなどを利用すると比較的簡単に近似できるらしい(情報通信メモというサイトの解説や、未確認飛行 Cというサイトの解説が詳しい)。
半値幅(Width at Half Maximum)
本来の振動の半分の仕事率をもった共振が発生する2点(3dbドロップポイント)を取って、その周波数の差を半値全幅(Full Width at Half Maximum)、さらに半分にしたものを半値半幅(Half Width at Half Maximum)、音声関連で単に半値幅というと半値全幅であることが多い。オクターブでも扱えるが、素の単位がHzであることに注意。
Q/共振鋭度/尖鋭度(Quality/Quality factor)
共振(レゾナンス)の広がり方を示す。数学的には、半値幅法(Q=もとの周波数÷半値幅)などで求める。たとえば、aHzの波が1オクターブ離れた周波数(つまり1/2aHzと2aHz)で振幅-3dbの共振を起こしていた場合、半値幅は2a-1/2a=3/2aになり、aをこれで除した値(係数部分の逆数)である2/3=0.66...がQになる。ということで、Qが0.67のスピーカを使い周波数1000Hzのサイン波を-9dbの強さで出してやると、500Hzと2000Hzの音波が(共鳴によって)-12dbの強さで検出されるはず(共鳴の仕方が高音側と低音側で対称だった場合)。Q=0.577で半値幅2.26oct(ベッセル)、Q=0.707で半値幅1.9oct(バタワース)、Q=1.414で半値幅1oct、Q=2.871で半値幅0.5octという関係は、一応覚えておくとよい(網羅的な情報や計算式はデータのページを参照)。
複素正弦波(complex sine wave)
時間tにおける正弦波の振幅はs(t) = sin(ωt)(ただしωは位相を表す)と表現できる。ここにオイラーの公式e^i*θ = cos(θ) + i*sin(θ)(ただしiは虚数単位)を適用すると、s(t) = (e^(i*ω*t) - e^-(i*ω*t)) / 2iが得られ、この形で表現したものを複素正弦波と呼ぶ(暗黙に「複素平面における単位円上の点の実軸座標」=「偏角θに対するsin(θ)」であることを意識している)。この書き換えを行うのは、例によって計算を容易にするためで、式から三角関数がなくなる(指数関数の計算に置き換えられる)のがポイントである。オイラーの公式はテイラー展開(無限回微分可能な関数から負冪の項を持たない冪級数(=テイラー級数)を得ること:たとえばf(x) = sin(x)のような式を、f(x) = sin(x) = Σ[∞, n=0] ((-1)^n / (2n + 1)!)x^(2n + 1) = x - (1/3!)x^3 + (1/5!)x^5 - (1/7!)x^7...(ただし角括弧は数列の範囲を表す)などと展開する)の特殊形であるマクローリン展開というのを使って証明でき、θ = πのときの関係e^(i*π) = -1をとくにオイラーの等式という。ちなみに複素余弦波はc(t) = (e^(i*ω*t) + e^-(i*ω*t)) / 2である。
ラプラス変換(Laplace Transform)
sを変数として、時間tの関数f(t)に自然対数の底eの-st乗をかけて区間0~∞で積分する作業もしくはその結果をいう。式で表すとF(s) = ∫[0 ∞] f(t)*e^-st dt となる(角括弧は積分区間を表し始点は任意、とくに0~∞の場合を片側ラプラス変換、-∞~∞の場合を両側ラプラス変換という)が、これを簡略化してL(f)などと書く(Lは筆記体のL)。東北工業大学 情報通信工学科 中川研究室というページに非常に親切な解説があって、そこに「ラプラス変換の微分法則は、微分をsの掛け算に、2階微分をsかけるsの掛け算に、3階微分をsかけるsかけるsの掛け算に、置き換えられる技です。当然、積分はsの割り算になります。」とあるが、ラプラス変換>演算>ラプラス逆変換としてやることで、演算の手間が減る(ラプラス逆変換の際にsは消えるので、「sって何」ということは気にしなくてよい)。f(t)=t^nのときF(s)=n!/s^(n+1)という性質がある(重ね合わせ可能)。ラプラス変換を離散データに応用したものはZ変換と呼ばれる。なお、ラプラス展開(余因子展開とも呼ばれる)は行列式の計算方法でラプラス変換とは別物。
フーリエ変換(Fourier Transform)
フーリエ級数展開の周期を無限大にしたもの、あるいはラプラス変換から過渡的な現象に関する情報を落とした特殊形(結果的にそうなっているだけで出発点はそれぞれ別らしく、20世紀に入ってから「ヘヴィサイドの演算子」を検証したときにみんなが共通点に気付いたんだとか何とか)。式で表すとX(f) = ∫[-∞ ∞] x(t)*e^-jωt dt となる(ただしω=2πf、fは周波数、角括弧は積分区間を表す:とくに物理方面では、電流を表すIと紛らわしいので虚数単位をjで書き、周波数を表すfと紛らわしいのでF(f)やf(t)ではなくX(f)やx(t)と書くことが多い)。変換により、元の波形は周波数が異なるサイン波(スペクトル)の和として扱われる(もともと時間tの関数f(t)であった波形を、連続的に変化する角周波数(連続角周波数)ωの関数F(ω)に変換する:かつのへやというサイトに「正弦波とf(t)をかけ算したものを積分」「AM変調して直流電圧を測るのと同じ事」という素晴らしくわかりやすい解説がある)。周波数領域で無限の定義域をもつ関数(たとえば矩形関数:基音の奇数倍音が無限に重なっている)を展開する場合、計算量が無限大になり、どこかで打ち切らないと終わらない(=無限に続く多項式になる)。次以降の項目やその他のページも参照。
離散フーリエ変換(Discrete Fourier Transform/DFT)と離散時間フーリエ変換(Discrete-Time Fourier Transform/Discrete-Term Fourier Transform/DTFT)
フーリエ変換を離散(デジタル)データに応用したもの(Z変換との関係も、ラプラス変換とフーリエ変換の関係と多分似たようなもの)なのだが、DFTとDTFTで扱いがちょっと違う。普通のフーリエ変換(連続フーリエ変換)も含めて、時間領域の情報を周波数領域の情報に変換することには変わりないが、入出力の形式(と、必然的に演算手順と出力の形式)が異なる。連続フーリエ変換ではフーリエ級数(離散スペクトル)が、DFTでは複素数列(級数でない)が、DTFTでは連続スペクトルが得られる・・・のだと思う(多分)。
高速フーリエ変換(Fast Fourier Transform/FFT)
DFTを高速に演算する手法。離散フーリエ変換の計算量は二乗関数のオーダー(n^2のオーダー:nが十分大きい場合、n個のサンプルに対する計算量と比較して、2n個のサンプルに対する計算量は4倍になる)であるが、高速フーリエ変換ではサンプル数を2のべき乗に限定することで線形対数オーダー(n*log(n)のオーダー:nが十分大きい場合、n個のサンプルに対する計算量と比較して、n^2個のサンプルに対する計算量が2n倍になる)の計算量になる。計算結果は一致する。
短時間フーリエ変換(Short-Time Fourier transform/Short-Term Fourier transform/STFT)
フーリエ変換には(式を見ればわかるように)無限区間の積分が必要である。しかし実際には無限長のデータを用意できない(矩形関数など、実測値でない理論的な関数を変換するなら話は別)ため、任意の地点(離散値の場合はサンプル数)で区切って無限にループするとみなすのだが、ループの「継ぎ目」が不連続になる(値が飛ぶ)という問題が生じる。そのため、ループ1回分の時間で0から正の値を通って0に戻るような関数(窓関数と呼ばれ、一般には余弦関数や矩形関数などが用いられる)を用意して、ループ前の関数に乗算してから計算する。ある区間に窓関数をかけてループを作りフーリエ変換、すぐ後の区間にまた窓関数をかけて・・・と繰り返すのをとくに短時間フーリエ変換と呼ぶ。フーリエ変換をすると経時的な情報が失われると説明したが、細かい区間に分けて何度も変換することで、スペクトル成分の経時的な変化をある程度追うことができる(前の項で触れたように、サンプル数をあまりに広く取ると計算量が非現実的になるので、演算上必要な処理でもある)。このとき、区間を広めに取ると周波数情報の精度が、狭めに取ると時系列情報の精度が高くなるが、両者の不確かさの積は常に1/2以上になる(フーリエ変換の不確定性原理と呼ばれる)。実用的には、たとえばデジタル音声をリアルタイムスペアナにかける場合、フーリエ変換のサイズ(1ループ分のサンプル数)を大きくするとスペクトラム表示の精度が上がるが、情報が変化したときの追従性が悪くなる。
その他の変換法
DCT(Discrete Cosine Transform/離散コサイン変換)はDFTの特殊形(実数部分を取り出したもの:アカデミア・ノーツというサイトの工業数学の基礎という記事が詳しい)、これをさらに修正したMDCT(Modified Discrete Cosine Transform/変形離散コサイン変換/修正離散コサイン変換)がMP3やAACやVorbisに使われている(それぞれ採用している窓関数が違い、MP3はsine窓、AACはカイザー窓をもとにしたらしいカイザーベッセル派生窓、Vorbisはy = sin{π/2 * [sin(π * x)]^2}という独自のVorbis窓を使っている)。DFTが複素数演算(ペンティアム互換CPUなどはこれが苦手:GPUは得意なので今後GPGPUの普及などで事情が変わってくるかも)になるのに対しDCTでは実数演算になり処理速度が速く、低周波数域の再現性が高いのが有利なようだ。ウェーブレット変換(Wavelet Transform)は、フーリエ変換が周波数の異なるサイン波の重なりとして波形を捉えるのに対し、波形をウェーブレット(短時間でゼロに収束する小さな波形を適宜変形したもののことだと思う、多分)の集まりとして捉えるようだ(破裂音など時間が短い音の解析に適する反面、持続的な音の解析は苦手)。これを応用したDWT(Discrete wavelet transform/離散ウェーブレット変換)と、バンドパスフィルタとして使われるQMF(Quadrature Mirror Filter/直交ミラーフィルタ:基準周波数以上と以下の成分にスッパリ切れるため急峻なフィルタを作れるが、不確定性原理による誤差は当然存在する)に関連があるらしいのだが、筆者は理解できなかった。いづれの変換方法も、信号を扱いやすい成分に分解するという点では共通している(のだと思う)。事前確率の知見の応用として、最大エントロピー原理(確率変数Xが条件Iを満たし、かつそれ以外の条件がないとき、Xの分布を条件Iのもとで不確かさ(エントロピー)が最大になるよう選ぶという考え方)を利用し、Wiener-Khintchineの関係式を条件に情報エントロピーを最大にするようなスペクトルを推定する、最大エントロピースペクトルアレイ法という解析方法もある。
周波数特性/f特(frequency property/frequency response/frequency characteristic)
数学的には「時間領域信号をフーリエ変換したもの」のことで周波数fの関数になる。イフェクタ関連の用語としては、とりあえず、「同じ振幅で周波数の異なる入力に対して出力の振幅がどうなるかを、周波数を横軸にとってグラフにしたもの」と考えておけばよいのではなかろうか(厳密に考えると、これは「入力のf特と出力のf特の比」のことである)。当然、平坦なグラフになってくれた方が嬉しいわけで、イコライザはもともとそのための装置である(が、あえて起伏させるためにも使える)。
雑音/ノイズ(Noise)
文字通りの意味ではあるのだが、暗黙に「伝達/記録すべきシグナル」が定義されていることを前提とし、入力と出力が同一であることが期待される場合にはとくに、入力に対する出力の誤差を指す(「入力そのもの=シグナル」と前提していることになる)。たとえばアナログ電気信号の場合、出力から入力を引いた差(普通は相似な増幅を除く)がノイズになる。このとき、両者の電力を比較すると結局平均自乗誤差(=自乗積分誤差)を計算しているのと同じことになる(S/Nの項やRMSの項も参照)。
歪み(Distortion)
入力に対して出力が線型な応答を示さない(非線型な応答を示す)現象のこと。ノイズとの違いを厳密に考えると面倒なことになるが、ノイズは「伝達/記録すべきシグナル」の分別を、歪みは「入力が線型変換を受けて出力されること」を前提とした言い方である。オーディオ関連では、入力に対して一定の規則性(たとえば周波数が入力周波数の整数倍であるとか)を持ったノイズのことだと考えて差し支えないことが多い。「ゆがみ」ではなく「ひずみ」と読む。
全高調波歪(Total Harmonic Distortion/THD)
アンプなどに入力信号(普通は正弦波)を与えた場合の、出力に乗る高調波ノイズ(ほとんどの場合奇数倍音成分が主だが、入力信号より高い周波数の音すべての合計値を示すのが普通)の大きさ。デシベルでなくパーセントで示すことが多く、0.3%を超えると知覚できる人が出てくるらしい(プロ用マイクのカタログなどを見ると、0.5%くらいまでは許容範囲っぽい)。IM歪(intermodulation distortion/相互変調歪/IMD)といって、周波数f1の正弦波と周波数f2の正弦波を同時に(和音で)入力したときに出てくる、周波数f=f1-f2(ただしf1>f2)を基音とした奇数倍音ノイズもある(THDの測定は単発の正弦波で行うことが多く、別途測定しないとわからないことがほとんど)。機器のカタログなどに「THD+N」とあるのは「Total Harmonic Distortion Plus Noise」の略で、THDとノイズを合算した値。
過渡特性/トランジェント/ステップ応答(transient property/transient response/transient characteristic)
入力が瞬間的に変化した場合(波形が階段状になる)の、出力の時間応答性のこと。これもラプラス変換によって求められる。たとえば、入力が0から1に(瞬時に)変わったとき、出力も0から1にぱっと変わるわけではない(0から始まって徐々に1になるような、過渡的な変化をする)が、その応答の様子を指していう。ちなみに、正弦波への応答を定常応答、直流信号への応答を直流応答、パルス波への応答をパルス応答、後述のインパルスへの応答をインパルス応答という。
インパルス(Impulse)
振幅無限大かつ時間幅無限小の波形(ステップ波形を微分したもの:面積を1として扱う)をインパルスというが、フーリエ展開すると「あらゆる正弦波を総和」した形になるらしく、アナログオーディオの特性評価などにインパルス応答を使うことがある(次の項を参照)。デジタルフィルタの特性評価にもインパルス応答を使うことが多いが、こちらは時間幅1サンプルのパルスである(ユニットパルスという言い方もあるようだ)。PCMを時間幅1の矩形波の連続と見れば、インパルス応答を特定することであらゆるデータに対する線型時不変な応答を計算できる(たとえばオーバードライブのような非線形の応答、フランジャーのような時不変でない応答は単独で記述できない)。インパルスを波動関数として捉える場合は「インパルス関数」または「デルタ関数」と呼ばれ、σ(x)などと書く。任意の波形に対して∫[-∞ ∞] f(x)σ(x) dx = f(0)となる(角括弧は積分区間を示す)のが特徴。デジタルだと0dbFSのサンプル1つ以外無音、というのが容易に理解できるが、アナログだと音圧無限大で時間無限小で積分すると1という変な振る舞いで、シュワルツ超函数と呼ばれる(らしい)。
最大長シーケンス/M系列(maximum length sequence/MLS)
原始多項式を利用して生成する(周期の現れ方が最長になる:周期的な信号だが周期の中だけ見るとランダム、という変わった状況が生まれる)。インパルス応答を間接的に求めてS/Nを改善するためのメジャーな方法(九州大学尾本研究室のWEBページに掲載された解説が詳しくわかりやすい)。x(t)を入力、h(t)をインパルス応答、y(t)を出力(いづれも時間tの関数)とした場合、y(t) = h(t) * x(t)と畳み込めるが、x(t)の自己相関関数Rx(τ)およびx(t)とy(t)の相互相関関数Rxy(τ)を式にして整理すると、Rxy(τ) = h(τ) * Rx(τ)と畳み込める(τはタイムラグを示す)。このときもしRx(τ) = σ(τ)であればRxy(τ) = h(τ) * σ(τ)、つまりRxy(τ)がインパルス応答と一致する。そこでRx(τ) = σ(τ)となる(=自己相関関数がデルタ関数になる)ような入力x(t)を探すわけだが、MLSには「ループの始点が重なれば相関あり、重ならなければ無相関」という性質(τがシーケンス長の範囲を動く限りにおいて)があるのでうってつけ、というわけ(反対から言うと、入力x(t)の自己相関関数がσ(τ)であるとき、入力x(t)と出力y(t)の相互相関関数Rxy(τ)がインパルス応答に一致する)。実際にインパルス応答を(実用的な演算量で)求めるにはもう少し応用が必要だそうな(高速アダマール変換というのがポイントらしいが詳しいことがわからなかった)。単純に擬似ランダムノイズとして使うこともあるようだ。
時間引き延ばしパルス/時間伸長パルス(Time-Stretched Pulse/TSP)
インパルス信号に「周波数の2乗に比例して位相が進む」フィルタをかけたものをTSP(Time-Stretched Pulse)、逆のフィルタをかけたものを逆TSP(TSPを時間軸で反転して、最後のサンプルを先頭に持っていったものと同じ)と呼ぶ。インパルス応答の測定でS/Nを稼ぐために使われるもう1つのメジャーな方法で、TSP応答に逆TSPを畳み込むとインパルス応答が得られる(RWCP実環境音声・音響データベースというサイトに、電子技術総合研究所(産総研)の浅野太さんという方による詳細な解説があり、リトルエンディアン32bit-floatのTSPおよび逆TSP波形もダウンロードできる)。また、インパルスにバンドパスフィルタをかけたような、パルス波に(半周期分だけ)AM変調をかけたような感じの信号をトーンバーストと呼ぶようなのだが、詳しいことがよくわからなかった。
インパルス応答フィルタ(Impulse Responce Filter)
インパルス応答で特性を定義するフィルタのこと。インパルス応答が有限時間で収束する(一定値(普通はゼロ)から動かなくなる)デジタルフィルタを有限インパルス応答(FIR=Finite Impulse Responce)型、インパルス応答が有限時間で収束しないものを無限インパルス応答(IIR=Infinite Impulse Responce)型という(IIRの方が高速で安価らしく、バタワースやベッセルなどの双2次フィルタが代表例:FIRフィルタは(普通はFFTなどを利用するが、原理としては)足し算を有限回数繰り返すのと同義なので、どのように設計しても安定した(=出力が発散しない)フィルタであることが保証される)。数学が絡む話は相対論と電磁気というサイトの解説(逆フィルタに関する言及も興味深い)などが詳しい。
畳み込み/重畳(convolution)
関数fとgに対し(f * g)(t) = ∫{f(τ)・g(t - τ)} dτ、また数列fとgに対して(f * g)(n) = Σ f(m)・g(n - m)を合成積という(上記は定義式)。これを求める演算(または演算結果)が畳み込み(重畳)で、前者であることを特に示す場合は畳み込み積分または重畳積分、後者であることを特に示す場合は畳み込み和または重畳和と呼ばれる(積分区間などは定義域によって決まり、定義域外を0と仮定する場合は線形畳み込み、有限定義域の関数を波動関数とみなしてループさせる場合は循環畳み込みと呼ばれる:音声加工でおもに使うのは前者)。たとえば数列f = (1,2,3,2,1)とg = (1,3,2)があった場合、第1~5項にfとg(1)の積、第2~6項にfとg(2)の積、第3~7項にfとg(3)の積、と足したものが線形畳み込み和になる(ただし定義域外はすべて0と仮定するので加算に関与しないことに注意)。上に式で示した通り、一般項(f * g)(m)について、fの第1項とgの第m-1項、fの第2項とgの第m-2項、fの第3項とgの第m-3項・・・の和を取っている。τでの積分も同じ意味で「時間τだけ遅れて現在の時間tに及ぼされる影響」を合計しているだけである。音声処理では、音声x(t)にインパルス応答y(t)を畳み込んで出力を得る場合などに使う。このとき真面目に積分や総和を計算してももちろんよいが、フーリエ変換やラプラス変換などについてL(x * y) = L(x)・L(y)という性質があるので、変換してから掛け算して逆変換してやれば計算量を減らせる(フーリエ変換で「積分を掛け算で処理できる」というのはこういう意味)。
相関関数(correlation function)
関数fとgに対し(f ★ g)(t) = ∫{f*(τ)・g(t + τ)} dτ、また数列とgに対して(f ★ g)(n) = Σ f*(m)・g(n + m)を相関関数という(*は複素共役を示す:バーをつける表記の方が紛らわしくないが、HTMLで書く都合上こちらにした)。f*(-t)にg(t)を畳み込むとfとgの相互相関関数が得られる(反対から言えば、fとgの相互相関関数のフーリエ変換と、fのフーリエ変換の複素共役とgのフーリエ変換の積は等しい)。ベクトルの内積(行列として見るとXTY:ただしXとYは行列でXTはXの転置行列を示す)を求める演算と、相関関数を求める演算はかなりよく似ている(主に言語とシステム開発に関してというblogの解説がわかりやすい)。正弦波で考えるとわかるが、周期的なデータの自己相関関数はやはり周期的になる(フーリエ変換するとパワースペクトル密度関数になり、原信号のフーリエ変換の2乗に一致する)。
伝達関数(transfer function)
初期値をすべて0としたときの、入力信号のラプラス変換(U(s))と出力信号のラプラス変換(Y(s))の比。T(s)=Y(s)/U(s)などとと表し、Y(s)=U(s)*T(s)となるので、入力に対する出力を知ることができる。電気工学の分野だと、電圧をE、電流をI、回路の伝達関数をT(s)としてE=T(s)*Iで表す(T(s)がオームの法則における抵抗Rに相当:ラプラス、フーリエ、オームなどが提唱した理論は互いに強く結びついている)。イフェクタ関連の用語としては、とりあえず、「f特に位相のずれも加味したもの」(当然、これも周波数fの関数になる)だと思っておけばよさそう(多分)。インパルス応答は伝達関数の表現形の1つ、だと思う。
コムフィルタ/櫛形フィルタ(comb filter)
入力と同じ音をわずかに遅らせて出力すると、周波数によって、位相が揃えば増幅、逆になれば打消しの効果になることを利用したフィルタ。周期a秒の音波にb秒遅れで同じ音波を重ねてやると、bがaの整数倍に近い値だった場合位相が揃って増幅される(音波の強さも同じだったとすると、2倍すなわち6dbの増幅になる)。a/bが整数+0.5倍に近い値だった場合、逆位相になって打ち消しあう(音波の強さも同じだったとすると、ほぼ無音になる)。ディレイ時間を1周期とする音を規準にすると、1オクターブ下は無音、同じ周波数は増幅、1.58オクターブ(1オクターブと半音約8つ=増5度)上は無音、1オクターブ上は増幅、2.32オクターブ(2オクターブと半音約5つ=完全4度)上は無音、2.58オクターブ上は増幅、2.81オクターブ(2オクターブと半音約11=長7度)上は無音、3オクターブ上は増幅、以下略(というか、半音1つ以下の範囲での動きになるので追っても余り意味がない)となる。コムフィルタの振幅はディレイの音量減衰だけで決まり、同じ音量のディレイなら短いディレイタイムで重ねた方が影響範囲が狭いことに注意。bの値を周期的に変化させてやるとフランジャーやコーラスになる。
双2次フィルタ(biquadratic filter/biquad filter)
伝達関数の分子と分母がともに、損失が0のときの共振周波数の2次関数になっているフィルタ。f特のグラフで平らな部分を作りやすい(周波数の狙い撃ちができる)。ロー/ハイパス、バンドパス、シェルビング、バンドリジェクト、ピーキングなどのフィルタが作れる(フィルタ回路については、未確認飛行 C++というサイトの解説や東北学院大学 工学部 機械知能工学科 熊谷正朗さんの解説(授業用?)が非常に詳細なのだが、残念ながら、筆者はほとんど理解できなかった)。楕円フィルタの特殊形がチェビチェフ(チェビシェフ)フィルタ、さらにその特殊形がバタワースフィルタに相当するらしい(ゼロまたは無限大への極限を取る)。
フィードバック/帰還(feedback)
出力を入力に戻すこと。正相で入れるのをポジティブフィードバック(正のフィードバック)、逆相で入れるのをネガティブフィードバック(負のフィードバック)というが、両方とも単にフィードバックと呼ぶことが多い。たとえば、マイク(入力装置)>アンプ>スピーカー(出力装置)とつないで、スピーカーから出た音をマイクで拾ってやるとハウリングを起こすが、これは増幅を経由したポジティブフィードバックによって回路が発振したため(ネガティブフィードバックでも、周波数領域のどこかで増幅率の絶対値が1より大きければハウリングは起こる)。ポジティブフィードバックの活用例として、適度な遅延時間を設定して途中で信号を減衰させればフィードバックディレイになる。ネガティブフィードバックの例としては、オペアンプの負入力にフィードバックをかけてやると、(理想的には)入力抵抗と帰還抵抗の比だけで増幅率を決定できるようになる(次の項目を参照)。
オペアンプ/演算増幅器(operational amplifier)
アンプの一種で、正入力(V+)、負入力(V-)、出力(VoutまたはVo)の端子と、バイアスをもらうための端子を備え、V+とV-の電位差を増幅してVoに出力する(このような動作を差動増幅と呼ぶ)。バイアス用端子は、コレクタとエミッタの意味でそれぞれVccとVeeと呼ぶ(正確にはバイポーラトランジスタ(NPN接合を利用)を使ったオペアンプ特有の書き方だが、オーディオ分野で使うオペアンプはほとんどこれなのであまり問題はない:バイポーラ以外のトランジスタには、たとえばユニポーラトランジスタ(電界効果トランジスタとも、略してFET)があり、これを使ったオペアンプではドレインとソースの意味でVddとVssと呼ぶ)。VccとVeeの電位差を動作電源として使う(最大出力電圧の上下限はバイアス電位と等しくなる:後述するように増幅率がほぼ無限大なので、単体でコンパレータとして使われる)のだが、Veeをグランドに落とす場合は省略して単にGNDとする書き方もあるらしい。理想的なオペアンプは、入力インピーダンスと差動利得(電圧差の増幅率)が無限大、出力インピーダンスと同相利得(V+とV-の電位が等しいときの、Voとの比)がゼロなのだが、実際の製品では入力インピーダンスがメガΩオーダー、出力インピーダンスが数Ωオーダー、差動利得が10^6前後、同相利得が10^-5前後らしい。素の状態での差動利得を裸電圧利得/無帰還利得/開ループ利得などといいAoまたはAolで表す。Aoが十分に大きい場合、Voを抵抗に通してV-にフィードバックしてやると、入力抵抗をRi、帰還抵抗をRfとして、帰還利得(フィードバックつきの回路全体での増幅率)Af = -Rf/Riと定まる(このような回路を反転増幅器=inverterと呼び、過渡特性を除き非常に安定した特性が得られる:詳しくはこちらの解説(トップ)を参照)。ちなみに、このときV+とV-の電位差が(ネガティブフィードバックによって)ほとんど等しくなるが、それを仮想短絡(virtual short/imaginary short)と呼ぶ(単に電位がほぼ等しいというだけで、実際には短絡していない:もっといえば電位は完全に等しくならないし、もし仮に完全に等しくなったら同相利得しか得られない)。
A/D変換(analog digital conversion)
アナログの信号をデジタルに変換すること。PCMの場合、標本化>量子化>符号化という手順になる(実際の処理としては、先にPDMデータを得てからD/D変換(デジタルデータを別形式のデジタルデータに変換する)でPCMデータを得ることがほとんど)。
標本化(sampling)
母集合から部分集合を取り出して全体を近似的に把握すること。オーディオ分野では、音圧変化を一定時間ごとに区切ることを指す(Ш関数を乗算するのと同義:Ш関数はパルス波のグラフになる関数で、くし型関数とか周期的デルタ関数などとも呼ぶ)。このとき、1秒間に標本を取り出す回数をサンプルレートとかサンプリング周波数と呼ぶ(ナイキスト周波数の項目も参照)。
量子化(quantization)
量子は物理量の最小単位で、この整数倍(離散量)でさまざまな量を表現する。もともと物理用語だが、転じてある量が最小単位の何倍であるかで表現することを指す。オーディオ分野では、アナログ信号の強さ(結局は音圧)を整数値などに変換する作業を指すことが多い。
符号化(encode)
データを所定の表現方式に当てはめて出力もしくは記録すること。符号化を行うソフトやハードをエンコーダまたは単にコーダ、エンコーダと反対の動作(所定の表現方式に当てはめて出力されたデータを、符号化前の信号に戻す)をするソフトやハードをデコーダという。wavファイルからflacファイルへの変換など、すでに符号化されたデジタルデータをさらに符号化することもある(D/D変換の一種)。
コーデック(codec/co-dec)
コーダ(COder)とデコーダ(DECoder)がセットになったもの。音声信号の場合、A/DコンバータとD/Aコンバータのセットをとくに指すこともある(が、D/Dコンバータを指すことも普通にある)。
ナイキスト周波数(Nyquist frequency)
A/D変換後にピークを検出可能な最高周波数のこと。普通はサンプリング周波数の1/2(素人考えだと当たり前のようにも感じるが、数学的に証明されたのは1928年に始まるナイキスト-シャノンのサンプリング定理が最初らしい)。これよりも高い周波数の音をサンプリングしようとすると、エイリアシング(aliasing:英語で「偽名を使う」の意で「偽の周波数で信号が記録される」という比喩)という現象が起こる(ナイキスト周波数をf1、サンプリング対象の周波数をf2(f1<f2)とすると、f=f2-f1となるような周波数fのノイズ(エイリアシングノイズ/折り返し雑音/aliasing noise/folding noiseなどと呼ぶ)が発生する:これを防ぐために、普通はサンプラーの前にローパスフィルタを入れる)。ナイキスト周波数とちょうど同じ周波数の信号は、振幅と位相の区別ができなくなる。Nyquistは人名で、フィードバック増幅器などの研究を行った人。
量子化ノイズ(quantization noise)
量子化の際に、有限ビット数で表現できる値と元の波形の音圧の差によって生まれるノイズ。元のアナログ波形の振幅にもっとも近い(自乗誤差が最小になる)値を量子化後の値とするなら、最大振幅=1bit幅のランダムノイズとなるのが普通だが、音圧レベルが±0.5ビット幅以内で連続している個所を限定的に見ると、量子化ノイズは元の波形の位相を反転させたものになる。完全な矩形波/正弦波/三角波/鋸波などを入力した場合も規則的な分布を示す(ノイズ=誤差が一定周波数に集中して出る)はずだが、これらが問題になる場合はディザを付加してランダムノイズ状に拡散させる。
標本化ノイズ/サンプリングノイズ(sampling noise)
実装の不備を除外して考えると、サンプリングノイズというものは存在しないともいえる。実際、正弦関数に(その正弦関数よりも高い周波数の)Ш関数をかけても、理想的な補間を行えばもとの関数が再現できる。ただし、理想的な補間(無限大計算量で行うsinc補間)は不可能なので、実用上問題になるかどうかは別として、補間ノイズ(補間誤差)は常にあり得る。また、電気信号を時系列でサンプリングする場合はショットノイズが問題になる。エイリアシングノイズについてはナイキスト周波数の項を参照。
ヒートノイズ/熱雑音(Johnson-Nyquist noise/thermal noise)
抵抗内部で熱により発生するノイズ。kをボルツマン定数、Tを抵抗の温度(K)、⊿fを帯域幅(Hz)、Rを抵抗値(Ω)とすると、ヒートノイズの電圧Vn(V)と電流In(A)はそれぞれ、Vn=√(4kTR⊿f)、In=√(4kT⊿f/R)で求まり、電力Pn(W)は都合Pn=4kT⊿fとなる。ここで、電圧が抵抗値の平方根に比例して高くなることは注目すべき点である(抵抗値を4倍にするとヒートノイズの電圧が2倍になるということ)。温度27℃で600Ωの抵抗が20Hz~20000Hzに生じるヒートノイズは、約0.45μV@開放端(-127dbV)に相当する。
ショットノイズ(shot noise)
粒子数の統計的揺らぎによるノイズ。たとえばある時間のうちに電子が10個通過する場合、この10個は一定間隔で通過するのではなくランダムな分布で通過するため、電流の流れ方に偏りが生じる。平均電流の平方根に比例して大きくなるため、電流が大きければ結果的に無視できる大きさになる。
フリッカーノイズ(flicker noise)
電子素子(コンデンサやコイルなど)に電流を流したときに現れるランダムノイズのうち、低周波成分ほど大きいもの(後述のピンクノイズ勾配)を指す。電流に比例して大きくなるという解説があるが、理由はよくわからなかった。
ホワイトノイズ(white noise)
数学的には「自己相関関数がデルタ関数(インパルス)で相互相関と平均がゼロの時間関数」を指すようだが、実用上は、あらゆる周波数の音が等しい音圧で混じったノイズのこと。呼称は周波数領域が白い光の波形と似た分布になることから(いっぽう時間領域で見ると、音圧が正規分布している:この条件を満たすノイズをガウスノイズといい、一般にホワイトノイズと呼ばれているのはホワイトガウスノイズを近似したもの)。イメージとしては、テレビの砂嵐画面の音。ヒートノイズやショットノイズはホワイトノイズ分布を示す。なお、時間領域と周波数領域の両方が無限大なら正規分布のランダムノイズはピーク音圧も無限大になるはずだが、PCMなど最初に最大ピーク音圧(0dbFS)が決まるタイプのフォーマットで中のビットをランダムに動かした場合にも周波数成分が一様なノイズを作れる(ガウス分布はしなくなるが、1ビットのランダムノイズも普通に作れる)。PCMでピーク0dbFSの近似ホワイトガウスノイズ(各サンプルの音圧値を正規乱数で決める)を作った場合、sinc補間したときのRMSは-3~-4.5dbくらいになる(ビット深度が深いとRMSが低くなる傾向がある)。
ピンクノイズ(pink noise)
低音側から高音側に向かって-3db/octの勾配をもったノイズのこと。周波数が2倍になると音圧が√(1/2)倍(すなわち、仕事率が半分)になる。周波数fとノイズの仕事量pが反比例する(比例定数を省略して書くとp=1/f)ことから1/fノイズとも呼ばれる。これも光の色から。イメージとしては、大きな滝の落ちる音。log[2]1000≒9.965784なので20Hz~20KHzのピンクノイズだと両端で約29.897dbの差になるが、実用上30dbで近似することがある。ここまで紹介した中ではフリッカーノイズがピンクノイズ勾配。ちなみに、p=1/f^2となるものをレッドノイズまたはブラウニアンノイズといい、-6db/octの勾配になる。さらに、ピンクノイズの逆勾配(3db/oct)ならブルーノイズ、レッドノイズの逆勾配(6db/oct)ならパープルノイズ(英語圏ではViolet noiseとも)、A特性で重みをつけたときに平坦になる勾配ならグレーノイズ、という呼び方もあるようだ。
ポップノイズ(pop noise)
アナログレコードに針をのせたとき、アンプの電源を入れたまま楽器などの電源をオンオフしたとき(機器が痛むのでやめよう)、ヴォーカルマイクが吹かれたときなどに生じる、「ポッ」とか「ボッ」っという、何かが跳ねたり弾けたりしたような瞬間的ノイズのこと。同様のノイズで「チッ」とか「プッ」という音感のものを「クリックノイズ」(click noise)と呼ぶが、特性としてはポップノイズとあまり変わらない(クリックノイズの方が、やや鋭くインパルスに近い波形になるという傾向の違いはある)。
ハムノイズ(hum noise)
小型昆虫の羽音のような、ブーンというノイズのこと。交流電流などに由来する磁場の変化で電磁誘導が起こるとか、電気機器が発する電磁波が直接作用するなどして生じる。倍音がとくに豊富なものはバズノイズ(buzz noise)という。パルス波に近いものがハムで矩形波に近いものがバズ(波高率を問題にしているのとほぼ同義)と主張する人もいるが、一定した定義はない。humもbuzzもハチの羽音を指す英語だが、バズノイズの方がビリビリした感じの音になる。スネアドラムのスナッピーが共鳴するのもバズと呼ぶ(言葉の意味は同じだが、電気的なバズノイズよりは複雑な音色)。また、バズを人工的に発生させる装置はブザー(buzzer)と呼ばれる。
ヒスノイズ(hiss noise)
サーとかシューといった音感のノイズ。アナログテープを再生したとき継続的に出るものをとくにテープヒス(tape hiss)という。高音域が耳につくランダムノイズ(周波数の偏りや時間変化に乏しい)を指すのが普通で、ホワイトノイズもこの一種だとみなせる。
マイクロフォニックノイズ(microphonic noise)
マイクロフォンではないものがマイクロフォンのように振る舞うことで生じるノイズ。またピックアップ(マイクロフォンが空気の振動を拾うのに対し、空気以外の振動や形状の凹凸を検知する)でないものがピックアップのように振る舞うことで生じるノイズも含めることがある。エレキギターや真空管アンプなど小さな振動を大きく増幅する機器で問題になる。
漏話(crosstalk/leakage)
文字通り解釈すると音声信号が外部に漏れることだが、慣例として(おもに同一機材内の混線により)別回路に流れている信号を拾ってしまうこと、またそれによる雑音を指す。ステレオの左右チャンネルが混ざるのをとくにステレオクロストーク、ハモンドオルガンで目的でないトーンホイールの音が混ざるのをとくにリーゲージノイズなどと呼ぶ。
サチュレーション(saturation)
直訳すると「飽和」で、サチュレーションノイズというと録音レベルが過大だったときのノイズ(あるいは歪み)のこと。
奇数倍音/偶数倍音(odd harmonics/even harmonics)
音のイメージとしては、奇数倍音が「キーン」で偶数倍音が「こぉーん」なのだが、シロフォン(奇数倍音豊富)とマリンバ(偶数倍音豊富)の音の違いをイメージするとわかりやすいだろうか。奇数倍音が豊富な音の代表に矩形波、奇数倍音と偶数倍音の両方(つまり整数倍音)が豊富な音の代表に鋸波があるが、矩形波がいかにも歪んだ乾いた音になるのに対し、鋸波は少ししっとりしたようなテイストになる。奇数倍音が完全5度・長3度・短7度よりやや下・長2度・減5度よりやや下と並ぶのに対し、偶数倍音は完全1度・完全1度・完全5度・完全1度・長3度と並ぶのが、落ち着いた音になる原因だろうか。また、奇数倍音はオーバードライブで乗る高調波歪み成分としても一般的である(Dominionのサチュレーターのように、整数倍音を乗せられるものもある)。
インハーモニシティ(inharmonicity)
倍音の周波数が元の音の整数倍からずれていること。弦楽器で顕著で、ピアノやギターの場合高次倍音ほど(元の音の整数倍と比べて)高い音になる。
調律カーブ/調律曲線(tuning curve)
基準となる周波数(普通は平均律)からどの程度ズラしてチューニングするかをグラフにしたもの。たとえばピアノではSカーブ(単純な平均律と比較して、低域を低め、高域を高めにする)などが好まれる。
(マイクの)指向性(directional characterisitic)
無指向性と双指向性の2種類が基本で、その他のタイプは無指向性と双指向性を組み合わせて作ることが多い。無指向性は圧力型と呼ばれる構造(ある点の空気の圧力変化を検出し、ダイヤフラムの周囲の圧力が上がるか下がるかだけが問題なので音がどこららくるかは問題にならない:ダイヤフラムのサイズが波長に比して大きいと横から音を受けた場合に面倒なことになるが、16KHzでも波長は21mmちょっとなので普通のダイヤフラムならあまり心配しなくてもよい)で実現し、双指向性は速度型と呼ばれる構造(振動体が前後に動く速度を検出し、前と後ろを決める都合上横からの音には反応しない)で実現するのが普通。速度型マイクのことを、なぜかカタカナ語にしてベロシティマイクと呼ぶことがある。マルチマイクでの被り(意図した収録用マイク以外のマイクにも音声を拾われること)をマイクブリーディング(mic bleeding)または単にブリーディングという(ヘッドフォンの音漏れはspill、シグナルにノイズが混入しにくいことをisolationという)。
(マイクの)ダイヤフラム(Diaphragm)
原義「横隔膜」だが、振動板や仕切り板やカメラの絞りなど、ドーム状の形状をもつものを総称してこういう。マイク関連ではもっぱら圧力を検出するための膜状の部品(振動板)を指して言う。直径0.5インチ前後が普通だが、1インチ程度のものもある(ラージダイヤフラムと呼ばれる:音声が入る角度によって振る舞いが変わり機械的強度も落ちるため扱いが難しいが、ダイヤフラムの運動幅を大きく取りたい場合や高音域にあえて癖を作りたい場合に有効)。
(マイクの)近接効果(proximity effect)
速度型の(またはそれを部分的に模した)マイクで録音する場合、近距離から録音するほど低音が強調される現象をいう。周波数が低いとより顕著に現れる。同じピーク音圧でも周波数が低いほど空気の移動速度が遅く、DCでは理論上速度ゼロになる。たとえば、密閉容器の中にリボンをつるして、内部の圧力を非常にゆっくりと上げ下げしても、リボンは動かない(密閉容器の中に圧力計を入れた場合は、たとえDCオフセットであっても圧力は検出できる:ただし、圧力型のマイクでも実装上は圧力勾配を検出していることがほとんどなので、DCオフセットは検出できないのが普通)。このため速度型マイクは低音ほど感度が下がるのだが、点音源をリボンの正面に置いた場合、距離が近ければ近いほど、リボンの中央に音波が到達する方がリボンの両端に音波が到達するよりも早くなる(リボンの中央と両端で位相差が生じる)ため、近距離であればある程度の感度が得られる。この感度の違いが近接効果として現れる。また、圧力型ダイヤフラムの後方に筒を通して擬似的に速度型の特性を加算する形式のマイクでも、音源が近いほど圧力型的な出力(ダイヤフラムへの圧力)と速度型的な出力(筒を通してダイヤフラムの前後で検出される速度)の位相差が出やすくなる。マイクの仕様や音源の種類(面積無限大の理想的な面音源なら、近接効果は生じない)によって効果の出方が異なるが、単一指向性で300Hzちょっと、超単一指向性で600Hzくらいから下が影響を受けることが多い(大口径ダイヤフラムの機種を中心に、1KHzより上まで影響が出る機種もある)。
(マイクの)感度(sensitivity)
dbV/Pa@1KHz(RMS)での表記が一般的だが、海外メーカー製品など一部にdbV/PaではなくdbV/Ba(Baはbaryeの意で、1Ba=1μbar=0.1Pa)で表記しているものもあり、後者に20足すと前者に一致する(たとえば-70dbV/Ba=-50dbV/Pa)。基準単位が明示されていないとカタログスペックとしてもあまり意味がないし、明示されていても(周波数や指向性や、場合によっては接続方法によっても感度が変わるため)あくまで参考値程度に受け止めておくのが無難だろう。
(マイクの)ロールオフ(roll-off)
近距離用の指向性マイクで、近接効果を見越して低域の感度を落としておくこと。ロールオフが施されたマイクを遠距離で使うと低音が抜け落ちることになるが、高級機種ではロールオフ機能を無効化するスイッチがついているものもある。
ハイインピーダンスマイクとローインピーダンスマイク
かつて、無線や放送機器に用いられていた50KΩ系と電話や録音機器に用いられていた600Ω系の区分があった頃、前者に合わせた10~50KΩくらいの出力インピーダンスのマイクをハイインピーダンス、後者に合わせた100~600Ωくらいの出力インピーダンスのマイクをローインピーダンスと呼んでいた。
(スピーカの)許容入力
普通は、ピークとか連続とかプログラムといった注記がある。ピークと連続はそのままの意味で、プログラムは「事前に決めたパターン通りに」信号を流す意味。とくに一定間隔で信号のオンオフを繰り返す場合(ないし所定パターンを何セットかループさせる場合)「連続プログラム入力」と呼ぶ。チューブアンプと組み合わせる場合、カタログ上の最大出力よりも大きな出力が生じることがあるため、2倍程度の余裕を見るのがよいとされる。あくまで機器が破損しない入力レベルであって、音声を歪ませずに再生できるレベルではないことに注意。
点音源(simple sound source)と線音源(line sound source)と面音源(surface sound source)
理想的な点音源は名前の通り1点で、音波が球状(面積が音源との距離の2乗に比例)に広がる。実用的には波長に対して十分小さい振動体を指す。理想的な線音源は高さ0で幅が無限大、音波が円筒状(面積が音源との距離に比例)に広がる。理想的な面音源は高さも幅も無限大、音波が同じ大きさの面のままで広がらない(面積一定)。距離減衰との関係で考えると、エネルギーが球状に逃げるのが点音源、円筒状にしか逃げないのが線音源、逃げ場がないのが面音源(波長に対して音源が十分大きくても、ものすごく遠距離から見ると点音源的に振る舞う)。反対に考えると、同じ大きさの音源であっても、波長が長いほど距離減衰しやすい(マイクの近接効果と異なり、無指向性マイクでも低音の録れ方に影響する:小型アンプにオフマイクを立てる場合などは考慮する必要がある)。同じ面積(たとえばマイクのダイヤフラム)に対する仕事率が、面積に比例して小さくなるため、点音源では距離の2乗に反比例して仕事率が小さくなる(結局、距離2倍≒6db減衰となる)。
ディザ(dither)
語源は「震える」という動詞で「白と黒で灰色を表現する画像技術」をディザリング(dithering)という。白黒白黒白黒白黒・・・と細かい点を並べた場合、遠くから見ると灰色に見えることを利用している(カラーにも応用され、たとえば赤と青を使って紫を表現したりする)。また、デジタル画像のグラデーションを自然にするためにあえてノイズを乗せる手法をディザ法(Dither Method/誤差拡散法)といい、たとえば4ビットのグレースケールが「0000000000111111111122222222223333333333」と変化している場合、ここにランダムノイズを入れてやることで「0100100010101121211021222322232333323333」などと見た目上の自然さを付加することができる。オーディオの世界では、ビット深度変更などの前に原音にランダムノイズを被せることを指す(ソースが「変換後の1ビット幅相当」以上に「ランダムでない」と、量子化ノイズのスペクトラムが偏るのだが、そのような特殊ケースに対応するための技術:詳しくはAnonymousRiver Siteというサイトのディザを聴いてみようというページを参照)。特定部分に集中して存在する誤差を全体に拡散させて薄めるという意味では、デジタル画像におけるディザ法もデジタル音声のディザも発想は同じといえる。なお、元からランダムノイズが乗っている場合は、改めてディザをかける必要がない(極端に重ねがけしない限り有意なノイズレベルにはならないので、間違ってかけてしまっても気にする必要はない)。
残留ノイズ/ノイズフロア/等価騒音レベル/暗騒音(Equivalent noise level/leq)
ノイズ量が最低これだけあるという値で、最大音圧や最小可聴音を0dbとして表現する。筆者が他のページで「波形が落ち着いた部分のノイズレベル」と書いているものも同じ意図。オーディオ機器の場合、残留ノイズ(dBA換算やdbuやdbVで示すことが多い)はアンプの性能表示で、ノイズフロア(noise floor:dbuやdbVで示すことが多いが、デジタルだと最大音圧基準のdb FS表記も多い)はA/Dコンバータなどで、等価騒音レベル(leq)はマイクの性能表示などで、暗騒音(back ground noise)は音響測定などで使われる。アンプの場合入力換算(このレベルの入力があった場合と同程度の出力結果になる、という書き方)で示すことが多い。残留ノイズはボリュームをゼロにした場合の数字を使うことが多い(必ずそうだとは限らないが)ので、他の値と比較する場合には注意。
ダイナミックレンジ(dynamic range)
最小信号と最大信号の大きさの比をデシベルで表したもの。ノイズに埋もれず表現可能な範囲を指すのが普通で、この「表現可能」という定義がどういう基準で判断されるのかよくわからなかった(たとえば50dB Aのホワイトノイズに44dB Aのサイン波@200Hzを断続的に乗せるとたいていの人はサイン波の断続を知覚できるはずだし、人間が知覚できるかどうかを度外視すれば、最大音圧基準で-10dbのランダムノイズが乗った16bitPCMに-30dbのサイン波を記録することも可能ではある(14KHzのサイン波@48KHzサンプリングで実際にやってみたが、スペアナで分析すると微妙にサイン波らしきものを識別できる)のだが、それを「表現可能」とみなすのかみなさないのか不明:もしみなすのだとしたらかなりの屁理屈だが)。後述のS/Nとは別の概念だが「出力可能な最大信号とノイズフロアの比」という意味で「ダイナミックレンジ(S/N)」といった書き方をすることがある(必ずこの意図である保証はないが、大抵はそう解釈して問題ないはず)。アナログアンプではP1db(1db利得圧縮時出力電力:アンプは入力が大きくなると利得が下がってコンプをかけたような感じになるが、入力と出力の相関が線形の場合よりも1db下がったポイントを指してこう呼ぶ)とノイズを許容できる最小信号(やはり基準がよくわからない)の比を示すらしい。単に出力可能な信号の最小レベルと最大レベルの比を示している場合もある。
S/N(signal nois ratio/signal to nois ratio)
信号の大きさをノイズの大きさで割ったもので、普通はデシベルで表記し、SN比とも書く(S/N比という書き方は奇妙だが、日本では普通に通用している)。オーディオ分野では定格入力時に混入するノイズの量を示すのが普通で、ダイナミックレンジとは別物(もしノイズレベルが入力と無関係に一定ならダイナミックレンジとほぼ一致するが、普通は大入力時の方がノイズ量も多い)。ノイズ成分の電力(=自乗積分誤差)で計算するのが本来だが、入出力が一定であれば音圧(の実効値)の比として計算しても結果は変わらない。なお、聴覚上雑音が多いと感じるかどうかは、時間軸や周波数軸に対する誤差の分布も問題になるため、S/Nだけで聴覚的な雑音の多寡を判断することはできない(ディザは周波数軸に対して偏りのあるノイズを拡散させる技術だといえる)。
バランス伝送(Balanced transmission)
グランドとの電位差が対称となるような2本の信号線(ホットとコールド)を使って電気信号を送ること。グランドの電位をG、ホットの電位をH、コールドの電位をCとするとH - G = G - CとなるのでHとCは他の系(たとえば大地など)から見ると逆相ではないが、グランドに対しては逆相である。ホットとコールドは受信後に減算処理されるので、両方の導線にコモンモード(同位相/同強度)で入ったノイズはこのとき打ち消しあう。ホット/コールド/グランドで3極使う場合が多いが、無線用の平行フィーダ(リボンフィーダやめがねフィーダなど)のようにグランドを省いて2極にする場合もある。
極(pole/P)
イコライザなどで、指定できるピーク周波数を数えるときに使う単位。本来は伝達関数の極値の数を言う(のだと思う)。コネクタ(プラグ/ジャック)の端子(terminal)を数えるのにも使う(日常語としても「(電池の)プラス極」とか「(磁石の)N極」という言い方は普通にあるので、プラグ/ジャックに「極」という用語を用いるのは納得しやすいと思う:英語圏では「3 conductor plug」などという書き方もするが「pole」の方が一般的なようだ)。数字を頭につけて「3極EQ」とか「2極プラグ」などと書く。
遷移域(transition band)
直訳すると移行区間だが、ようするにイフェクタの効き具合がある値から別の値(たとえば1から0)に変化していく部分のこと。対象や学問分野によってtransition region(流体力学)・transition zone(生物学)などという言い方もあるが、すべて遷移域と訳している。コンプレッサーでソフトスイッチをオンにしたときに潰れ方がなだらかになる部分をとくにkneeという。
モジュレーション/変調(modulation)
音波や交流電流などの波に変化を与えること。周波数に変化を与えるのをFM(Frequency Modulation:周波数変調)、振幅に変化を与えるのをAM(Amplitude Modulation:振幅変調)といい、FMシンセでモジュレーターといえば変調器/変調波のこと。イフェクトの名前でモジューレーションといえばビブラートのこと。FMのうち、搬送波の周波数が変調信号の時間微分となっているものをとくにPM(Phase Modulation:位相変調)という。振幅が2πの鋸波で位相変調すると、位相がだんだん進んで一気に2π戻る、またはその反対の作用になり、結果的に周波数が変わる(もっとも原始的なピッチシフターはこのような動作だったらしい)。もとは通信用語で、オーディオの分野とは多少用途が違うが、その用法についてはその他のページを参照。
FMシンセ(FM synthesizer)
超高速の(普通は原音の周期と一致するはず:原音の周期の整数倍というのもアリかもしれない)FMによって音波を歪ませる方式のシンセ。変調器(という機械が具体的にあったとして)のツマミ(たとえば、上に持っていくと音が高くなり、下に持っていくと音が低くなる)を、原音(サイン波としよう)の波形と同期させて上げ下げ(3Hzくらいの低周波でないと人間の手でやるのは無理だろうが)している様子を想像してみるとわかりやすい(のではないかと思う)。
スイープ信号(sweep signal)
時間経過に従って周波数が規則的に変化する信号のこと。内燃機関(飛行機や自動車のエンジンなど)が徐々に回転数を上げていく(もしくは下げていく)ときの音を想像するとわかりやすい。普通は正弦波スイープを用いるが、三角波や鋸波でスイープを作ることももちろん可能。
アーリーリフレクション/初期反射音(early reflections)
リバーブにおいて壁面などに1回だけぶつかって耳に届く音のこと。それ以外の成分は後部残響音(reverb tail)と呼ばれ、英語圏ではlate reflectionsという言い方もよくある。
ハース効果(Haas effect)
同じ音が時間差を伴って左右の耳に入ると、先に音が届いた方向から聴こえたように感じる現象。同じ音量でも、右が先に聴こえれば右からの音に感じる。
ポルタメント(glissando/portamento)
ギターのボトルネック奏法のように、音をつなげたままなめらかに音程を変えること。
トレモロ(tremolo)
音量を周期的に変化させること。奏法のトレモロとは意味が違うので注意。
バウンス(bounce)
これも奏法のバウンス(リズムをハネさせること)と意味が違ってややこしい。イフェクト用語としては、複数のトラックを他の(普通はより少ない数の)トラックに移動させる(まとめる)ことを指す。バウンスによってトラックを空けながら追加録音を繰り返すことを、俗にピンポン録音という。ミックスダウンをバウンスと呼ぶ人もいる。
ディフュージョン/拡散(diffusion)
文字通り「広がり」のこと。普通は(とくに左右の)揺らぎの程度を指す。たとえばリバーブなら、左右の音のばらつき(ステレオ感)の強さのこと。同じ文脈でwidthといえば左右の広がりの最大幅を指す。
デンシティ/密度(density)
これも文字通り。普通は(とくに複数音を重ねるイフェクトで)音数の多さを指す。たとえばリバーブなら、山彦が返ってくる頻度のことをいう。
ラジアス/範囲(radius)
原義の半径から転じて「範囲」の意。
バンド(band)
文字通り「幅」の意。たとえば1/3オクターブバンドでといったら1/3オクターブ幅での意味(半値幅とQの換算については共振鋭度の項を参照)。
イコライザ/EQ/等価器(equalizer/EQ)
f特を均すためのハードウェアまたはソフトウェア(反対に、起伏を作るためにも使える)。シェルビング式(階段状に近い特性)とピーキング/ピークディップ式(山/谷のような特性)があり、操作方法でもグラフィカル式(f特のグラフまたはそれを模したものを表示する)とパラメトリック式(パラメーターを数値などで指定する)に分かれるが、デジタルイコライザーにはグラフ表示機能とパラメータ入力機能を両方備えたものもある。グラフィカルイコライザーをグライコ、パラメトリックイコライザーをパライコなどと略すことがある。一般的な15バンドグライコは20Hz~16KHzの2/3oct刻み、31バンドグライコは20~20KHzの1/3oct刻み。
バッファ/緩衝記憶装置(buffer)
デジタルオーディオ方面では、入力と出力の時間的(あるいは速度的)な差を補うために設ける一時記憶装置を指す。たとえばポータブルCDの音飛び防止装置では、今再生(出力)している場所より数秒先までをあらかじめバッファに読み込んでおき、振動などでCDの読み取り(入力)に遅れが出ても再生音に影響が出ない仕組みを実現している。データを一時保留しておくわけだから、バッファを設けると入力と出力の時間差(レイテンシ:後述)が増加することになる。電気方面ではインピーダンス変換を主目的としたアンプをバッファアンプ(緩衝増幅器)と呼び、ハイ受けロー出しで電圧を伝えるものを電圧バッファ(voltage buffer:増幅率1のものをとくに電圧フォロワ/voltage follower)、ロー受けハイ出しで電流を伝えるものを電流バッファ(current buffer:増幅率1のものをとくに電流フォロワ/current follower)、位相反転機能があるバッファアンプを位相反転バッファなどと呼ぶ。エレキギター用イフェクタでは、インピーダンス変換を行うパーツを単にバッファと呼ぶことがある(DI自体(とくに簡易な構造のもの)をバッファと呼ぶ人もいる)。コンピュータ関連の用語としても一時データを指すが、オーディオ用語とは微妙に意味が違う(後で再利用するデータの一時保管場所を指すなど)ことがある。コンピュータが関連しない分野では(記憶装置ではなく機械的な)緩衝装置もしくは緩衝器(具体的には、クッションやダンパやバンパーなど)を指す。記憶装置であることをとくに示したい場合はバッファメモリといえばよい。
ジッタ(Jitter)
信号の揺れのこと。もとはビデオカセットレコーダの表示ゆれを指したらしい。デジタルオーディオでは、音声信号の時間的な誤差を指すことが多い。信号が元の形を失うわけだから、つまりはノイズになる。ジッタノイズを抑えるためバッファを設けてレイテンシの差を吸収することが多いが、リアルタイム性が強く要求される環境(たとえば生演奏をモニタするなど)では大きなバッファを取ることができず、ジッタの発生がノイズに結び付きやすい(反対にノンリニアでの処理なら、先読みすればよいだけなのでいくらでもバッファを大きく取れる)。
レイテンシ/遅延(latency)
文字通り時間的な遅れのことだが、入力から出力までにかかる時間を指すことが多い。レイテンシが一様でないことがジッタの原因になることがある(たとえば、10±2msのレイテンシがあった場合、8ms遅れた信号と12ms遅れた信号は元の時間的関係を保てない:レイテンシが大きくなると振れ幅も大きくなる傾向があるので、たとえば先ほどの例が100±20msになるとそれだけジッタも増加するが、10±2msの場合と100±2msの場合を比較すると、ジッタの出方に大きな差は出ないはずである)。
PA(public address)
音声を多数の人に伝えること。とくに、ライブなどで客席に音声を届けること。
SR(sound reinforcement)
直訳すると音声増強だが、ようは音声加工のこと。PAと同じ意味で使ったり、より積極的な音作りをするPAの意で使ったりする。
-フォニー/-フォニック(-phony/-phonic)
「音声/発音(の)」という意味で、音楽/音声/オーディオ関連では接頭辞をつけて用いるのが普通。たとえば「モノフォニック音源」というと「最大同時発音数が1の音源」という意味だし、「ステレオフォニー」は「立体的な音声」という意味になる(音楽理論における用法とは意味が違うので注意)。「ステレオフォニック再生」を略した「ステレオ再生」は、本来的には「立体的な音像を作る再生方法」全般を指しチャンネル数と無関係だが、慣例的に3チャンネル以上を用いるものは「サラウンド再生」と呼び、2チャンネルだけ用いるものを「ステレオ再生」と呼ぶことが多い(語義的にはサラウンド再生もステレオ再生の一種)。また、たとえば「モノフォニック再生」と「モノラル再生」を明示的に呼び分ける場合、前者はスピーカ、後者は片耳用イヤフォンを使用する前提であることが多い(「-aural」は「聴覚の」という意味で、「バイノーラル」などの表記に倣って、「モノラル」ではなく「モノーラル」と表記することもある:この場合の「モノーラル/バイノーラル」は「片耳/両耳で聴く」という区別なので「モノフォニック-モノーラル再生」などと発音数と受信器官数を別に表記してもよさそうに思えるが、メリットがあまりないうえ慣例的な用法と矛盾する場合もあるので、普通は「モノラル再生」とだけ書く)。
ティンバー(timbre)
英語で「音色」とか「音質」という意味だが、シンセ用語として「複数の音色を同時発音できる/できない」を「マルチティンバー/シングルティンバー」と称する。シングルティンバーかつモノフォニックなシンセは1種類の単音しか同時発音できず、シングルティンバーかつポリフォニックなシンセは1つの音色を複数同時発音でき(たとえばピアノのCとGの音を同時に鳴らすなど)、マルチティンバーかつポリフォニックなシンセは複数の音色(たとえばギターとベース)を同時発音できる(マルチティンバーかつモノフォニックなシンセは、普通の実用を考えると無意味)。ソフトウェアシンセの場合「台数」が問題にならないので、区別する意味があまりない(マルチティンバーのシンセを1つ起動するのもシングルティンバーのシンセを5つ起動するのも大差ない)。
ノミナル(nominal)
英語で「名目上(だけ)の」「公称の」「名詞の」「記名式の」といった意味(原義は「名前の」で、宇宙航空分野では「計画(書)通りの」という意味でも使われる)。オーディオ分野ではフェーダーなどのツマミについて「標準位置」のことを「ノミナル位置」と言うことがある。
オフセット(offset)
原義は「埋め合わせ」で、一定値をあらかじめ加算(または減算)しておく/されていることを指す。音声データについて「DCオフセット」という場合は、無音部分にも加算されているDC(直流)成分という意味。
ノーマライズ/正規化(normalise/normalize)
データを扱いやすい形に変形すること。デジタルオーディオでは最大ピーク音圧を基準に音量調整することを指す(たとえば「最大音圧が-3db FSになるように音量調整する」ことを「-3dbにノーマライズする」などという:DCオフセットの除去なども、ノーマライズ作業の1つである)。デジタルオーディオ以外では、浮動小数点数の正規化やデータベースの正規化などがある。
アンプのコントロール
ボリュームとゲインが分かれているタイプでは、オーバードライブ用アンプ(ゲインでコントロール)>音量調整用アンプ(ボリュームでコントロール)と信号が流れるものがほとんど(その前にプリアンプも噛んでいる場合は「インプット」などといったコントロールで操作する)。ベースとトレブルは名前通り低音と高音の調整。真空管アンプについているプレゼンス(Presence)というコントロールは、トレブルでコントロールするよりさらに高い音を強調するためのものと説明されることが多いが、音量調整用アンプのネガティブフィードバックを高域だけキャンセルする仕組みのものが多く、その場合、歪みが増える副作用(高域だけのオーバードライブ的な効果)も出る。高音域の調整機能をブライトネス(Brightness)というコントロールで提供している機種もある(高域だけボリューム抵抗を素通りさせるものが多いそうな)。マーシャルのJVMシリーズではローより低い音を強調するコントロールをレゾナンス(Resonance)と表示している(ハイパスのQを変えて音を持ち上げる方式なのだろうか)。コンター(Contour)は英語で輪郭の意で、エンハンサーの類(単純にハーモニックディストーションを増やすものからマルチバンドコンプでドンシャリにするものまでさまざま)をコントロールする。
真空管(Vacuum tube)
低圧容器を使った能動素子の1つ。カテゴリ的には電子管>熱電子管>真空管だそうな。アメリカではチューブ(vacuum tube/electron tube)、イギリスではバルブ(thermionic valve)と呼ばれることが多い。日本でも、管/チューブと呼ぶ人と球/バルブと呼ぶ人がいる。極数によってDiode、Triode、Tetrodeなどと分類することもある(2極管を示す「ダイオード」は、半導体による互換品が普及して以降、半導体ダイオードまたは整流素子一般を指すようになった)。電子レンジの部品であるマグネトロンも真空管の一種らしい。ヒーターを使って熱電子を放出させる都合上、動作時に発熱や消費電力が大きい。ヒーター形式によって、予熱時間が短くハムノイズが出やすい直熱管と、ハムノイズが出にくく余熱時間が長い傍熱管に分類される(あくまで傾向)。1000時間オーダーの通電で寿命になる一方、電源オンオフのストレスにも弱いので、チューブアンプにはたいていスタンバイスイッチがついている。管の内部にゲッターというガス吸着材(マグネシウムやバリウムなど)が入っているものもあるが、使うのは製造時だけのようだ。
電線の分類
構造の分類では、導体が1本の単線(絶縁のない導体を複数まとめる場合も含めることがあるようだ)、複数の導体を真っ直ぐ束ねた平行線(導体2本の平行二線が代表例)、複数の導体を撚り合わせた撚線(導体2本の撚対線=ツイステッドペアケーブルが代表例)などがあり、複数の撚線を平行に束ねたものもある。絶縁の有無と種類で、裸線(絶縁なし)、エナメル線(樹脂塗装)、被覆線(ビニールなどを被せてある)などに別れ、やはり絶縁された複数の線を束ねてビニールチューブに入れたようなハイブリッドスタイルもある(内部の電線を線心、最外周の保護材をシースと呼ぶ)。同軸ケーブルは導体と絶縁体を交互に同心円状に重ねたもの(楽器用のものは、シグナル用の芯線(心線)、絶縁体、網状のシールド兼グランド、絶縁体と重ねた2Pアンバランスが多い)。リッツ線はエナメル線を縒線にしたもの(ヘッドフォンのケーブルなどに用いられるものはシースも備えているのが普通)。
注意が必要な英語
「monitoring and mixing」とあればたいてい「live sound monitoring and mixing」つまり「PA業務」のこと、単に「monitoring」というと、奏者モニタやPAモニタを指すことが多いが場合による。「Front of House」「FOH」は「上演施設の客席側」が原義(なので舞台裏をbackstageという)だが、PA用語としては客席最前部周辺に設けたPA席や照明席を指す。機器の性能で「isolation」と言ったら、外来ノイズの影響の受けにくさ(attenuationやinsulationも同様の意図で使われることがある)。「sound reproduction」は文字通り「音声の再現」で、ようするに「再生」のこと。
名称に混乱があるもの
ファズ・オーバードライブ・ディストーションは、ある程度傾向が違うものの、高調波やサチュレーションノイズを乗せて音を歪ませる点は同じ(なので歪み系はすべて「ディストーション」に含まれ、真空管アンプへの過大入力でソフトな効果を得るもの(またはそれを模したもの)をとくにオーバードライブ、波形のピーク付近を平らに潰して矩形波に近い音色を得るものをとくにファズと呼んでいるだけ)。エキサイターとエンハンサーも、メーカーが勝手に名乗っているだけで明確な区別はない。コンプ/リミッター/マキシマイザーの違いについては音圧の稼ぎ方のページを参照。コーラス・フランジャーは、いづれも特性が周期的に変化するコムフィルタをかける(再生速度を周期的に変化させた音を原音に重ねるか、簡易的にはモジュレーションをかけた音を重ねる:アナログのテープディレイで、テープのフチ(flange)を指で触って速度を変えることをフランジングという)もので、フランジャーを名乗っているものは短いディレイタイム(ミリ秒オーダー)でフィードバックあり、コーラスを名乗っているものは長いディレイタイム(10ミリ秒オーダー)でフィードバックなしであることが多い。フェイザー(フェイズシフター)も似たようなもので、オールパスフィルタの位相特性をLFOで揺らしながら原音と混ぜ、特性が周期変化する(たいてい複数段の)ノッチフィルタを作っている(元はレスリーシミュレータの失敗作だが、独自の進化を遂げた:周期変化するバンドパスフィルタであるワウの反対、フェイザーの帰還量を増やすとノッチからオールパスを経由してバンドパスフィルタに近付くので区別が曖昧になる)。ディレイタイムを複雑に変化させた音を多数重ねるのはリバーブ、150~300ms程度のフィードバックつきディレイはエコーと称する。ディレイ系のイフェクトはウェットにフィルタなどをかけてさらに加工することが多い。シェイパーは「シェイプ(形)を加工する」イフェクト全般を指す用語だが、自明でない場合はウェーブシェイパーとかエンベロープシェイパーなどと呼んで種類を明示する。ビブラート・モジュレーションは音程の周期的な変化だが、奏法についてはビブラート、イフェクトについてはモジュレーションと呼ぶことが多い。ビブラートは単に周期的な変化を指すこともあり、その場合は「音程のビブラート」「音量のビブラート」などと呼び分ける。トレモロは同じ音程の音を連打する奏法が元で、音量のビブラートを生じさせるイフェクトを指して用いることが多い。
製品に関するもの
エレキギターの「トレモロユニット」や「トレモロアーム」は「音程のビブラート」をかけるための装置で、Fenderが「シンクロナイズド・トレモロ・ユニット」という商標で発売した製品が多く売れたためこの名称が普及している(語義的には奇妙な呼び方なので「ビブラートユニット」とか「ビブラートアーム」などと呼ぶ人もまれにいる:トレモロアームはトレモロユニットを構成する部品の名前)。「ディメンジョン」「ディメンション」はRolandの製品名だが半分普通名詞化しており、ようするに薄がけ専用コーラスのこと。サウンドカードやサウンドユニットを「オーディオインターフェイス」と称して売っている例が多いが語弊がある、という話題にオーディオ機器のカタログを眺めてみるのオマケで触れた。イフェクトとはどんどん離れるが、鍵盤楽器のタッチセンサーはイニシャルタッチ(鍵盤を押す強さ:光学センサーの場合は速度からシミュレート)とアフタータッチ(鍵盤を押し込んだ後、押しつづける強さ)に分かれる(多列接点については各楽器の音域と特性のオマケを参照:ドローバーやトーンホイールなどオルガンに関する用語にも言及している)。