ビット深度とディザ

　　　　　　　　　　　　　　　　　　　　　　　　（C)Y.Utsunomia 2008-2010

　ビット深度という語は、そのまま「ビット数」や「レゾリューション」と読み替えて
もよいが、PCMでは最大値を「１」と考えるため、ビット数が多いとより微細な表現、
つまり小数点以下のより深い桁数表現ができることから「深度」という語を当てる場合
がある。

　ビット深度が深いほど、より精緻な表現となることから、耳に聴こえる音情報として
は、「解像度」が高い、という。確かにビット深度が浅いよりは深いほうが明らかに滑
らかで情報量が多いと認知できるが、聴こえる「解像度」はビット深度でのみ表される
わけではなく、サンプリング周波数やジッタ、本質的には音源(マイク・セッティングな
どの）の状態が支配的である。
　同じサンプリング周波数であっても、明らかにCDフォーマットの16bitと24bitでは相
当な聴覚上の差があるが、その原因は単なる解像度だけではなく、量子化雑音の有無な
どの要素などが複雑にからみ、単純ではない。
　したがって取り扱う音の品質を考慮し、記録フォーマットのビット深度は決定される
べきである。(例をあげると、すでにCDに書き込まれた音情報を別のメディアに再保存
するのに、24bitのフォーマットは無意味ということ。あるいはS/N比が60dB程度の音源
では16bit深度で十分といえるが、マイクロホンを使用したS/N比80dBを超えるような生
録音は、普及品レベルのセットでは困難＝24bit深度は不要？）

　ところが、この16bit信号を加工するとなると事情は一変する。レベルを変化させる
(増幅、処理の上では掛け算）、あるいはイコライゼーション(フィルタリング）する、
など加工は様々であるが、ほとんど全ての加工処理(故意に歪ませるなどでは事情が異
なるが）では、可能な限り深いビット深度で処理を行う方が好結果が得られるとされる。
　どのような処理であっても(ミックスのみ加算で端数は出ないが）原則として何らか
の乗除算処理の組み合わせで加工は行われる。このとき元のデータが16bitであっても、
乗除算なので、ほとんどの係数では16bit以上の端数(深度が深まるという）が出る。
この端数を有効とするか、無効とし切捨て16bitのままで出力するかは、音の品位の上
で明確な差となってあらわれる。
　深度が一方的に深くなっていくことを許容し、肥大したデータを扱えるうちはまだよ
いのであるが、処理は重く、ファイルは肥大し、あっという間に身重になってしまう。
また24bitまでは出力デバイス（A/D、D/Aコンバータとドライバ）が対応できるものもあ
るが、それを超えるコンバータはそれ自体がほとんど存在しない。(後述　注1）
　したがって適切にビット深度は適切にコントロールするか、聴覚に影響をおよばさな
い方法で端数処理や補正を行う必要がある。

＊参考までに
　audacityのビット深度は8bit、16bit、24bit、32bit、32bitF（Fは浮動小数点を表す）
を選ぶことができ、選択しはこの順番で並んでいるが、最も深度が深い表現(最も低歪、
最も高い分解能、最も小さな論理最小レベル）は、32bitで、32bitFではない。
32bitFとは、仮数部24bit+指数部8bitで、実質深度は24bitとなるので、歪率の測定な
どでは24bitと同等になる。解像度や品位を最高度に保つ精密な操作の自信があるな
ら、32bitは論理レベルで極限である。
　これに対して32bitFは解像度こそ24bitと同等だが、実質的なレベルの限度が無く、
クリップや論理上のノイズフロアとは無縁で作業できる。馬鹿になってしまうほど、
無縁でいられる。


☆ディザ

　様々な処理を施し、使用者が満足する状態になったとしても、出力は16bitに深度調整
しなければならないことは多い。例えばCDの作成などの場合である。ときにおしゃべり
自動販売機の音声編集や作成などでは出力は8bitフォーマットであり、単純に8ビット化
したのでは何をしゃべっているのすらわからないことすらある。

　深度浅化の場合に限らず、聴覚的に品位劣化を軽減する手法として、ディザ（dither)
と呼ばれるノイズを故意に混入する手法が有効とされる。測定上のノイズは増えるので
あるが、量子化ノイズは聴覚上低減できるという手品のような手法である。とくに低サ
ンプリング周波数、浅いビット深度の場合、相当劇的に作用する。

　audacityにはこのディザを自動附加する機能があり、「編集」→「設定」→「品質」
で設定画面が現われる。リアルタイム処理と、効果やファイル書き出しのときに使用さ
れる低速な「高品質」について、それぞれいくつかのアルゴリズムを選択できる。(単
純にノイズを混ぜるわけではないようだ）

○　いつ、どの段階でディザは附加されるか、　あるいはするか
　リアルタイムディザは通常再生時に再生出力に附加されている。「無し」を設定する
　とそのまま再生であるが、リアルタイムリサンプルを行っている場合（プロジェクト
　のサンプリング周波数とトラックのサンプリング周波数が異なる場合）やプロジェク
　トの品質が16bitの場合「シェイプド」や「三角」などのアルゴリズムを使用すると
　効果的である。

　「高性能」ディザは各「効果」処理時や「リサンプル」時に作動する。通常は「シェ
　イプド」などを設定しておいても問題はないと思われる。

　マスタリングなどの作業では、ヒアリングによる判断の必要がある。ソースの品質に
　よって　効果がある場合と、あまり芳しくない場合があり、慎重を要する。アナログ
　ソースからのリマスターなどではソースそのものに、ある程度のノイズが含まれてお
　り、そのノイズが適量のディザの役割を果たしている場合が多々ある。そのような場
　合にディザを追加すると、明確に効果が現われないばかりか、逆にざらついた印象の
　音になることもある。効果が認められない場合は使用しないほうがよいだろう。
　（楽音ではなく、その含まれているノイズの音色で評価したりする）

　　本質的に量子化ノイズはA/D、D/A変換時の最小分解能のステップが聴覚的にパター
　ン認識されることによって生じるので、最小分解能がノイズ的に揺らいでいるタイプ
　のコンバータ（デルタシグマ型などの1ビット変換するタイプ）では、そもそもの変
　換自体が「ディザ」なので、（故にノイズシェーピングとも呼ばれる）過剰なディザ
　の付加は逆効果かもしれない。


○　どのようなときに使用できないか
　測定用途や精度そのものを要求する場合は「無し」を設定し、必要な場合のみ「有効」
　にする必要がある。とくに差分抽出などのフルビット精度が必要な場合は必ず「無し」
　にしなければならない。またプロジェクトのビット深度も適切に設定する。(CDフォ
　ーマットなどの差分抽出では、全てのビット深度を16bitに設定）


後注）A/D、D/Aコンバータチップの有効ビット深度
　現実の製品であるコンバータ・ハードにおいて、かつてはディスクリート構成のコン
　バータ回路も存在したが、現在のほぼ100％ではAKMやバーブラウンのモノリシック
　コンバータチップが使用されている。オーディオ用（プロスタジオ用を含む）に使用
　される24bitコンバータチップの大部分はデルタシグマ型で、得られる性能もおのずと
　一定の限界を持つ。ある程度の幅はあるものの、得られるダイナミックレンジは
　100dBから120dB程度で、フォーマット上の限界の144dBには遠く及ばない。これは
　物理学上の熱雑音（ボルツマン定数から算出される）による限界が、おおよそ-127dB
　のところに存在するためで、マイクロホンアンプなどと事情はよく似ている。
　分解能（ビット深度）自体は24bitコンバータチップを使用しても、複数のチップを
　スタガー・パラレルに配置することで、数dBの改善は望めるが、上記のようにノイズ
　レベルが定数のように存在し、実際に下位4～7bitは完全にノイズに埋没している。
　　製品として32bit対応をうたったものもあるようだが、あくまでフォーマット上の
　対応であり、その32bitの数値が暗示する性能を真に受けるべきではない。
　（計測用の低速コンバータの中には超高分解能の製品があるが、オーディオにはとて
　も使用できたものではない)


○ディザの一般的使用指針
　測定用途、あるいは精度重視（audacityはその傾向が強い）の場合は、原則として
OFF。とくにビット深度がデフォルトの32bitFの場合、ほとんどの作業では不要と思う
が、大幅なビット深度の変更である、±48dB(8bit)以上の実質的なレベル調整やフィル
タリングなどでは、効果の有無を確認した方が良いだろう。
＊害について
　一般的な整音作業や、ポップスのマスタリングでは、ディザの有無は認知が困難だろ
う。しかし上記したように32bitFの作業結果を、16bitでファイル出力する場合などで
は、ディザの使用でニュアンスの保存性が高まるかもしれない。しかし、ディザがある
からと言って、通常の音楽作業では｢ノイズが増えた」ような変化は無いだろうし、主
観評価的には｢ウォーム」な印象を与える傾向がある。
　ただ曖昧になることは確かだ。曖昧も積み重なると様々な損失として表出する場合が
ある。ブレードランナーな作業を好む向きにはお勧めしない。