Audacityとは　（総論）

　　　　　　　　　　　　　　　　　　　　　　　　（C)Y.Utsunomia 2008-2010

　米国製フリーウェア（GPL)で、世界的に教育機関（とくに情報工学系）での採用
例の多い、オーディオ・クロス・プラットホームあるいはエディター、と呼ばれるカテ
ゴリのソフトウェアである。作者はDominic Mazzoni (project leader)をはじめとする
プロジェクトチームとされる。

　現在、写真と同様に録音もデジタル化が進み録音機単独では録音物を安全に残すこと
も困難な時代である。テープを記録媒体として使用していた時代には、テープという実
体により、オリジナルとコピー、編集前と編集後といった識別も容易であったが、現在
の一次的データはメモリーカード上に「ファイル」の形で存在し、その識別すら容易で
はない。また、録音機という機能区分すら明確には存在せず、そのかわりにプラットホ
ームという情報集積所ともいうべき機能を前提としたスタイルに移行しつつある。音楽
用途の制作環境に使用されるプラットホームには様々なソフトウェアが存在し、有償、
無償のものを含め、何が自分の必要とする目的と合致するのかすらわかりにくい現状が
ある。
　また、このプラットホームなどの煩雑な処理を拒否することは、録音機の使用者に不
利益すらもたらせかねないことも現実である。ここでは音楽世界のインフラ整備という
目的をもってフリーウェア（無償で供給され、無償で使用できるソフトウェア。詳しく
はGPL規約を参照）であるaudacityを例とし、活用方法を解説する。また筆者がこの作
文を思い立った原因は、audacityが極めて高性能で信頼に値する有能なソフトであるに
もかかわらず、その性格が極めて汎用で（音楽用途はその使用目的の一部にすぎない）、
そのことに起因する（音楽、、とくにポップス用としては）ある種の使いにくさがあり、
不当な評価がなされているように思えたからである。設計者的立場に立ち、どのように
使われたいか、という視点に立った（とはいえ筆者は一利用者にすぎないが）解説を試
みたい。

　audacityは何に使えるか

○　共用　　　　　　　　　　　　各論　必要ハード
　　　　　　　　　　　　　　　　　　　概論
　　　　　　　　　　　　　　　　　　　バージョンとインストール
　　　　　　　　　　　　　　　　　　　そのほかの有用なソフト
　　　　　　　　　　　　　　　　　　　分析

○　フラッシュメモリーを用いた録音機を入手したが、どのように録音物管理を
　すればよいのかわからない。　　
　　　　　　　　　　　　　　　　各論　ファイル管理
　　　　　　　　　　　　　　　　　　　ノーマライズとSN比

○　フラッシュメモリー録音機やDAT、MDで作成した録音物を編集したり加工したり
　ファイル出力したい。　　　　　各論　ファイル管理
　　　　　　　　　　　　　　　　　　　ファイルの開閉
　　　　　　　　　　　　　　　　　　　イコライゼーション
　　　　　　　　　　　　　　　　　　　ポータブルレコーダーとの連携
　　　　　　　　　　　　　　　　　　　MTR的録音

○　現在の技術の限界を極めた作業をしてみたい。
　　　　　　　　　　　　　　　　各論　サンプリング周波数
　　　　　　　　　　　　　　　　　　　ビット深度とディザ　
　　　　　　　　　　　　　　　　　　　そのほかの有用なソフト　
　　　　　　　　　　　　　　　　　　　HD24への入出力
○　電子音楽したい。
　　　　　　　　　　　　　　　　各論　電子音楽への応用　
　　　　　　　　　　　　　　　　　　　信号源として使用してみる　１、２
　　　　　　　　　　　　　　　　　　　イコライゼーション

○　マルチトラックレコーディングに使用したい。
　　　　　　　　　　　　　　　　各論　トラック数とdB
　　　　　　　　　　　　　　　　　　　MTR的録音

○　外部同期

○　測定用途への応用
　　　　　　　　　　　　　　　　各論　サンプリング周波数
　　　　　　　　　　　　　　　　　　　ビット深度とディザ
　　　　　　　　　　　　　　　　　　　差分抽出
　　　　　　　　　　　　　　　　　　　ノーマライズとSN比
　　　　　　　　　　　　　　　　　　　そのほかの有用なソフト
　　　　　　　　　　　　　　　　　　　分析
　　　　　　　　　　　　　　　　　　　測定と自己校正
　　　　　　　　　　　　　　　　　　　latency 

　現在は公式版のver,1.2.6と、ベータ版（試作品＝バグなどが残る可能性あり）の
ver,1.3.12が公開されている。また対応OSはWindows、Macintosh、Linuxの各版がある。
(10年8月現在）それぞれ微妙に操作様式や対応できるファイルが異なるが、本書では
Windows版を対象とする。


　一般的なDAWソフトとの違いは、明確にワークステーションとしての汎用性と、特定の
音楽用途に特化しない中立的フレーム設計となっていることがあげられる。
また、プログラムそのものはオープンソースであり、プログラミングの能力があれば、
独自に供給される言語パックにより、容易にプラグインを作成できるし、既にある処理
の検証を行うこともできる公開性を特徴とする。
　逆に一般的なDAWソフトとは、その用途が現在の出版形態であるCDや放送業務の、し
かも一般的な制作工程に特化したスタイルのものであり、具体的にはそれらのフォーマ
ット以外のものには対応できないかわりに、能率的にポップスなどの組み立てができる
ように工夫されたソフトウェアである。audacityはそのままポップス向けのDAWのかわ
りに使用することにはかなりの熟練が必要となる。これはaudacityの内部バスが2バス
であるために、最も使用率が高いと思われるリバーブなどの並列系処理が独特の作法を
必要とするからだ。
　また、使用者の矛盾を含む要求やPCの処理能力を超える要求に対して、一般的なDAW
では各種の回避プログラムがあり、自動的に負担を軽減（音品質や処理を端折って）す
るようにできているが、audacityではそのような姑息なプログラムは充実しておらず、
とくに単純再生（audacity唯一のリアルタイム処理、かつ最も高負荷）で容易に異常な
挙動になる（トラブルシューティングを参照）。しかし音品位を保ったままの処理では、
現在のPCの処理能力とはこの程度のものであることもなかなか一般的には受け入れられ
ないようだが、とりあえずは自分が現在使用しているDAWの外部プロセッサとして使用
し始めるのも、きっかけとしては良いと思う。


　いくつかポップス向けDAWとの相違の具体例をあげよう。

◎　サンプリング周波数　　（各論　サンプリング周波数)(安全な使用方法）

　一般的なDAWソフトでサンプリング周波数（音の品位、とくに上限の周波数はサンプ
リング周波数の1/2までに理論上制限される。したがって高いほど高品位。以下fsと表
現。）は、44.1kHz、48kHzなどのよく使用される周波数とその倍数に制約され、それ以
外のfsをとることはできないが、audacityでは基本的に任意のfsを設定でき、下は1Hz 
（実用的には100Hz程度）から上限は事実上無限大（筆者は80MHz程度まで使用したこと
がある。無論あちらこちら問題噴出だが、何とか動作はする）で、地震波から深海生物
や宇宙人の会話まで編集や各種処理が可能である。
(Audacityのサイトでは96kHzfsまでとアナウンスされているのだが･･･）

　これは何もコウモリのための音楽をつくるためではなく、本来録音装置で記録される
テープ（記録媒体）の走行速度は、使用者によって任意に設定できることを発想の原点
としているのであり、このfsが制限されていることは思考を制限されていることにほか
ならない。なぜならテープの長さ方向は、時間そのものであるからだ。これはとても当
たり前のことのように考えられがちであるが、そもそも人間の思考形態には深刻な弱点
がある。時間そのものを思考することが苦手なのである。その証拠に芝居や映画では台
本を、音楽では楽譜を物理学ではX軸をそれぞれ時間に割り当て、この弱点を乗り越え
ようとする。また物理学ではしばしば現象を時間軸から切り離したかたちで、現象を認
識しようとする。前者では他人に情報を伝達する目的以前に時間軸をその一辺にもつ平
面によって思考補助を行っているのである。物理学では時間断面という概念で事象を捉
える。
　そこへ持ってきてテープである。テープの走行速度の制御はそのまま時間経過の制御
であり、根源的な意味での人類の夢なのである。いとも簡単に時間の逆行までできる。
録音物や動画で「逆回転」に説明のできない魅力を感じるのは、思考そのものに接触す
ることへの本能的好奇心と言い換えることができる。

＊　例えばスタジオではテープの時代から
　1倍速で録音したものを半分の速度でエフェクトし、1倍で再生することで、本来その
エフェクトが設定できないエフェクト範囲を拡張したり、特別に要求する音色を得たり
していたが一般的DAWではせいぜい1/2から2倍程度であり、テープの時代にも劣っている。
　また電子音楽（シュトックハウゼンの提唱する）の基本技術のひとつは、テープ速度
の任意の可変であり、この技術がサポートされていないDAWとは一体何者なのだろう。
ポップスではそのような電子音楽のテクノロジーは無関係とするのは大間違いで、ポッ
プスの制作技術の多くは映画の録音技術と電子音楽技術をベースに構築されている。ポ
ップス専用に考案された技術などほとんど存在しない。
　audacity ver,1.3.x系では、その基本コマンドのひとつであるイコライザー（フィル
ター）はサンプリング周波数に合わせて周波数レンジが伸縮するように設計されており、
仮にfs=1MHzとするなら、500KHｚまでの任意のポイントに最大8191素子のフィルターを
設定できるようになる。数値入力も可能である。
　その設定が出力される音に影響があろうが無かろうが設定できなければ新しい音への
「挑戦」などできはしない。
また、この任意のfsに対応するために強力なサンプルリングレート・コンバーターも
内蔵している。（ただし、内蔵のコンバーターは最上の品位とは言い難く、最上の品位
を得るには推奨する外部プログラムを使用する）

★弱点として、使用者がfs可変に対する計算や意味が理解できていない場合、ミスやパ
ニックの原因となる。


◎　ビット深度（ビット冗長）  (各論　ビット深度）（安全な使用方法）
　とくに指定しない限り32bit浮動小数点でデータは扱われる。
オーディオ分野では8bit,16bit,24bit,32bit,32bit浮動小数点(32bitFと表現）が用い
られるが、audacityはそれらすべてのファイル形式（音の品位）に対応し、内部的には
その最高の品位である32bitF処理を行っている(これが重い原因とも）。一般的に音の
解像度とこのビット深度は深い関係にあるとされ、ビット数が大きいほど明確に高品位
になっていくが、それを扱う計算処理は比例して重くなっていく。
　したがって一般的なDAWソフトでは、「実用上問題が無い範囲」で、ビット深度を浅
く（端折って）処理しているものが多い。しかし、どれくらいを実用上問題が無い範囲
とするかは使用者が決めるものであり、ソフトデザイナーが決定することではないし、
現実に実用上＝MP3程度に設定されている高額なソフトも多く見られるし、そのような
ソフトでもファイル入出力上は平然と32ビットをうたっていたりする。audacityはその
ようなソフトを見破り検証することにも使用できるほどの精度を持つ。
　電子音楽以外では使用目的も明らかではないが、audacityはいくつかの信号発生のコ
マンドも持っている。それらはノイズや正弦波や関数波形などだが、これらも32bitF精
度の測定器なみの純粋性を持つ。したがって音響測定のためのワークステーションとし
て使用することが可能で、その品位は音楽を扱う場合では不要なほどの品位（例えばマ
スタリングなどの用途をも上回る）で作業が可能だ。

　ビット深度の変換に対しては任意にディザを与えることが（off可能）でき、聴覚特
性優先か、あるいは精度優先かを選択できる。

★弱点として、先に挙げた最も普通の作業である、単なる多トラックの再生が苦手で、
デフォルトの32bitF状態で正常に開くことができるトラック数は、せいぜい20トラック
程度で、それ以上のトラック数になると処理が追いつかなくなり、再生停止も困難にな
ってしまう。
（一般的にいう「落ちた」状態に近い症状。処理が終わると戻ってくるので気長に待つ
とよいが、普通使用者はパニックに陥り、あげくダメソフトの烙印を押すようだ。）
一般的なDAWとして使用するなら、ファイル、内部処理ともに16bitを指定すると、CD-R
からの直接読み込みでも、30トラック以上を再生できる。
　逆に言えば、普通の落ちないDAWソフトの多くは、「その程度の音品位」ということ
になる。（トラブルシューティングの項を参照）

○audacity ではこのように単純な再生ではトラック数の制限が発生するが、再生しな
いミックスでは（コマンドとして「簡易合成」「ミックスして置き換え」「Mix and Re
nder」「ミックスして作成」とバージョンごとに用語が異なる）では数百トラックあっ
ても何の問題も無く、完全（ヒアリングと物理検証できるレベルにおいて正常と言える
精度）にミックスが可能である。
処理トラック数の限界は実用上無制限といえる。（筆者は128トラックまでしか検証し
ていないが)
トラック数が増えても時間がかかるだけである。

★全ての処理についてこの音品位が保障されているわけではない。例えばタイムストレ
ッチ/エキスパンドやピッチ変換などでは、そのアルゴリズム上、品位は低下するが、
どのプラグインやコマンドで低下が起こるかは使用者が検証してから使用しなければな
らない（現在のver,1.3系のコマンドの多くは、最低で24bit深度のようだが、ver,1.2
系には16bit深度のものも含まれている）。

★★ver,1.3.8からはオペレーションレベルもフロートになり、オーバーレベルをも起
こしにくくなっている。1.3.7までは通常のレコーダー同様、「1」を超えるとクリップ
し、クリップした部分はレベルを下げても元には戻らないが、1.3.8以降では「1」は便
宜上の基準レベルであり、内部的には極大のレベルも取り扱えるようになった。
（無論１を超えるとデバイスの都合でひずみが発生するが、作業工程上一旦はクリップ
しても、後から「増幅」などのコマンドを用いて最大化（レベルは下がるのに最大化）
するとクリップしたことは無かったことになる）ただし、この機能はあくまで「内部的」
なものであり、クリップした状態で固定小数点ファイル出力したりするとクリップは確
定してしまう（無かったことにできなくなる）。
この機能はプロジェクトのビット深度設定が32bit floatのときのみ有効。


　このように大変優れた基本性能を持つが、反面それを実現するために、ふつうのDAW
では可能なのにaudacityでは困難な部分がいくつかある。

　audacityはオフライン処理ソフトである
オフラインとは、音を出しながらの操作ができないことを意味する。
一般的なDAWソフトでは、まるで大規模レコーディングスタジオで作業しているかのよ
うな操作感を得るために、音を出しながら各種のパラメーター（つまみ）を調整するこ
とができるように設計される。
　audacityでは、パラメータを入力し→処理→再生し聴いてみて判断、というサイクル
で操作を行わなければならない。つまり直感的に（？）つまみを触って、「いい感じ」
になるように操作していくという操作様式には対応せず、音の構造や物理特性、心理、
生理についての知識や経験をもとにパラメータを計画的に設定しなければならないので
ある。（無論、プレビュー機能や運用手順で感覚的操作も可能）
　このように書くととても面倒に思えるが、引き換えに究極の品位が得られるならその
程度の譲歩や努力は工夫によって乗り越えられると思うのだが。

　また、現在のパーソナルコンピュータ（マッキントッシュを含む）の基本構造はオフ
ライン処理に特化した設計になっている。音を聴きながら操作を行うリアルタイム処理
にはそれ相応のハードとOSが必要で、業界標準といわれる某PTとて例外ではない上、
file to file処理においては、明確にaudacityのほうが高品位である。それくらいパー
ソナルコンピュータはリアルタイム処理を苦手としている。

　しかし、オフライン処理であるがゆえの高品位エフェクトを、audacityは標準装備し
ている。
　その一つは、強力な等位相型(位相回転しない）イコライゼーションだが、従来のイコ
ライゼーションとは、仕組みも、得られる品位も、使い方も、相当に異なる性質を持っ
ている。（ver,1.3.x～）いわゆるFFTフィルターの一種なのだが、可変範囲は+60dB～
-120dBにおよび、サンプリング周波数により自動的にレンジも追従、しかも位相回転を
伴わない。アナログ世代のエンジニアには理解しがたい特質だが、この位相回転を伴わ
ないという特質は、audacityの基本性能とあいまって、それまでの(位相回転を伴う）イ
コライゼーションでは不可能だった加工プロセスやミックスプロセスが可能であること
を意味している。位相回転があるがゆえに多くのフィルターでは並列使用が困難だった
(同じソースを複数ルートでそれぞれ異なるイコライゼーションしたものを、ミックスし
たり、ミックス後に、ミックス済みトラックの特定パートのイコライゼーションを調整
したりすること）が、このイコライゼーションでは簡単にできてしまう（｢新イコライ
ゼーション」の項を参照）。またその全パラメータは数値化でき、そのほとんどは｢保存
」し、容易に呼び出すことができる。数値入力も可能だ。

　もう一つは｢時間軸の操作」の項で解説している「時間軸のスライド/ピッチの変更」
がそれだ。多くのDAWでは、モノフォニック（あるいはパート単体）に対応するピッチ操
作や時間軸の伸縮は各種のものがあるが、この「時間軸のスライド/ピッチの変更」は
FFTベースで、ミックス済みのソースに対して高品位にこれらの処理を行うことができ
る。単調に演奏してしまったフル･オーケストラの演奏に、十分な抑揚を付け足すことが
できるほどの品位で処理することが可能なほどだ。（ver,1.3.7～）


　file to fileとは　（各論　安全な使用方法を参照）
　狭義にfileとは始点と終点とサイズがあらかじめ確定している情報形式で、fileとい
う語に対してはストリーミングという語をあてる。音楽とは譜面の上では始点と終点と
サイズが確定しているが、現実にはストリーミングな存在で、パソコンが起動する前か
ら、太古の昔から未来永劫に渡るストリームの中の断片であるといえる。この断片を扱
うものがレコーダ（録音機）なのであるが、コンピュータの多くは事務用に設計された
ものであり、より高速に情報をやり取りするために特化した設計になっている。このた
め扱う情報のすべては「file」、つまり時間軸から切り離された情報群として扱うよう
に設計され（最も顕著な部分では、基本ソフトであるOSそのものが）扱う情報がストリ
ームであっても、何らかの方法でfileに変換しなければ効率的な処理ができない）、一
般的にはその呪縛から開放されることはなく、仮に効率的に扱おうとするならストリー
ム専用のOSやハードウェアが必要となる。一例を挙げるならAlesis社のHD24に搭載され
ているFSTというOSとハードや、単体使用のできるデジタルエフェクターが代表的であ
ろう。

　audacity においても効率的な処理のために、独自の断片化エンジンを中核に持って
はいるが、冒頭で述べた中立的フレーム設計と「当たり前」の処理のため、file to 
file処理をメインにしているようである。
　したがってその品位が保たれるのはfile 入力、file 出力についてであり、「録音」
や「再生」に関しては、現実のコンバーターとクロック精度とそれらの同期性能が支配
的に影響を及ぼし、その品位自体は専用設計された「録音機」には遠く及ばない。唯一
例外的な入出力としてはSPdifやa-dat(これらの情報はデジタルではあるが完全な「ス
トリーム」である）での入出力であるが、実使用においてはやはりいくつかの制約が加
わる（ロックインレンジなど）。大変贅沢な話ではあるが、録音と再生（言い換えれば
ストリームとファイルの変換、ファイルとストリームの変換）には専用機を使用し、
編集などの操作にaudacityを用いると最良の結果が得られることになる。また、市販さ
れているハード、ソフトを検証する限り如何に高額であっても、この録音再生機と加工
編集機を両立できている製品は皆無だ。（例えばaudacityとHD24などの組み合わせは相
当に強力で、並み居るDAWで信頼性と品質において比較できるものが無い）

　OS問題　　（各論　ファイルサイズ）
　通常の使用で問題になってくるのは、一般的なOSに起因するファイルサイズの上限問
題がある。
ポップス専用で考えるなら、せいぜい1曲10分程度の長さなのでファイルサイズ上限が
問題になることは無いが、クラシックやサウンド・インスタレーション、ライブの録音
ではファイルサイズの上限である2GBあるいは4GBに容易に達してしまい、対応として、
分割して処理を行うことになる。分割の是非についてここでは論じないが、道義的には
ワンピースで処理できるものならそうしたいものである。audacity はこの点でも独自
のフラグメンテーションを持つため、ハードディスクの容量があるなら、10GB程度の入
出力や加工は何の問題も無く可能である。そのような巨大ファイルの読み込みには普通
に時間がかかるが、プロジェクトファイルを作成した時点で独自フラグメンテーション
化され、以降は読み込み時間は無くなる。
　しかしながら、先に触れたように内部処理は32bitFであるため、プロジェクトファイ
ルなどのデータサイズは巨大で、長時間（先の10GBを越えるような）の編集には、入出
力、テンポラリー領域、プロジェクトファイル領域にそれぞれ独立したパーテションで、
各100GB程度割り当てたほうが良いようである。

　編集精度　（各論　編集方法）
　一般的なDAWと同様、実質的な編集は聴覚型ではなく、波形を見ながら行う視覚型で
はあるが、前記のように単なる視覚型ではなく、多くの場面で倍精度数値入力が可能な
形式で、例えばレベルに関しては0.0001dB、時間精度では1サンプル単位の、再現性のあ
る操作ができる。また全ての操作はUNDO/reDOが可能であるが、そのため上記のテンポ
ラリー領域とプロジェクトファイル領域を広大に用意する必要がある。

　ヒアリングとの対応　（各論　モニター）（各論　必要ハード）
　audacityそのものの再生は、複数の異なるfsのファイルを同時に扱える仕様上、プロ
ジェクトのfsとトラックのfsが異なる場合は、常に簡易サンプリングレート・コンバー
タが動作し、再生音はそれなりの品位劣化が認められる。また、出力デバイスの仕様に
より24bitに対応できない場合、再生動作では同様に簡易ディザが挿入され、ビット深
度は16bitに変換され再生音になる。
（つまり実際に作成されるファイルより、品質低下した音をモニターしていることにな
る）
audacityでは再生用とファイル出力用にそれぞれ独立したサンプリングレート・コンバ
ータとディザを持ち、「品質」設定画面で独立に設定できる。そのため、使用者の作業
環境に合わせ、最適化を図ることができる。またレーテンシー（処理時間規定）に関し
ても独自のつじつまあわせを持ち、様々なハード/ソフト構成で最良の設定が可能では
あるが、専用設計されたレコーダー・ハードにはやはり遠く及ばない。なぜならaudac
ityもまたモニター時とファイル出力時では音情報の処理方法が異なり、それゆえモニ
ター時の音の信憑性にはいささか疑問があるからだ。
　＊サンプリングレート変換を避けるには、プロジェクトとトラックと入出力デバイス
のサンプリング周波数を一致させる。


　一般的DAWとのその他の相異　
　一般的DAWと決定的に異なる点は、リバーブ処理などの並列処理系が弱い点で、auda
cityをDAWとして使用した場合の最大の弱点となる。原因のひとつは、audacityがオフ
ライン処理であることに加え、内部のミキサー構造がL/R2チャンネル分のバスしか持た
ないことで、リバーブ処理を行うには、このL/R以外にバスラインが最低1回線必要とな
る。
　audacityにもリバーブのプラグインはあるが、このような事情からリアルタイムのリ
バーブ付加操作は不可能で、
○　リバーブを付加するには一旦リバーブ送り用のミックスを作成しファイル出力。
○　そのファイルに対してリバーブ付加を行い、ファイル出力。
○　そのリバーブ付きファイルを元のマルチプロジェクトにファイル読み込みし、並べ
　　てミックスするという「作業の読み」と「手順」が必要となる。

　モノは考えようで、本来リバーブとは空間の響きであるので、このリバーブ処理はリ
　バーブ送り用ミックスを作成した時点で、天然の響きのあるところへ出向き、そこで
　スピーカとマイクを用いてリバーブ処理を行い、持ち帰るという方法がある。その作
　業には近年活況のフラッシュメモリーを記録媒体に用いた4トラックMTR（ZOOM社H4な
　ど）を用いれば、走りながらのリバーブ付加ですら可能となる。
　が、やはり面倒なことには変わりない。逆に考えると、一般的なマルチレコーディン
　グ・スタジオでのリバーブ処理があまりに手軽で安易すぎるのかもしれない。