ポータブル・レコーダーとの連携 2                         (C)Y.Utsunomia 2008-2010  連携 1 では基本と応用について記述したが、2ではさらに高度な応用について、 論じてみたい。  フラッシュメモリーを録音媒体に用いた録音機の可能性については連携1でも触れて いるが、映画や放送などでの同期作業についても、Audacityと連携することで、従来 は比較的難易度の高かったことも容易に行うことができる(ここでいう同期運転は、 タイムコードなどの同期信号を用いる方法ではなく、簡易な運用上の工夫である、ト リガーパルスなどの「手がかり情報」をもとに行う、実質的同期です)。 ○同期が必要になる場面  ☆先ずビデオとの同期 (ここではMPEG4やMPEG2のファイル操作や、音声と映像の   分離や合体については取り扱わない。分離や合体は、適切なソフトウェアを用い   て行い、解説ではビデオコンポジットファイルから音声が分離されているものと   して進める)  ☆音声と音声の同期 (音声と音声の同期とは、複数の録音機を同時に用いて、MTR   を用いずに複数の録音トラックを確保することを目的とする。つまり、録音機が   2チャンネルステレオであっても、2台の録音機では4トラックの、4台の録音機で   は8トラックの同時録音が可能となる方法だ)   連携1ではZOOM社R16のようなMTRとの連携にも触れているが、この新世代のMTRは   わずか6本の乾電池で動作することができ、しかも高い基本性能と機動性が両立   された画期的なマシンといえる。業務で使用される高価なマシンと比べると、見   た目や重量で、多少の頼りなさは否めないが、実際の性能面では比類の無いパフ   ォーマンスを発揮するし、実際に比べられる他機種は存在しない。(現在では、   R16のアップグレード版とも言えるR24も発売されている)    このあまりに画期的なプロフィールから、スタジオを飛び出し、様々な環境で   使用したくなるが、実際にフィールドで使用してみると確かに文句の付けようの   無い働きぶりだ。    ところが、この快適さに慣れてしまうと、人間とは欲深いもので、さらに高い   機動性が欲しくなってしまう(もちろん様々な機能と引き換えにだが)。実際に   フィールドやライブハウスに持ち出してみると、MTR本体は十分に小型軽量で、   使い勝手もよいのだが、それに付随するマイクケーブルやマイクロホンが大きく   重たく、結局は大荷物になってしまう。    そこで、小型軽量なステレオ2チャンネルのレコーダーを複数台同時に使用し、   録音後にAudacity上で同期し、実質的にMTRを用いて録音した場合と同等の、マル   チ録音と同等の結果を得ようというもの。 ○同期の知識  英語では同期をSyncronizeと表し、語源は同じ、あるいは共有を表すラテン語syn と時を表すラテン語cronosから派生した合成語である。つまり2つ以上の事象が同 じように動く(=同じ時間を共有する)ことを表している。  実際のハードウェア設計を行う上でも、時間に依存する処理や動作を設計する場合、 ひとつひとつの動作について個々にタイミングを計るか、それぞれの処理や動作が全 体で一つの基準時計を参照し、それぞれが歯車が噛み合った状態で動作させるかで、 結果や安定性は大きく変わってくる。(独立時計と単一時計同期では、目指す目的や 動作条件により、それぞれ同じ量のメリットとデメリットがあるが、詳細後述)  映画の撮影(旧世代の)では、フィルムに撮影するためのムービーカメラと、テー プに録音するためのテープレコーダーを用いていた。それぞれの時間を刻むメカニズ ムは、それぞれに内蔵されたモーターの回転数に依存する。カメラのフィルム送りの モーターと、テープを送るために使用するキャプスタンモーターがそうだ。カメラの モーターは、モーターの回転こそ滑らかな回転運動だが、フィルムは一コマずつ、 1秒間に24コマ送る間欠運動に、カムなどのメカを用いて変換され、テープレコーダー はひたすら滑らかにテープを一定速度で送るように設計されている(しかもテープは わずかにスリップしながら送られるため、キャプスタン外周速度と送られるテープ量 は一致しないという、極めて微妙な「時間」を持つ。細かく言えば、テープはキャプス タンとゴムでできたピンチローラーに挟まれて送られるが、回転はキャプスタンから ピンチローラーに伝わり、ピンチローラーからテープに伝達される。しかしピンチロ ーラはゴムでできており、変形しながらテープを送るため、スリップしながら進むし かないのである)。  一部の普及品ホームムービーカメラなどの例外を除き、カメラはカメラメーカーに、 レコーダーはレコーダー専門メーカーで製造される。仮に同じメーカーで製造され、 同一のモーターを用いても、決して同じ時間を共有はしない(同期しない)。 そこで考案された方法が「同期信号」を用いる方法だ。カメラからは1秒間にコマ数と 同じ「パルス信号」を得ることができる。このパルス信号をテープのトラックの一つ に記録し(トラックを一つ専用に割り当てなければならないことが無駄なので、テー プの「深層」に記録する方法なども考案され、実用されていた)、再生時に記録され たパルスと、フィルムのコマがずれないように調整することで、撮影時の状態(同期 )を実現していた。  しかしこの方法では、パルスはどれも同じで、ズレは蓄積していかないものの、 フィルムの位置(場面)とテープの位置が一致させることはできない。  映画の撮影風景はしばしば公開されるが、撮影が開始されるところでは「助監督」 が手に「カチンコ」と呼ばれる、小さな黒板に拍子木を合体させたような道具を 「よーい、、パチン」とやっている。この「パチン」を元に、編集の際音と映像の 先頭を合わせる。監督や役者が眠気を吹き飛ばし、気合を入れるためだけではないの だ。逆に、テレビドラマなどの撮影で、同期の必要が無い場合、カチンコの必要は無 い。VTRでは最初から映像と音声は一本のテープに記録され、原理的に同期しているか らだ。VTRを用いた撮影で、カチンコを用いている場合は、ほとんどの場合監督の趣味 である。**歴史的にはカチンコの発明が先で、同期パルスは後年になってから。こ のあたりの歴史を楽しみながら学びたい方には、ジーンケリー主演の「雨に唄えば」の 鑑賞を推薦する。 *MASTER AND SLAVE  この同期を考える場合、注意しなければならないことは、あらゆる場合に同期は勝 手になされるのではなく、どれか一つがMaster、残りがSlaveに、slaveはmasterに従 属するように設定されなければならない。平等ではないのである。masterとslaveに 同じ品位の信号が記録されていると仮定し、それぞれの品位を評価すると、ほぼ全て の場合、品位はmaster>slaveとなってしまう。現在のようにコンピュータソフトで 作業するようになる以前、スタジオは音楽専用と映像同期できるスタジオは明確に 区分されていた。音楽専用スタジオでは大きな劣化の原因になる同期機能を切り捨て、 音品位の向上に励んでいたわけである。某デジデザインの某PTの利点は映像同期に ついてのみであり、常にリサンプル状態で動作するため、筆者の評価ではとても音楽 専用の品位とは認められない。同期を容易にするには、リサンプルを任意にできるよ うに設計することが必要不可欠なのである。 *Audacityにも強力なリサンプル機能があり、任意に使用することができるが、使用 すると品位は低下する。また、その警告はないので、正しい操作方法を理解しよう。 *現在のデジタルオーディオの時間精度  アナログに時代、数値の上では(とくに同期を考える上では)時間精度はかなり悪 かった。一般数値では0.3%から良好なもので0.1%程度、つまり10分で0.6秒程度の ズレがあることになる。また録音に使用した機と再生機が異なると、この数値はさら に悪化する可能性もある。またテープ走行のメカニズムもいくつかの種類があり、そ れぞれの方式により固有の癖がある。  デジタルオーディオの場合は、ほとんどの場合は内部の水晶振動子(稀に電源同期 の場合がある)がその基準になっているので、その水晶振動子の精度に依存するとさ れる(注意! デジタルであってもリサンプル主体の設計の場合は、この限りではな い)。水晶振動子の場合、機種のグレードにもよるが、おおよそ±100PPM程度の精度 に収まるようである。業務スタジオ用のマスタークロックジェネレーターでは1PPM程 度。  1PPMは1/100万なので、%に換算すると100PPMは0.01%になり、アナログに比べる と優秀ということになる。(*ただし、音の品位への影響は、その変動のスペクトル が大きいので、この数値の評価には注意。アナログでは記録媒体の直接読み出しで、 かつ慣性質量があるため、スペクトラムは低域に偏り、デジタルの多くでは記録媒体 に慣性質量があっても無くても、エラー処理系やバッファーがあるため、スペクトラ ムは全帯域または高域に偏る。また、それ以上にクロックに依存する)  100PPMとすると10分で0.06秒のズレ。人間の聴覚の2音の弁別閾はピアノで30msと 言われるので、十分ズレているように聴こえる。それ以前に共通音を含むとコムフィ ルターや定位の不全が生じ、この精度では実用的なMTR代用にはならない。 運がよければ、よく揃った水晶を乗せたレコーダーを複数台入手できるかもしれない が、それはあまり期待できない。また、この精度は温度依存性を持つ。高温では遅く、 低温では速くなるが、これは水晶振動子が熱膨張し、固有振動数が変動するためだ。 筆者の手持ちのフラッシュメモリー録音機で相対時間精度の実測値を例出する。 機種 レングス(サンプル数) 倍率    相対サンプリング周波数  A-1 29071483 ref 48000Hz A-2 29071786 1.00001042 48000.50016 A-3 29071570 1.00000299 48000.14352 B 29072078 1.00002046 48000.98208 C 29074987 1.00012053 48005.78544 さすがに同じ機種同士(A-1、A-2、A-3)では誤差は少ないようだ。しかし、この程 度であっても、MTR同等とは到底言えない! *測定はおよそ10分の時間間隔を持つ、2つのパルス音を録音し、Audacityに読み込 み、2つのパルス間隔をサンプル数で計測する。そこから各録音機の相対サンプリン グ周波数精度を算出したもの。  録音機のサンプリング周波数の絶対値を測定(録音機の内部にプローブを接続し 測定しない場合)したい場合は、例えばAudacityで10分の論理時間間隔を持った2つ の1サンプルパルスを作成し、正確なワードクロックを与えたMTRからその信号を出力 し、被測定録音機にアナログ入力し、その録音結果をAudacityで読み込み、元の信号 と比較することで(あるいはサンプル数を計測することで)絶対値のサンプリング周 波数を測定できる。しかし、業務スタジオでもなければ高精度のワードクロックジェ ネは無いので、本稿では相対値測定とした。** この時間精度は別の言い方で呼べば、サンプリング周波数(=内部ワードクロック) ということができ、実測ではこれほどの差があるものだ。しかしアナログレコーダー と同じく、録音したレコーダーで再生すると、このような差は表出しない。録音と再 生が同じサンプリング周波数であるなら、どれほどの狂いがあっても、サンプリング 周波数の設定が間違っていても、10分は10分だ。(実際には録音したレコーダーで再 生した場合にもわずかな変動があるが、これは「ドリフト」と呼ばれるものだ。この ドリフトは部品としての水晶振動子の品質の問題で、改善するには部品をアップグレ ードする以外に方法は無い)  またワードクロックはそのマシン固有のもので、上記のような実測値(相対値でよ い)をあらかじめ把握しておくと、後の作業が楽になる。 ☆同期の方法  自動的には同期できない。共通の参照すべき信号がどこかに入っていなければなら ない。古くからの映画撮影に学ぼう! 1)録音する際に、目的の演奏などが始まる前に、カチンコのようなパルス(あるい はそれに相当する音・・例えば手を打つなど)を全てのレコーダーに録音する。 2)その後は全ての演奏が終わるまで決して録音を止めずに、 3)演奏が終わったら、すべてのレコーダーに「終わり」のカチンコを録音する。 ☆ 障害がないなら、録音本編中に複数のカチンコが入っていても構わない。 ☆録音時に上記のような「履歴」を残すことで、サンプリング周波数を1台毎に測定し ながら録音することになる。録音した音データをAudacityで読み込み、パルスの間隔 が同じになるように補正すればよいのである。  カチンコパルスは必ず同一のもので無ければならない(もちろんスタートカチンコ とエンドカチンコは別でよい)。録音機に要求される性能としてサンプル落ちなどの 問題が無い機種か、サンプル落ちが発生してもその履歴を音声ファイルとともに保存 する機能のついた録音機を使用する。2)の途中で絶対に止めないことも必携。その ため、長時間運用がファイルシステム上(2GBを超えても、シームレスに次のファイル が作成される機能)も保障され、電源も内臓バッテリーと外部電源でUPS構成になって いるなどが必要。 これらの機能を搭載している機種としてZOOM社H2、H4nなどがあげ られる。 4)ファイルを持ち帰ったら、すべてのカチンコ位置を特定し、ラベルを打ち先頭か らのサンプル数を書き取る(メモ帳が便利。Audacityの下枠部分の時間表示設定を、 「サンプル」に設定しておくと便利。この部分のコピー/ペーストができればさらに便 利なのに・・。時間計算がさらさらできる方は、時分秒サンプル設定でもよい) 5)各トラックごとのスタートカチンコからエンドカチンコまでの長さを、「サンプル」 数で計算。(計算方法はエンドカチンコのサンプル数からスタートカチンコのサンプル 数を差し引く。引き算はWindows標準装備の電卓が「スタート」→「全てのプログラム」 →「アクセサリ」の中にあるが、好みの電卓ソフトがあればそれもよし。メモ帳に書き 取っておけばほとんどの計算の入力は、コピー/ペーストでできるので、うまくやれば ミスを減らせるだろう) 6)MASTERにするトラックを決める。(MASTER以外のトラックは、何らかの時間伸張圧 縮操作を行うため、大なり小なり劣化が発生する。MTR的操作の場合、MASTERは最も劣 化がおこって欲しくないトラックを選ぶ。ビデオとの同期の場合は、ビデオの音声を、 時間軸についてのみMASTERとしなければならない) **以下は何らかの時間軸操作のための作業になるので、自分の作業目的にあわせ、適 宜方法を選択しなければならない。また圧縮や伸張の時間軸操作は何らかの音品位の劣 化を伴うので、損失を最低限にとどめるために熟練しなければならないが、この損失は 同期に特化した某ターミナルソフトでも常に生じているものなので、的確であれば、そ れよりはマシな結果になる。 7-A)Audacityの標準機能を用いる。(リサンプル#1)  Audacityには標準でリサンプルの機能が備わっている。録音したときの、その録音機 のサンプリング周波数が判明すれば、その数値を 波形表示左側のトラックプルダウンメニュー(△印をクリックし)、メニューの一番下 の「サンプリング周波数設定」から「その他」を開くと、任意のサンプリング周波数を設 定できるようになる。  スタートカチンコからエンドカチンコまでのサンプル数は、それぞれの録音機が同じ サンプリング周波数なら同じになるはずだが、上記の例のように一致しない。     サンプル数 A-1 29071483 ref 48000Hz C 29074987 1.00012053 48005.78544 相対的にA-1を基準とすると(仮に正しい48000Hzサンプリングとすると)、C録音機は かなりサンプリング周波数が高いことになる。A-1とCを同期させるには、Audacityに両 方を読み込み、Cのトラックのサンプリング周波数を上記の「その他」にして、48006Hzに 設定すると、ある程度同期できる。  このサンプリング周波数設定ができたら、スタートカチンコが一致するように、タイ ムシフトツールを用いて位置あわせを行う。同期状態を確認したら、修正したトラック 全体を選択し(波形表示左側の、小さくサンプリング周波数などの表示がある部分をク リックし、波形全体の表示色が濃くなったら選択されている)、画面上の「トラック」→ 「ミックスして作成」を実行することで、リサンプルが完了し、新たなトラックとしてレ ンダリングされる。  この方法は単純で操作も早いが、反面、小数点以下の桁が入力できないので、厳密に はサンプル単位の精度は得られない、またA-1とCほどの差が有れば補正もできるが、A-1 、A-2、A-3の間では、差が少なすぎるため補正そのものができない。 7-B)外部リサンプルプログラムを用いる。(r8brainを使用する・・リサンプル#2)  r8brain(リサンプリング専用のプログラム:「そのほかの有用なソフト」で紹介)を 用いて、サンプリング周波数を変更し、尺を合わせる。基本的には7-A)と同様だが、 Audacityのサンプリング周波数設定が、整数値のみであるのに対して、r8brainは小数点 以下まで設定可能で、詳細なリサンプリングが可能。  相違点は、Audacityの場合は、その録音機のサンプリング周波数の真値(相対的な)を 入力すればよいが(Cの場合48000Hz×1.0001253=48005.78544Hz)、r8brainの場合は、 逆数(48000Hz÷1.0001253=47993.9863Hz)の新サンプリング周波数を入力しなければ ならない。Resample to r8:の窓に47993.9863をコピーペーストなどで入力し、その下 のSet sample r8:の窓に48000を入力する。r8brainを試用して、うまく動作しないとい う場合、このset sample r8窓に、適切な数値が入力されていないことが多いようだ。 Resample to r8窓が新しい、変換されるサンプリング周波数で、ここに入力しただけで は、set sample r8にも同じ数値が自動的に入り、「尺」は全く変化しない。尺を微調整 するには、録音機の録音時の物理サンプリング周波数を再現し変換、「さらにそれが 正しい48000Hz(例)であることを、ファイルヘッダに書き込まなければならないが、そ のファイルヘッダに記入される数値の窓がset sample r8の窓になる。  複数の異なるパラメータのファイルをバッチ処理したいところだが、一定のパラメー タでの処理なので、ひとつひとつ処理しなければならないようだ。もちろんぴったり合 うかどうかは、最初のサンプル数計測にかかっている。 7-C)外部の音ずれ補正ソフト(Wave Time Control:「そのほかの有用なソフト」参照) を用いる。  このソフトはリサンプルではなく、補正量に応じて、サンプルを間引いたり、ダミー サンプルを挿入することで、時間軸操作を行うソフトだ。補正量の少ない、一般的な音 楽信号や自然音では良好な結果が得られやすいが(リサンプリングのような漫然とした損 失が出にくい)が補正量が大きいときや、正弦波主体の電子音楽などでは問題を生じやす い。   このソフトは入力形式が、現在のファイル長の時間を、どれくらい延ばしたり短縮した りするのかを、mS(1/1000秒)単位で指定する方式になっているので、簡単に作業するに は、スタートカチンコからエンドカチンコまでを切り出し、その長さをmS単位で測る必要 がある。(スタートカチンコ以前、エンドカチンコ以降も削除し、その長さを、Audacity の画面下のカウンターで計る)切り出したものを計測後、ファイル出力しWave Time Cont rol(wtctrl.exe ver,112以降)で一つずつ処理していく。  このソフトの利点の一つは処理が非常に早いことである。しかし1mS以下(ファイル終端 で)の精度は得られないので注意する。補正量をサンプル数で指定できたり、%で指定で きると大変使いやすくなるのだが、今後のバージョンアップに期待したい。 8)ステップ7)で処理したファイルをAudacityに読み込み、スタートカチンコ位置を あわせると、それぞれの精度で補正できたことになる。  しかしR16やR24を使用して得られるコヒーレントな時間軸精度は得られないものの、 反面、機材の取り回しや機動性は驚異的に向上し、それまでは不可能であった録音制作 が可能になるかもしれない。ZOOM社Hシリーズの最新機種(H1)はこのような目的に合致 する部分が多い。小型軽量、単3電池1本で10時間の連続録音、Hシリーズ最大の入力レベ ル範囲、低価格、使いやすい外部入力、などがそのポイントだが、このような使用目標 を想定するなら、3〜4台一度に購入したくなる(ロットが揃っていた方がサンプリング 周波数のバラつきが少ないため)。このようなMTR相当の録音を行う場合、冒頭の測定例 でもわかるように、できるだけ同じ機種を揃えることで良好な結果が得やすい。 カチンコ音について  カチンコの名称はその音が由来のようだが、音としてはなるべく短時間に立ち上がり、 素早く減衰するものなら、何でも代用できる。音響測定の分野でもインパルスレスポン ス(IR)がその代表だが、道具が無ければ手拍子(筆者のクラスではインパルスな手拍 子の訓練がある)などでもよい。PAなどの電気音響装置を用いていない環境では、手拍 子のピークは、ほとんどの生楽器を凌ぐ。ただコンサート会場などで、そのような音を 発することは、エチケット上憚られるが、例えば上記のH1を用いる場合などは、録音開 始前にすべての録音機を一堂に集め、録音をスタート→カチンコを録音→それぞれの位 置に配置→セッション→録音機を回収→エンドカチンコを録音→停止、のように運用 すると、10時間連続録音の真価も発揮されようというものだ。  手拍子やカチンコでは容易にインパルス音を作れるが、このピークだけがやたらと大 きい信号は取り扱いが難しい一面もあり、音響測定の分野では、インパルス信号をフー リエ論的に分解し、時間軸上に展開した、タイムストレッチドパルス(TSP)信号が用 いられる。この信号は「縦に細長い」パルス信号を展開し「横に引き伸ばす」ことで、 ピークのようなエネルギー集中を避ける手法だが、カチンコのような位置決め情報でも どうようにスペクトラム拡散により、大きなピークを使用しない手法も将来的には出現 するかもしれない。 トラブルシューティング 症状:スタートカチンコとエンドカウント部分ではよくあっているが、それ以外の部分   でズレがある。 原因:録音機の水晶振動子は、温度や回路の動作電圧の影響を受ける可能性がある。ま   た、水晶振動子そのものの部品グレードが低く、漫然とドリフト(サンプリング周   波数のふらつき)があることも考えられる。 対応:機種により使用されている部品は異なり、温度や電圧の影響やドリフトの現れ方   は異なっている。できるだけそれらの変動幅の小さい、安定な録音機を使用したい   ところだが、メーカーはもちろん、そのようなデータを公表している個人もいない   ようだが、自分が所有する機種については、上記のような評価方法で、安定性は把   握することができる。筆者もある程度の傾向は掌握しているが、公表はできない。 対応2:まめにカチンコ(あるいは相当の)音を入れ、補正ポイントを増やすことで、   より細かな修正ができる。 ツッコミ:セコいのではないか。 原因:ちゃんとMTRを使用すれば、そんなことで悩まなくてもよいのでは・・。 対応:このような個別の録音機を複数用いることは、選択肢のひとつです。MTRを用いた   マルチ録音は、たしかに手法として完成しているとはいえ、それがそれなりに身重   であることは、動かしがたい事実です。録音現場はもっと自由であるべきと、筆者   は考えます。またその環境の中でしか生まれないものもあるということ。    この解説文では複雑で面倒に見える部分もあるが、慣れるととても楽です。ロー   コストに、また工夫もできる部分がたくさんあるので、練習してみましょう。    様々な作業をスタジオで長年していると、ときに「合うはずのない」ものを「無理に   でも同期」させなければならないことは、よくある要求です。実際に、カチンコの   ような目印がなくても、ソースに含まれる音だけで同期させることも普通です。 可能性:マルチ録音の場合でも、複数のインパルス音を用いることで、マイク位置など   の「測量」をすることができる。実際にドラムセットなどの音作りを「位相あわせ」   (極性のことではない)を行い、コヒーレントにまとめるには、インパルス応答の   の3次元解析データがあると、とても楽に行える。