vocorder

　　　　　　　　　　　　　　　　　　　　　　　　（C)Y.Utsunomia 2008-2010
フォント：Fixed sysやMSゴシック、MS明朝などでご利用下さい。
　　　　　半角、全角のスペース表現が正常化します。


○　ステレオトラックで処理
○　（上）Lトラックがホルマント源　　・・・・・・・・　　声などの入力
○　（下）Rトラックがキャリア　　　　・・・・・・・・　　各種楽器（被変調音）

○　Distance　コーラス様のステレオエフェクト　1～120
○　Channel processing  出力チャンネル数　　　・・・・ 　Stereo/Monoの切り替え　
○　Number of ～　　　　バンドパス素子数  10～240　　　　分割バンド素子数

○　Amp of original～　　ホルマント源の比率（％）　　　　出力へのLトラックバイパス量

○　Amp of white noise　キャリアへのノイズ混入率（％）　
○　Amp of rader needle 内蔵オシレータのレベル（％）
○　Frequency of ～　　内蔵オシレータ周波数　　

○アナログ回路による等価ブロック図

                    分析                  分析結果適用        混合                      
ホルマント入力┏━━━━┳━━┓        ┏━━━━┳━━┓  ┏━━━┓                  
        ──┬┨BPF 1   ┃RECT┃      ┌┨BPF 1   ┃VCA ┃  ┃MIX   ┃                  
            │┃        ┃    ┠───┼╂────┨    ┠─┨      ┃                  
            │┣━━━━╋━━┫      │┣━━━━╋━━┫  ┃      ┃                  
            ├┨BPF 2   ┃RECT┃      ├┨BPF 2   ┃VCA ┃  ┃      ┃                  
            │┃        ┃    ┠───┼╂────┨    ┠─┨      ┃                  
            │┣━━━━╋━━┫      │┣━━━━╋━━┫  ┃      ┃  ┏━━━┓      
            ├┨BPF 3   ┃RECT┃      ├┨BPF 3   ┃VCA ┃  ┃      ┃  ┃Chorus┃出力L 
            │┃        ┃    ┠───┼╂────┨    ┠─┨      ┃  ┃      ┠─    
            │┣━━━━╋━━┫      │┣━━━━╋━━┫  ┃      ┠─┨      ┃      
            ├┨BPF 4   ┃RECT┃      ├┨BPF 4   ┃VCA ┃  ┃      ┃  ┃      ┃出力R 
            │┃        ┃    ┠───┼╂────┨    ┠─┨      ┃  ┃      ┠─    
            │┣━━━━╋━━┫      │┣━━━━╋━━┫  ┃      ┃  ┃      ┃      
            ├┨BPF 5   ┃RECT┃      ├┨BPF 5   ┃VCA ┃  ┃      ┃  ┃      ┃      
            │┃        ┃    ┠───┼╂────┨    ┠─┨      ┃  ┃      ┃      
            │┣━━━━╋━━┫      │┣━━━━╋━━┫  ┃      ┃  ┗━━━┛      
            ├┨BPF 6   ┃RECT┃      ├┨BPF 6   ┃VCA ┃  ┃      ┃                  
            │┃        ┃    ┠───┼╂────┨    ┠─┨      ┃                  
            │┣━━━━╋━━┫      │┣━━━━╋━━┫  ┃      ┃                  
            ├┨BPF 7   ┃RECT┃      ├┨BPF 7   ┃VCA ┃  ┃      ┃                  
            │┃        ┃    ┠───┼╂────┨    ┠─┨      ┃                  
            │┗━━━━┻━━┛      │┗━━━━┻━━┛  ┃      ┃                  
            └────────────┼──────────┨bypass┃                  
                                      │                    ┗━━━┛                  
キャリア入力          ┏━━━┓      │                                                
        ───────┨MIX   ┠───┘                                                
            ┏━━━┓┃      ┃                                                        
            ┃NOISE ┠┨      ┃                                                        
            ┣━━━┫┃      ┃                                                        
            ┃OSC   ┠┨      ┃                                                        
            ┗━━━┛┗━━━┛                                                        

およその動作は以下の通り。
○ホルマント入力から入った信号は、分析部でそれぞれ中心周波数の異なるバンドパス
　フィルターによって分離され、それぞれ検波（AC-DC変換、図ではRECT）され、それぞ
　れのバンドごとに制御電圧化される。
○一方キャリア入力から入った信号は、ホルマント入力同様のバンドパス・フィルター群
　によって分離される。
○それぞれの分離された信号は、それぞれ独立したVCA（電圧制御増幅器）を経てミキサー
　へ送られるが、それぞれのVCAにはホルマント分析によって得られた制御信号が送られて
　いるため、ホルマント入力に近似のスペクトラムに変化し出力される。
（例えばホルマント入力に1kHz付近の信号が多く含まれていると、それに対応したBPFの
　出力が多くなり、その結果は分析適応部の伝送され、キャリア入力信号の1kHz付近の
　成分が強調される。）
○結果としてホルマント入力のスペクトルを、キャリア入力の信号に移植したことになる。

☆しかし、キャリア入力に十分な倍音（加工すべき「豊かな倍音」）が無いと、そこから
　スペクトラムを「削りだす」ことができないので、audacityのプラグインでは「NOISE」
　「インパルス・ジェネレータ（needle)」が付加されている。
　これと同様な工夫であるが、過去の実機製品のいくつかでは、キャリア入力の倍音を増
　やすために「ディストーション」などを付加するようになったものもある。
☆audacityには波形の直接加工の効果が多数あるので、あらかじめキャリア信号を加工し
　十分な倍音にしておくと効果的と思われる。

★audacityのvocorderは上記のような単純なBPF群ではなく、FFTベースの分析部と分析適
　用部で構成されており、最大で240バンドの分析と適用ができる。
　単体製品のvocorderでは少ないもので7～9バンド、多いものでも36程度なので、240バン
　ドは非常に強力と言える（リアルなホルマント移植が可能）。

○Vocorder加工するには
　☆ホルマント源として声などのトラックを作成。
　☆キャリア源として、楽器演奏などのトラックを作成。
　☆この2つのトラックを「上」＝ホルマント、「下」キャリアに並べ、ステレオトラックを
　作成し、vocorderをコールする。　


＊＊ホルマント（formant）とは＊＊
　一般の楽音（音楽に使用される楽器音）と声による情報は、聴覚上明確に区分される。
スペクトラムがどうとかいう以前に、脳がそのように反応することが原因なのだが、声には
いくつかの倍音の特徴がある。声の生成にも関係するが、声帯で発した鋸歯状波様の元波形
は、喉、口、鼻腔などの共鳴を経て出力され、その共鳴によって最低2コブの倍音ピークが
生じるとされる。この2コブの位置により「母音」が形成されるのだが、このピークは発音に
連動しめまぐるしく変化し、情報として機能するのだ。この倍音の情報をホルマント（フォ
ルマント　formant)と称する。「子音」はこのような共鳴ではなく、舌や口唇の発するノイズ
による。
　言語はこの母音と子音の組み合わせ、声帯の発する周波数の偏移によって構成され、相当に
複雑であるが、vocorderはその母音と子音部分を効率よくエッセンスのみ抽出し、情報伝送
するために考案されたものである。audacityにはこの情報を視覚化観察するための表示が用意
されている。トラック左側のプルダウンメニューを開くと、トラックの表示形式を選択できる
が、このうち「スペクトログラムの表示」と「対数周波数でのスペクトログラムの表示」が
これにあたる。この表示形式はソナグラフ、ソノグラムとも呼ばれるが、これらは商標である。
（縦軸＝周波数、横軸＝時間、色あるいは濃淡＝エネルギー、詳細は「分析」を参照）

　vocorderは電話伝送の高能率圧縮のために、その歴史の初期に登場した遺物（あるいは副産
物）である。なぜなら、固定されたフィルター群で、それなりの音声品位を得るには相当な
回路規模になってしまい、実用面でそのことが大きな障害となったからだ。
　その後デジタルの時代になり、デジタルフィルター技術、さらにはFFT技術の適用により、
この高能率圧縮は庶民の生活の中に、MD、DCC、デジタル携帯電話として溶け込むことになる。

　しかし筆者には次のような経験がある。仕事柄、気になるフレーズやアレンジに遭遇すると
譜面化することが多いが、MD全盛のころ、譜面作成のためにMDを使い繰り返し聴き取り譜面化
を行っていたときのこと、あるところまで採譜が進んだところで急に音程が分からなくなって
しまった。しかもそれは単なるベースラインだった。そのようなことは生まれてこのかた、一
度も経験したことの無かったことで、脳のどこかが壊れてしまったのか、とも思えるほどだっ
た。大変な不安と失望から音楽との決別まで考えた（一瞬ではあるが）。
　八つ当たりしたくなるほど取り乱し、ふとオリジナルの非圧縮データを聴いてみると・・・
先ほどまで何度聴いても聴き取れなかった音程が手に取るように分かるではないか？？！！！

　後から考えてみると、この技術（FFT)、高域はともかく低域になるほど周波数分解能が低下
し、似たような音はしていても音程認識に関わる何らかの情報が欠落していたため、聴き取り
がうまくできなかったのだと思われる。単なる不思議体験で終わってよかった。似て非なるも
を作り出すにはうってつけな方法のようだ。（一説によれば倍音群の閾値処理の問題との指摘
もありました・・・が、こんなことでは困ります。似て非なる・・・の記述は、レコード会社
にコピーを公認されたメディアであることを受けて書いたもの。DATは同一のコピーが可能な
ことから公認されることはなかった。自分たちはマスターとしてさんざん使用しているのに・
・・）
　このような経験があるので、後進たちにはできるだけ非圧縮音声を聴くように指導している。

＊＊暗号化への応用
　分析した結果を、分析に用いたフィルターの順列組み合わせを組み替えると、暗号化するこ
とができる。分析に用いたバンドパスフィルターを低い方からABCDEFGとしたとき、それを適用
するバンドパスフィルターをGFEDCBAとすると、ホルマントが周波数軸上で反転し、何をしゃべ
っているのかわからなくなるが、これに類した暗号化は過去にしばしば用いられたことがある。
　前記の例は完全な反転であるが、少しずつ組み替えていくと、徐々に何を言っているのか判別
できなくなっていく。音楽の表現において「デフォルメ（抽象化）」として有効である。わかり
そうで分からない、その微妙さがおもしろいのである。このわかりそうで分からない微妙さは、
単に芸術分野の表現にとどまらず、「人は何をどのように聴くか」という本質的疑問に答える
「鏡」（糸口）であり、探求として重要である。
　audacityでもver,1.4.xではこの分析表示と組み替えができるように開発していただきたいと
ころだ。

＊＊音楽への応用
　vocorderの特徴は、声を例にとるなら「音程」と「ホルマント」を分離して取り扱えるところ
にある。つまり「ホルマント入力」からの信号の「ホルマント」と、「キャリア入力」からの
音程による「ハイブリッド（雑種）」をつくることができるのである。いわば音の「キメラ」だ。
　ポップスにおいては、もっぱら「ロボット・ボイス」的な使い方が多いようだが、これは歌の
ホルマントとキーボードやギターなどの演奏をキャリアとして用いることで実現できる。
　歌の音程は、相当に熟練した演奏者であっても、特有の揺らぎを持ち、器楽との大きな相違点
のひとつになっている。器楽にはこの揺らぎは無いが、数学的単純さを持つものが多く、故に
機械的な音程に人間的ホルマントを持った、「できそこない」なトーンができる。これがなぜ受
けるのかはよくわからないが、ある種の奇人変人ショーなのか、サーカス（昔の）の見世物小屋
的怖いもの見たさなのか・・・・。

　同様の目的で用いられている効果として、audacityにはないが、「ピッチ・ノーマライズ」や
「オートチューン（登録商標）」がある。この効果はvocorder同様に「ホルマント」はそのまま
に、ピッチのみ外部制御できるものであるが、効果の内容は「時間軸の操作」で解説している
「ピッチの変更」を発展させたものだが、得られる効果は「ロボットボイス」に限り同様で、
結果からピッチノーマライズなのかvocorderなのかは容易に判別できない。
(この項の後半で、ピッチノーマライズ：vshifter.exeに関する記述を含める予定だったが、
　現在はvshifter.exe単独の解説を公開している）

　ポップスへの応用はあまり見受けられない使い方だが、vocorderはピッチノーマライズほどピ
ッチ成分について分離が強くなく、例えば、キャリア入力としてピッチを持たない「ホワイトノ
イズ」やインパルス、多くの自然音を用いることができる。ピッチという純化された概念ではな
く、むしろ彫刻のように、キャリアという原木から、フィルター群という彫刻刀を用いてフォル
ムを切り出す感覚なのである。
　キャリアとして、小川のせせらぎや風、犬の吼える声や像の雄たけび、はたまた上記のホワイ
トノイズまで何でもありだ。またAという人のホルマントをBさんの声に乗せることもできる。
ただ削るべき倍音がキャリアに備わっていなければ、削りようがないのだが・・・・。

　ホルマントとしては「声」のみならず、聴覚上、倍音に情報が詰め込まれているものなら、何
でも使用することができる。
　もちろんAさんのキャリアにAさんのホルマントを乗せることもできる。同じ声（同じデータ）
を用いた場合、ホルマント・コントラストを調整（強調になる場合が多い）したことになる。

＊使用上のポイント
　もともとありえないキメラをつくるので、ホルマント、キャリアともに地味な表現では結果と
して得られる音も余計に地味になってしまう。ロボットにしゃべらせたいなら、極端にめりはり
の効いたしゃべりと、耳障りなほどの倍音をもったキャリアを用意すべきである。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊　Let's　Chimaira　！！＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊