2014年10月08日

究極のボーカロイドは作れるのか

ボーカロイドはサンプリング音源の一つで、実在する音を録音し、それをパソコンに入れ、音楽作成ソフトウェアで必要に応じた形で使用できるようにしたものですが、こういった「ソフト音源」「サンプリング音源」というものはボカロが生まれるずっと以前から存在していました。
なので別に人間の声が再生できるようになっても、(ガチな)作曲家の人たちにとってはさほど驚くようなことではなかったはず。
昔はパソコンの性能が低く、こういった音を外部の装置に集めないと、スペック的に処理できなかったため、そういう装置を買わなければならず、今よりもずっと高価なものでした(かつ、現在のものよりも音質が悪かった)

さて、音を忠実に再現する要素はいくつかありまして、これはいくつか有名なソフト音源メーカーでは、いまや普通に用いられている技術です。
単に人間の声や楽器の音を、一つだけ録音し、内部で機械的に周波数をいじって音の高さを変えたり、振幅幅を変えて音量を調整する、という時代もあったのですが、それでは楽器の音を忠実に再現できないのです。
なぜなら、楽器というのは、たとえば「小さな音を録音して後で音量を大きくする」というようなやり方だと、楽器を強く弾いた音とはかなり違うんですね。

音量の大きな状態を再現するには、やはり楽器を強く弾いたものを録音しなければならない、と。
だから、楽器を弱く弾く、普通に弾く、強く弾く、すごく弱く、すごく強く……などとして、できるだけ多くの強さの演奏法を録音するわけです。こうしてたくさんの「強さ」が録音されたものを「ベロシティレイヤー」とか呼びます。

録音した音を、周波数を変えて再生する。これで高さの違う音が出せますが、やはり最初からその高さで弾いた音とは少し違うんですね。だからやっぱり、「あらゆる高さの演奏を録音してしまう」と、厳密な再現になるわけです。

演奏法。たとえばバイオリンを、長い音を録音し、再生するときは途中で区切って短い音にする。それよりも、最初から「短い音を録音したものを再生する」ほうが、本物の演奏に近い。だからそういった「演奏法(アーティキュレーション)」に関しても、あらゆる演奏法を録音し……

簡単にいうと、機械内部で音を変形せず、再現すべき音をそのまま録音したほうが忠実に再現できるということです。だから「量」が必要になる。
だから厳密に再現するためには、あらゆる音量、高さ、演奏法について、すべて録音する必要があるわけです。
これに加えてハイレベルな企業では、音どうしの「つなぎ目を滑らかさ」を数パターン録音し、ランダムに再生することで、反復演奏してもまったく同じにならず、まるで人間が演奏しているように聞こえる技術とか(リピティション)、弦を一度叩いて音が鳴り止まないうちにもう一度叩いた音を録音して音の共鳴を再現したり、ピアノの「板」によって共鳴する音を別に録音しておいて、多数の鍵盤を同時に弾いたときに板の共鳴音を再現してさらにリアルな音を……とか、言い出せばきりがないほどの複雑怪奇な技術が詰められています。

もちろん録音する側も大変な作業でして、その作業も、ひどいときは数年単位で録音されたりします。
録音された音の数も膨大で、数万から数十万、ひどいときは百万超えたり、演奏する側もすさまじい忍耐を要求されると思われる膨大な作業の末に、そういうものが出来上がるわけです。
そしてできあがった、たとえばピアノのソフト音源の上質なものでは、数十ギガの容量になったりします。パソコンに入れるのも一苦労で、たった一つの楽器にために両面DVD3枚とか、そんな量になります。


んでボカロはどうなのか。見る限り、初期のボカロでは、まずベロシティレイヤーがないようです。つまり、音の強さは一段階しか録音されていない。
さらに、演奏法。これは後のボカロでは「ささやくような声」とか「クリアな声」とか、5つくらいのパターンが録音されたようですが、最初は一種類しかありませんでした。
音の高さは?たぶんある程度録音されていると思いますが、人間ではありえないような高音域とかは、元の声を機械で変形させて再現しています。まあ実は、一種類しか録音されていないのかもしれません。

このようにしてみると、ボカロのサンプリング技術というのは、最近の他社のそれに比べると非常に「手抜き」に見えるわけですが、これがやむをえない理由としては、人間の声は楽器のように頑丈ではないということです。
そんなに何ヶ月にもわたって大声を張り上げて録音していたら、歌い手の喉が持ちません。

さらにもう一つ重要な理由は、人間の歌が楽器と最も異なる点……「言葉」があることです。演奏法、音量、音高に加え、「言葉」つまり、「あ」から「ん」さらに濁点と半濁点を加えると100種類くらいあるわけでして、つまり楽器の録音数×100です。まともなやり方では体が持ちません。
おそらくヤマハ秘蔵の技術で、できるだけ音量や音高を減らし、それよりも言葉の数に集中しなければならなかったでしょう。それでさえ、おそらくは相当な作業量になったと思います。
……といっても、初期のボカロはDVD1枚に余裕で入るくらいの録音量なので(5GB以内)、通常の上質な楽器のソフト音源に比べると、録音量はずっと少ないようです。
最高音質のピアノのソフト音源は、500GB入っているのがあります。ただしこいつはちょっと特殊で、電磁誘導を使った自動演奏装置を使い、音の強さを100段階入れたという超ド級のシロモノです(というか、そもそも100段階異なる強さで鍵盤を打つというのが、人間では不可能)
もしこれと同じものを人間の声でやろうとすると、「言葉」がある分、歌声は楽器の100倍の録音量が必要になるので、パソコンに詰め込まれる容量は50000GB=50TBという、ありえない容量になります。
もう少しハードルを下げてみても、たとえば平均的なソフト音源は、単一の楽器で数ギガあるのが普通なので、声にすると数百ギガになります。サンプリング数も100万超えとか普通になるでしょう。歌い手の人は、一つ一つ言葉を100万回以上録音しなければならないわけで……1日1000語、毎日休まず録音しても、3年以上かかるわけで、「理屈上は可能」くらいの感じです。現実にそういう作業が可能かというと、難しいでしょう(重要なところですが、歌手というのは歌いすぎると喉が潰れます。特に限界域での最高音は非常に負担が大きい)

試しにVocaloid3の体験版をダウンロードして、声の大きさや発声法を、エフェクターで変形、再現できないかと試みてみましたが、まったく不可能でした。
エフェクターは、出来上がった音に補助的に味付けするにすぎません。やはり厳密に歌声を再現するためには、大量に録音するしかないのです。

それで結論として、現在の技術力では、人の声を完璧に再現するボーカロイドは作れないだろう、と考えます。
機械のように頑丈な喉を持った歌手がいれば作れるかもしれません。


ついでに考えていたのですが、なぜ流行のボカロ曲は早口の歌が多いのか。なぜ超高音域の歌が多いのか。

機械音の欠点をごまかせるから。たぶん。

録音して再現するとき、実は短い音のほうが再現しやすいんです。
最も再現の難しいのは、長い音。しかも何種類もの複雑な抑揚が混合してついているようなものです。
ゆったりと、しかし大きく抑揚のついた歌、たとえば「演歌」の再現なんかは、ボカロのもっとも苦手とするところでしょう。現に私がボーカロイド3で再現を試みたのは演歌の歌だったのですが、どうやっても無理でした。まるで話にならん(ちなみにボカロ内に調整パラメータがたくさんありますが、演歌の再現にはどれも役に立たない)
早口の歌は必然的に短い音の集まりになるので、この中でややこしい抑揚をきかせるのは、人間が歌う場合でも相当に難しく、どうしてものっぺりとした印象になります。そういう場合、まあ楽器をやかましく騒ぎ立てたりしてごまかすわけですが。

それでも通常の音域でボカロに歌わせると、元の人間の声と容易に比較できるため、欠点も目立ちます。人間でほとんど不可能な音域の歌を歌わせれば、機械音の欠点もまあ、目立ちにくくなるのではないかと。
そういうキンキンした歌は、若者の多いニコニコ動画とは、偶然にも相性がよかったと。この相性のよさは偶然だと思います。もしニコニコ動画がなかったら、別の「若者が集まるどこか」で流行っていたと思います。

しかし個人的には、演歌の再現をやってみたいのですが……

こうして人間の声が機械で上手く再現できないので、機械が人間の「声」の仕事をすっかり取ってしまう、というようなことは、起きないと思います。
少なくとも、機械が声優の仕事をやる、というようなことは、まず今から100年くらいはないでしょう。
posted by Valley at 22:04| 日記