連続音切り出しCVVCによる癖殺し音源に関する実験

大まかな経緯はこちら　http://togetter.com/li/560974

目的

単独音音源に比べて良くも悪くも"中の人の癖"が出やすい連続音音源であるが，その中でも"癖が悪い方向に働いている"と思われる音源の癖をCVVC化して殺すことで，音源の使いやすさを向上させることを最終的な目的とし，そのための基礎的な実験として，連続音とCVVCでどの程度中の人の癖の量が変わるのか，実際の歌唱データを基に考察する．

実験概要

原音設定済みの連続音音源から，れんたんじゅつ，CVVCをそれぞれ切り出し，同一の曲をそれぞれ歌唱させてその比較を行う．

事前準備

・原音設定済み連続音音源
・れんたんじゅつ切り出し用のust
・VC切り出し用のust
・べた打ちの歌唱用ust
・autoCVVC(拙作のプラグインです．リンクは後述)

解説　れんたんじゅつの切り出しについて
れんたんじゅつ(CV)の切り出しは，一番綺麗な音を選ぶのが最も綺麗に歌う音源になることが予想される．
その一方で連続音の全ての音素を聞くとそれだけで15分近い時間がかかり，吟味するとなると選定だけで数時間かかることも予想される．

そこで今回の実験では，音素を吟味せず規則的に音素を切り出す方法を採用した．
規則としては，れんたんじゅつ専用リストであるしんたんじゅつリストに倣い，
「いえあおう」の順番で収録されてると想定して切り出しを行う．
上述の切り出し用ustは，この規則上で該当するエイリアスをsetParamを用いて抽出するためのものである．

解説　VCの切り出しについて
VCの切り出しについても，れんたんじゅつと同様最も綺麗な音素を選ぶのが綺麗に歌う音源を作る方法であると考えられるが，全ての音素を吟味するのには膨大な時間を要する．
そこで今回設けた規則は次の通りである．
・拗音についてはjとiの発音が近いことから，設定が楽になるいの段の音素を採用する．
・それ以外の音素については子音単体で表記された時の音のイメージに近いと思われるうの段の音素から切り出しを行う．

解説　CVVC切り出し除外対象について
・あ行については，子音が存在しないのでCVVC化は不可能である．既存通りVVで設定する．
・や行，わ(うぁ)行については，半母音で子音と母音の分割が曖昧なのでVCVで設定する．
・は行については，同一の子音が少ない((はへほ)，ひゃ行，ふぁ行の3種類)なのでVCVで設定する．
・ら行については，日本語で扱う子音にぶれがある(wikipedia:ら行の項参照)ので，異なる子音のクロスフェードを防ぐためVCVを採用する．

手順

1.れんたんじゅつを切り出す

ア.setParamでoto.iniを読み込む
イ.[ファイル]-[ustファイルを読んで編集対象を絞る]を使ってれんたんじゅつの該当音素に絞る．
ウ.oto2.iniとして保存する．
エ.oto2.iniをテキストエディタで開き正規表現を用いて以下の置換をする．
置換前(半角スペースまで含む):
[-aiueon]
置換後(空欄です)

#多分setParamでも可

オ.原音設定する．
左ブランク→子音の頭(前の音の母音の終わり)
それ以外→単独音と同じ

2.VCを切り出す

ア.setParamでoto.iniを読み込む
イ.[ファイル]-[ustファイルを読んで編集対象を絞る]を使ってVCの該当音素に絞る．
ウ.oto3.iniとして保存する．
エ.oto3.iniをテキストエディタで開き以下のルールで置換する．

き　→k'　　く　→k
し　→S　　す　→s
てぃ→t'　　とぅ→t
ちゃ→tS　　つ→ts
に　→J　　ぬ　→n
び　→b'　　ぶ　→b
ぴ　→p'　　ぷ　→p
み　→m'　　む　→m

オ.原音設定する．
左ブランク，オーバーラップ→連続音と同様
先行発声→前の音の母音の終わり
右ブランク→次の音の母音の頭の直前(母音の音を乗せないこと)
オーバーラップ→先行発声と右ブランクの真ん中
※ただし破裂音においては，無音部分に設定する

3.原音設定を統合する

oto.iniにoto2.iniとoto3.iniの内容を統合する．

4.歌唱する

べた打ちのustを用いて歌唱データを出力する．

れんたん:
autoCVVC
・単独音用モード
・フレーズの先頭に-付音素を使う

おま☆かせでピッチを繋ぐ

CVVC:
autoCVVC
・CVVCモード
・フレーズの先頭に-付音素を使う

P1,P4クロスフェード

拡張エンベロープエディタ
・均等ボタンをクリック

クロスフェードされていない音素のエンベロープをデフォルトに戻す

おま☆かせでピッチを繋ぐ

連続音:
連続音一括設定プラグイン
おま☆かせでピッチを繋ぐ

によって最低限の調声を行い，wavファイルを出力した．

5.結果

結果

6.考察

当初想像した以上に，出音に差が少ない結果となった．
れんたんじゅつはともかく，CVVCは多少子音のきつさが目立つもののどちらが連続音かは「言われなければわからない」ものだと評価できる．
これは期待していた結果とは異なるが，上述程度の手間での出音は連続音，CVVCで遜色のないものが期待できると考えられる．

実験目的については，最低限の調声状態では達成することができなかった．
しかし連続音に比べてCVVCの方が調声する余地が多いので，調声によって解決することができるか，追実験が必要だと思われる．
これについては，実験に時間と手間がかかるのでoto.ini及びautoCVVCのプリセットを配布することによって，実験協力を期待することとする．

また，今回の実験結果はあくまで祈音ユダ連続音ver2.0のD3で収録された音源のみで行ったものであり，幅広い連続音のCVVC化で同様の結果になると言うことは難しい．
今後の実験方針としては，別の音源について同様の実験を行っていくことで調査を進めていきたい．

7.実験素材配布

祈音ユダver2.0のD3の原音設定及びプリセット同梱済みautoCVVC
oto.iniのエイリアス設定を一部間違えてしまいました．
oto.iniをテキストエディタで開き，「C」を「J」に置換してください．

oto.iniを下記の音源配布所からDLした音源のoto.iniと差し替えてください．
↑音源と併用するフォルダ構造だと不具合が出る恐れがあるので単体での使用をお願いします．

8.リンク

音源はコチラ

9.謝辞

実験提案者のゆ鳥さん，音源推薦者の町田さん，音源を使わせてくださったしょらみにぇさん，CVVCについて指導くださったせんえいさん，ソフトウェア製作者の飴屋P及び耳ロボPにはこの場を借りて御礼申し上げます．