原音設定関係のあれこれ - きみがため Lab.

初めに

最近原音設定関係の説明をする機会が増えたので，説明に便利な資料をまとめようと思います．
そこそこ長い事原音設定やってるので変なことはあんまり書いてないと思いますけど，おかしいことがありましたらお気軽にご指摘ください．
今回の記事は単独音中心ですが，盛大に脱線しまくってます．ごめんなさい．
本当の本当の基本は説明する気も特にないのですし，先人の偉大な努力があるので下記のサイトをご覧ください．

中の人をプロデュース - UTAU向け音源製作支援サイト -N.H.P.
→http://utaunhp.info/
#原音設定をしない人でも中の人必読のサイトです．
小春音アミの原音設定
→http://www14.big.or.jp/~amiami/happy/utau/otoini01.html
#音源の配布サイトなのですが，原音設定に関する情報量は随一だと思います．
#これから原音設定を勉強する人に最適です．

各パラメータの意味

まず先行発声とオフセット(左ブランク)

先行発声は基本的に母音の頭に合わせます．
母音の探し方はスペクトル表示で見たらすぐわかると思います．
実際のスペクトルは"小春音アミの原音設定"の方にたくさん画像がありますのでそちらを参考にしてください．

オフセット(左ブランク)は単独音・連続音で設定が異なりますが
オフセットより左の音は鳴らない．
これだけわかっていれば大丈夫です．

次，オーバーラップ

単独音の原音設定では最も好みが出るところであり，連続音の設定では多くの人が弄らない部分です．
オーバーラップは前の音とのクロスフェードの長さ
です．
単独音においては子音が破たんしない範囲で長め．
連続音では前の母音が減衰する前に設定するのが基本です．
#bpm100ぐらいで収録している連続音ではオーバーラップに問題がある場合は少ないです．
#テンポの速いガイドBGMを使ってる場合は，オーバーラップが子音に被ってる恐れがあります．

単独音のオーバーラップ設定が結合にどのような影響を与えるか
「あさ」という言葉を使って実際に図示したのがこちら↓

まず1番上．オーバーラップ0です．音は重複しません．
"あ"の音が完全に終わった後"さ"の音が始まります．

次に上から2番目．オーバーラップが0ではないものの極端に短い例です．
ぶっちゃけ結果は1番上と変りません．

上から3番目．オーバーラップを長くとりすぎの場合です．
画像を見ると分かる通り"さ"の"s"の部分がかなり消えてしまっていることがわかります．
左ブランクで子音を切り落としてしまってる場合と同様，違う音に聞こえる原因になります．

1番下．破綻しないように調節した例です．

単独音のオーバーラップ(破裂音のぞく)はN.H.P.では

先行発声の約1/3~1/2

と説明されています．

個人的な感覚としては
冒頭を切り落とすと音が変わってしまう子音[s→t，sh→chなど]は先行発声の1/3程度
それ以外の子音は先行発声の1/2~2/3程度

が妥当だと思います．

実際には
オーバーラップが短い→1音1音はっきり発音する→自然さが犠牲になるが各音が聞き取りやすい

という側面もあるので，好みの領域です．僕は長め長めの設定が好みです．

破裂音の設定はこんな感じ

なぜこんな設定になるのかは実際に発音してみたらわかります．
無声の破裂音の前には無音が入るのです．
連続音用の収録データから確認できます．

#直前の無音部分が大事なのか，ひとつ前の音のフェードアウトする音が大事なのか，実は僕はよくわかってません．
#連続音で収録量を減らす手法でも
#「k,t,pは音が繋がってないから単独音でオッケー」という人と
#「k,t,pは直前の音の消え方が重要だからむしろk,t,pこそ連続音が必要」という人がいます．
#中の人の苦労を無視させてもらえば，全部連続音で録ってもらえると一番悩まなくて済みますw

次はts(つぁ行)とかch(ちゃ行)って破裂音の設定をした方がいいのか．

N.H.P.では
"破裂音と同じ設定にしてもいい"
#文脈の都合引用部分を減らす為に言い方を変えています
小春音アミの原音設定では
" 設定方法は「た」などのtからはじまる音とおなじだけど、波形がかなりちがいます。"

と解説しています．
#ちなみに僕は破裂音以外の設定をしています．

先ほどと同じように実際に連続音の波形をキャプチャしてみたのがコチラ

破裂音と同じように設定するのが妥当っぽいです．

伸縮範囲

伸縮範囲の使われ方はエンジンによって異なる
のですが，とりあえずUTAU同梱エンジンであるresampler基準で原音設定するのがいいと思います．

そもそもresamplerで伸縮範囲がどのように扱われているのか，実験してみました．
"ああいあう.wav"のほとんどを伸縮範囲にして出音をキャプチャしたものです．

まず，音が原音以下の長さの場合
原音を高速再生するわけではなく，後ろの音を切り落とします．

一方，音が原音を越えて長い場合，伸縮範囲全体が均等に伸びます．

よって
・音を短くしてもノイズは乗らないが，伸ばすときにエンジン特有のノイズがなる可能性が有る．
・伸縮範囲にノイズが乗っていたらノイズも一緒に引き延ばされる．
ことが予想されます．

伸縮範囲は出来るだけ長く安定してる部分を選ぶ

事が重要になります．

設定例です．

実際はスペクトルも見ながら設定するのですが画像の準備が面倒なので省略．

まず1番上．何の問題もありません．
できるだけ長く固定範囲と右ブランクで囲います．

2番目．2か所不安定になっていますが，気にするほどではないと思います．
使っていてどうしても気になるようなら右ブランクを破線の位置まで移すのがいいでしょう．

3番目．1か所が大きくへこんでるパターンです．非常によくあります．
1番上のパターンに比べてロングトーンに癖がのりますが，気にするほどではありません．
#どうせ連続音なら中の人の癖が出ます

4番目．どこを安定している部分ととらえていいのか非常に悩むパターン．
癖のある音源か，息も絶え絶えに収録した連続音の最後のロングトーンで見られるパターンです．
基本的に収録者の意思を尊重して，
癖のある音源を目指してるなら長めの伸縮範囲
素直な音源を目指してるなら出だしの比較的安定してる部分だけで伸縮範囲を作ります．

次はちょっと極端な例を紹介．
画像はサンプルのために加工した音源ですが，まれにこういうこともあります．

明らかな収録ミスパターンです．
原音設定を依頼されている場合や本人の場合は再録のお願い
何らかの事情で中の人に言いづらい場合や，再録を待ってられない場合は図のように設定するのがいいでしょう．
#多くの中の人は報告した方が喜ぶとは思いますが…

おわりに

いかがだったでしょうか．
書けば書くほど「文章を書きなれていない・まとめを作り慣れていない」ことが露見して落ち込むのでここら辺で筆を置かせてもらいます．

不明な点，質問事項，記事に関係なくても紹介してほしい内容等要望をもらいましたら，また筆を取るかもしれません．

以上