【私的メモ】UTAU韓国語音源について勉強してみた

UTAU韓国語音源について勉強してみた


動機・目的・免責

  • twitterで毎日presampやCVVCについて検索していると,ハングル勢の食いつきがすごかったので,動作をしっかりサポートしたくなった
  • どうせサポートするなら韓国語音源も動作した方がおもしろいに決まってるので,詳細の仕様を勉強し動作することを目標にする
  • 付け焼刃の知識なので間違いが含まれる可能性が高い.参考サイトは明記しておくので詳細が気になる方は各自確認のこと

参考サイト


技術的な予備知識

  • UTAU.exeのノート上で表示できる文字はshift-jisのみ(日本語環境と同じ)でハングルは文字化けする.
  • 韓国語環境のwindowsでは日本語ファイル名は文字化けしてハングルに表示される.
  • 韓国語環境でのレンダリングスクリプトでは,ノートのエイリアスは文字化けしてハングルで表記される.
  • ファイル名とデータの両方が破綻せず文字化けするので日本語で歌詞入力をすると正常に動作する
  • ustファイルはシステム既定の文字コードで保存される.したがって平仮名は文字化けする.が正常に開ける.

    あちこちが全部均等に文字化けする結果,日本語で入力した内容はそのまま再生できる

ハングルをUTAU上で入力すると文字化けする.しかもこちらは破綻する場合がある.

韓国語音源は原則的にアルファベット表記で作成する

ハングルGUIはUTAUに実装されていないが,UTAU0.276向けの韓国語化パッチを有志の方が配布している模様

韓国語環境を想定した専用のプラグイン等はない模様.日本語環境向けプラグインの動作状況については不明
※多分autoCVVCは動かない

韓国語音源については単独音とCVVCが主流.
連続音は非現実的と言われていたが実装する人もいる.
連続音,CVVC共に統一された形式はなく操作方法はVB毎に異なる?


韓国語に関する予備知識

音韻学:
http://ja.wikipedia.org/wiki/朝鮮語の音韻

ハングルの基礎知識:
http://www.konest.com/contents/study_korean_detail.html?id=119

考察:
日本語と比較して母音の種類が圧倒的に多い.
複合母音は日本語で言うところの拗音など半母音を伴う場合の概念に収まると思われる.
ハングルはCVまたはCVCで1文字となるっぽい


韓国語単独音の解析

調べた音源:
ラオンゼナ(http://ko.utau.wikia.com/wiki/라온제나)

理由:
韓国語単独音単体のリンクがある音源の中で最初に見つけたから

エイリアス数 356
書式:
[V]
[C][V]
[V] [C](パッチム)

※網羅的ではない?

考察:
収録量は日本語の場合の倍程度.
oto.iniを一通り見たところ子音と母音の区別さえついていれば日本語音源と原音設定方法に違いはない模様.
VCを含むのが日本語単独音との大きな違いだと思われるが,ハングルとハングルを繋ぐ目的ではなく,CVCを一文字とするハングルの後半部分だと思われる.
破裂音系では子音を含む音ではなく,舌の動きが重要な模様(パッチム)で,原音上はほぼ無音な部分を伸縮範囲に取る.


韓国語連続音の解析

調べた音源:
ヘヤ(http://ko.utau.wikia.com/wiki/해야)

理由:
初めて韓国語連続音を実装した音源らしいので

エイリアス数:約5,400
書式:
[C1][V2]
[V1] [C1][V2]
[V1] [V2]
[V3] [C2]
[V2]

V1:-,a,ae,e,eo,eu,i,l,m,n,ng,o,u
V2:a,ae,e,eo,eu,i,l,m,n,ng,o,u,ya,yae,ye,yeo,yu,yi,yo,yu
V3:a,ae,e,eo,eu,i,o,u
C1:b,bb,ch,d,dd,g,gg,h,j,jj,k,m,n,p,r,s,ss,t
C2:k,t,p,h,R

考察:
素数,ファイル数ともに英語CVVC-fullリストで名高いCzリストを上回る
収録時間は4時間半程度(中の人談)

C-Cとつながる部分は日本語で言うところのn CVと同様に処理するらしく対象となる子音はl,m,n,ngの4種類.
終声に来る子音はk,t,pを含む7種類だけらしくこちらは語尾音素に近い形で実装されている.

単独音としての音素も網羅されているのでおそらく完全な韓国語リストだと思われる.

原音設定のポイントは日本語音源と同様の模様.

このリストを頭に叩き込んだうえであらゆるパターンを想定すれば,単独音だろうがCVVCだろうが動作させることが可能と思われる.


presampでの対応方針

現時点で動作上不具合と思われる点は,単母音を複数文字であらわすという点のみ.
2文字以上の母音に対応することでpresampでの利用が可能になると思われる.

統一形式が無いということなので,設定ファイルはpresamp規定の物でなく,VB毎に設定するのが無難であると思われるので,その方向で広報する