西山 浩気‎ > ‎文献紹介‎ > ‎

USING CONTINUOUS LEXICAL EMBEDDINGS To IMPROVE SYMBOLIC-PROSODY PREDICTION IN A TEXT-TO-SPEECH FRONT-END

概要
 テキストから音声に変換するタスク(TTS)において, テキストから韻律情報を取得することが必要である. アクセントの強弱・句の区切りの予測には, アクセントの曖昧性やテキスト外の情報も必要である. そこで, テキストから辞書の情報のみでなくより豊かな表現方法であるLSTNを用いた単語埋め込みを入力として分類問題を解く. 結果として, 辞書の情報に1-hotの単語ベクトルを利用する場合と比較して, Prominence Predictionにおいては優位性が見られた. 一方で句の区切り予測においては寄与が少なく, 単語埋め込みによる優位性は小さかった. 単純に単語を1-hotで入力する場合と比較すると何れの場合も優位性はあることを示した.

スライド(URL)
Comments