JSAI2018について >> リンク
キーワード:読み曖昧性解消、データセット構築、クラウドソーシング
概要 音声合成において, 文章の区切りや読み・アクセントを決める言語解析は重要な技術である. これまでの研究により, 単語の連接に関する統計情報に基づいた, 単語の読み・アクセントを付与することは概ね可能である. しかし, それらの単語の連接情報は当該単語の前後数語程度に留まっており, 誤る場合がある. その誤りの中でも特に同形異音異義語間での読み付与の誤りがある. 例えば"方"という語には"選択肢の一つあるいは方角を意味する" 「ホー」と"人"を意味する「カタ」という読みの曖昧性がある. 本稿ではこの読み仮名の曖昧性解消に取り組む. 読み仮名の曖昧性解消の研究においては, データセットの不足による誤りが7割を占めるとの知見がある. 一般的に入手可能な現代日本語書き言葉均衡コーパス(BCCWJ)等の既存コーパスのみでは十分な読み仮名の曖昧性解消が期待できないため, 新たにデータセットを構築する手法を提案する. 本手法では, 複数の読み曖昧性を持つ単語の各読みに, 読みを一つしか持たない単語を割り当て, その単語の含まれる文を収集し, さらにその文に含まれる読みを一つしか持たない単語を元の曖昧性のある単語に置き換える. 更に曖昧性のある単語にその読みをタグ付けした. 実験を通して, 本手法は読み仮名毎にバランスの取れたデータセットであることを示した.
質疑応答 Q. ドメインによっては置換の難しい単語が多く存在するかもしれない. 農業系では地域によって呼び名の異なる作物が多く存在する. . A. 読み仮名が異なっているのであれば本手法を使い読み仮名を推定することができますが, 地域によって呼び名の異なる作物は, 読み仮名が異なっていても表す作物は同じであるため今回対象としている問題には当たりません. そのような表記ゆれに関する研究は雪だるまプロジェクトで行っています. また, 本稿の手法では読み仮名によって意味が大きく異なる語が対象であるため, 読みが異なっていても似た作物を表す場合には置換が難しいです.
Q. 読み仮名ごとにその文のスタイルのようなものがあるのではないか, 集めた文からスタイルのようなものを学習できないか.
A. 読みによって意味の大きく異なる語を扱っているため, もしかした語義曖昧性解消の手法が使えるかもしれません. スタイルは読み仮名毎の語義に近いものになると思います.
Q. 多音語で検索した場合にどの程度の読みの偏りがあるのか.
A. 詳しくはポスター中のグラフ(緑軸)を参照していただく必要がありますが, 例としてBCCWJ中の対象単語である"今日"について挙げると, 「キョー」と「コンニチ」の出現比率は100:10文となっています. その他の単語に対しても大きな偏りが見られました. 一方で, 我々の手法においては99:87文とバランス良く収集できています.
Q. 多音語から一音語への置換が難しいが, 今後自動化する予定はあるか.
A. 構想はありますが, 本稿では人手のみです. 置換した文が訓練データとして利用可能か否かの判断を優先しています. 今後, 人手による一音語選択を補助する技術を考案していきます.
JSAI についての所感 (SlideShareリンク) |
|