20170321表記ゆれの統計的機械翻訳への影響

髙橋 寛治, 山本 和英. 表記ゆれの統計的機械翻訳への影響. 言語処理学会第23回年次大会, pp.745-748 (2017.3)


研究の概要

背景:表記ゆれは言語処理において問題とされているが、具体的にどのような影響があるか分からない
提案:自前の表記ゆれ解消システムを用いて、表記ゆれの統計的機械翻訳への影響を調査し報告する
結果:表記ゆれは悪影響を及ぼすので、表記ゆれを解消すべき
今後:どれくらい表記ゆれが含まれると性能が低下するかを調べる。継続した表記ゆれの解消

補足情報

表記ゆれの解消には日本語解析システム雪だるまを利用しています。
表記ゆれの生成には上記解析器の辞書を用いています。
表記ゆれと統計的機械翻訳に関するこれまでの研究は、文献1文献2などをご覧ください。

質疑応答の内容や補足

  • Q. コーパスサイズによる影響はどうなりますか?
    • A. コーパスサイズが変化しても、表記ゆれは一定数含まれます。(補足:だいたいzipfの法則に則る)
  • Q. 表記ゆれ自体が、どれくらい悪影響を及ぼすか?
    • A. 低頻度の表記ゆれの実験で示した通り、低頻度の場合だとBLEUスコアで1〜2ポイントほど異なります。

発表内容や質疑応答に関する自己評価

質疑応答では解決しなかった問いに対して、懇親会などで話すことができて良かった。
発表自体は、淡々と落ち着いて伝えることができた。
Comments