CJNLP2016、Japanese Orthographical Normalization Does Not Work for Statistical Machine Translation

Kazuhide Yamamoto and Kanji Takahashi. Japanese Orthographical Normalization Does Not Work for Statistical Machine Translation. The 16th China-Japan Natural Language Processing Collaboration Promotion Conference (CJNLP 2016), (2016.9)


概要

日本語の表記ゆれの解消が統計的機械翻訳に対して、どのような影響があるかを調査した。

結果、日英・英日の双方向の翻訳においてBLEUやRIBESなどのスコアにおいて改善が見られなかった。


質疑応答

Q:雪だるまの表記ゆれ解消について(知って+いる・とる)は行いますか?

A:一部解消します。


Q:品詞体系はどうですか?

A:UniDicをベースにしたもので、山本先生が考えた品詞体系です。


Q:雪だるまの性能は?

A:90%です。


Q:なぜ表記ゆれ解消が働かないですか?

A:コーパスに含まれる表記ゆれが少ないからだと考えています。


Q:これからどうしますか?

A:NMTで試します。


Q:実験に用いたNTCIR7とKFTTは表記ゆれがあまり含まれていないということを示していますが、本当ですか?

A:本当です。


発表内容や質疑応答に関する自己評価、反省

昼一で聴衆の集中力が切れやすい時間だったので、大事なところで大きな声にすることによって聞いてもらえた。

発表後のTea breakで深い話をすることができ、非常に参考になった。

質疑応答でとりあえず応答したが、簡潔に話すことは難しかった。


Comments