Kazuhide Yamamoto and Kanji Takahashi. Japanese Orthographical Normalization Does Not Work for Statistical Machine Translation. The 16th China-Japan Natural Language Processing Collaboration Promotion Conference (CJNLP 2016), (2016.9)
概要日本語の表記ゆれの解消が統計的機械翻訳に対して、どのような影響があるかを調査した。 結果、日英・英日の双方向の翻訳においてBLEUやRIBESなどのスコアにおいて改善が見られなかった。
質疑応答Q:雪だるまの表記ゆれ解消について(知って+いる・とる)は行いますか? A:一部解消します。
Q:品詞体系はどうですか? A:UniDicをベースにしたもので、山本先生が考えた品詞体系です。
Q:雪だるまの性能は? A:90%です。
Q:なぜ表記ゆれ解消が働かないですか? A:コーパスに含まれる表記ゆれが少ないからだと考えています。
Q:これからどうしますか? A:NMTで試します。
Q:実験に用いたNTCIR7とKFTTは表記ゆれがあまり含まれていないということを示していますが、本当ですか? A:本当です。
発表内容や質疑応答に関する自己評価、反省昼一で聴衆の集中力が切れやすい時間だったので、大事なところで大きな声にすることによって聞いてもらえた。 発表後のTea breakで深い話をすることができ、非常に参考になった。 質疑応答でとりあえず応答したが、簡潔に話すことは難しかった。
|