IALP2019

発表スライド [slide]

研究の概要

 機械翻訳の確信度を訳文ごとに計算する手法を提案した。
 現在の機械翻訳システムは「正しい」訳文も「正しそうな(=誤訳)」訳文も同様に出力するため、全ての訳文を信頼することはできない。
 そこで、訳文ごとにシステムから見た「自信度(確信度)」を計算し、ある程度の閾値で出力を制限する(あえて出力しない)ことで、信頼できる訳文が得られるのではないかと考えている。
 まず、確信度を計算するための指標をシステムの中身の要素から2つ提案し、機械翻訳の評価尺度である BLEU との相関を調べて確信度としての有用性を確認した。次に、提案した指標を実際に確信度計算に用い、出力を制限する閾値を変化させた。その結果、閾値を高くするほど出力される文の数は減るが、得られた訳文の BLEU スコアの平均値は上昇した。
 以上の結果より、我々の提案した手法により品質の良い訳文だけを得られることがわかった。

補足情報

 今回提案した手法は、機械翻訳の評価指標である BLEU を参照文(=正解となる訳文)を使わずに推測するものである。
 本来、BLEU は計算するために正解となる参照文を必要とするが、実際に機械翻訳システムを用いる際には参照文が手元にない場合が多い。そこで、参照文を用いずに BLEU の値を推定することができれば、高い品質の訳文を要求する翻訳者の助けになると考えている。
 また、参照文を用いずに訳文の品質を推定する Quality Estimation というタスクが存在しているが、訓練の際に原文、機械翻訳システムによる訳文に加えて、人手で修正(Post-edit)した文を必要とする。システムは原文と訳文から人手で修正した文を推定し、修正文と訳文の編集距離でスコアをつける。上記のやり方ではシステムを介す回数が増えて信用性に欠けるので、訳文を出力する過程で品質を推定する我々の提案手法の方が信頼できると考えている。

質疑応答

<発表中>
Q. 今回提案した確信度計算のための指標は Attention weight と比べるとどうなるのか。
A. Attention weight は今後用いる。

Q. 確信度が閾値を下回ったらその訳文を出力しないとあるが、実験ではどうやって出力された文を数えたのか。
A. スプレッドシート上で閾値を上回った文の数をカウントした。

Q. 出力を制限する閾値を高くした場合、約2000文入力しても100文しか得られていないが、それでも良いのか。
A. 得られた訳文の品質が良いのであれば、それでも良いと考えている。

<発表後>
Q. 確信度を計算するとあるが、訓練時も用いるのか。
A. 確信度計算は test の時だけ行う。

Q. この研究は BLEU を推定する手法のように見えるが、それで正しいか。
A. 正しい。

自己評価

・当日はゆっくりと大きな声で発表し、突然のマイクトラブルにも対応できたので、理想的な発表ができた。
・発表練習の時は質疑応答で30秒固まってしまい議論が成立していなかったが、当日はすぐに聞き返すなど会話が途切れないように意識した。
・相手の質問の内容を予測して的外れな返答をしてしまったので、今後は相手の意図を理解できるまで相手と確認をしてから返答したい。
Comments