論文:Extract and Edit: An Alternative to Back-Translation for Unsupervised Neural Machine Translation 担当:丸山さん Edit:前のExtractで近い文を取ってくる。ソースと候補のmax pooling。 LM:同じ言語でやっても意味がないからEncoderとDecoderで分けて使う。 Evaluate:ソースとの類似度を計算。M'とソースよりも出力t*とソースの類似度が高くなるように。 今回の逆翻訳は量を増やすことが目的ではない。 候補を増やせば増やすほど良くなるが、計算機の都合上10個までしかできなかった。 イメージ的にはGANとみなすことができる。 BLEUで6とか9とかは話にならない。 論文:Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture with Unlabeled Data 担当:小川さん 誤り訂正ではF0.5。Precisionが優先される。 αは単語ごとに決める。コピーの重み? コピースコア:コピーメカニズムというものがある。 Precisionが下がった?:token-levelのMulti task learningで単語の予測ごとに誤り検出みたいなことをしている。 →誤りを検出しやすくなり、誤りと判断した数が増えてPrecisionが下がりRecallが上がったのでは? |