相田 太一‎ > ‎文献紹介‎ > ‎

2019/03/28

論文:Dynamic Data Selection for Neural Machine Translation
担当:丸山さん

Newsでin-domainがないのは?:データ数が少ないからかも。
WMT newsで結果が悪かった理由は?:ドメイン合わせが難しい?
→TEDも難しいのでは?:わからないが結果は良かった。
NMTの場合データの6〜70%のデータを使うと結果が良くなるが、今回は〜50%まで。
CEDは「誤差」だから低いほど関連度が高い。
最初からいらない(関連度が低い、関連度の高い順に並べたうち全体の下位50%)を捨てた方が結果が良くなる。
CEDに依存するため、更に良く表現できるもの(数式)があれば、結果はもっと良くなる。

Comments