論文:Dynamic Data Selection for Neural Machine Translation 担当:丸山さん Newsでin-domainがないのは?:データ数が少ないからかも。 WMT newsで結果が悪かった理由は?:ドメイン合わせが難しい? →TEDも難しいのでは?:わからないが結果は良かった。 NMTの場合データの6〜70%のデータを使うと結果が良くなるが、今回は〜50%まで。 CEDは「誤差」だから低いほど関連度が高い。 最初からいらない(関連度が低い、関連度の高い順に並べたうち全体の下位50%)を捨てた方が結果が良くなる。 CEDに依存するため、更に良く表現できるもの(数式)があれば、結果はもっと良くなる。 |