相田 太一‎ > ‎文献紹介‎ > ‎

2019/01/07

論文:Understanding Back-Translation at Scale
担当:丸山さん

Training perplexity:予測される単語数。候補が少ないほど正確な予測ができている。多いほど学習したデータが難しい。
未知語への処理はBLEUを見ないとわからない。
Perplexityは結果に影響しているのか。
forwardとbackwardを同時に学習する方法は?→強化学習のdual learning?
backwardをparallelだけでなくmonolingualとも合わせてやるといいのでは?→面倒そう。
Top10の結果が良くない。1番いいのよりもノイズを入れたほうがいい?
    Beam: greedyに幅を持たせる 上からtopいくつかをとる。
    Greedy: その時点で一番確率の高いものを選び続ける。
    Top10: beam,greedyとノイズ加えるやつの中間。
Beam+noise: (2)出力を<BLANK> でなく、ランダムな単語にすると良いのでは?→サンプリングと同じ。
Sampleとbeam+noiseはどっちがいい?→だいたい同じ、としかいえない。
Perplexityで評価するなら、perplexityを評価関数にし、最大化すれば?→高すぎてもおかしくなるのでダメ。
Comments