論文:End-to-End Memory Networks, Gated End-to-End Memory Networks 担当:小川さん パラメータを減らす工夫? ・Adjacentは前の出力=先の入力。近い位置のパラメータを共有する。(両方の手法で用いられる) ・GlobalはTをまとめる(後の手法) ・Hopは独立して学習。誤差逆伝播。どのように誤差が伝わる?:わからない。 1kと10kの違いは?1000問と10000問といて比べる理由がわからない。:問題数に比例してデータ(対応する事実文)が多くなる。 層を3つにした理由?:1〜3つまでやって3層が一番良かった。4層以降はやってない。→パラメータが多くなるけどやるべき。 最終的に3つ目の層だけが答えになっているから、1つ目と2つ目の層で注視した文は考慮されていないのかも。→答えが出るまで再帰的に検索し続ければ良いのでは? +Match?:違う実験になっている。 Highway Networksを使う意図:早い段階でだいたい答えになる文がわかったらそれ以降の層ではスルーする(y = x にする)ため。増やしすぎると簡単な問題が解けなくなる? 次元数?:V単語数、d=20(固定) 学習初期段階でsoftmax層を抜いて学習を早める。→いいのか?:最初は抜いても影響が出ない、とされている。 どのように問題が作られているのか。問題の前4文を読めば解けるのか?依存関係があるのか? 単純に単語の検索だけを考慮すれば作れそう。単語をベクトル化する効果があまりなさそう。 |