相田 太一‎ > ‎文献紹介‎ > ‎

2019/01/24

論文:Pay Less Attention with Lightweight and Dynamic Convolutions
担当:桾澤さん

・Gated liner units?:Convolutions seq2seq
ConvolutionsだけどRNNっぽい。(入力に対して過去の情報を使う)
hi(X) = (X*W+b)⚪︎σ(X*V+c)
σ(シグモイド関数)、⚪︎(アダマール積)、W,V(カーネル、重み)、b,c(バイアス)
ややこしいのはGRN:計算量を下げて精度を上げる。

Self-attention:自己注意。
Convolutions:たたみ込み。normal:O(n3)、depth:O(n2)

・パラメータはあまり減っていないのでは?→パラメータの数え方がわからない。
Lightweight:dynamicの計算量を減らすためにチャンネル数を減らした。

・チャンネル数の基準は?→タスクによって異なる。4、8、16?

・なぜ翻訳性能が上がったのか?→先行研究「窓幅は無制限でなく、制限を持たせれば良い」畳み込みで決め打ちして、パラメータ減少+窓幅制約で、性能良くなった?

Comments