論文:Pay Less Attention with Lightweight and Dynamic Convolutions 担当:桾澤さん ・Gated liner units?:Convolutions seq2seq ConvolutionsだけどRNNっぽい。(入力に対して過去の情報を使う) hi(X) = (X*W+b)⚪︎σ(X*V+c) σ(シグモイド関数)、⚪︎(アダマール積)、W,V(カーネル、重み)、b,c(バイアス) ややこしいのはGRN:計算量を下げて精度を上げる。 Self-attention:自己注意。 Convolutions:たたみ込み。normal:O(n3)、depth:O(n2) ・パラメータはあまり減っていないのでは?→パラメータの数え方がわからない。 Lightweight:dynamicの計算量を減らすためにチャンネル数を減らした。 ・チャンネル数の基準は?→タスクによって異なる。4、8、16? ・なぜ翻訳性能が上がったのか?→先行研究「窓幅は無制限でなく、制限を持たせれば良い」畳み込みで決め打ちして、パラメータ減少+窓幅制約で、性能良くなった? |