論文:Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications 担当:勝田さん
- LSTMよりも長く記憶ができる
- LSTMは最後あたりの入力を使い回す
- RUMは前半から取り出せる
- RUM
- GRU+回転
- 大きさを保ったまま、位相を変化させる
- 角度を素性としているため、長期保存が可能になった
- 吉澤の文献紹介で大きさを捨て球状に分布させると良くなった、というものがある[link]
- von Mises-Fisher分布を使っている
- encoderで使った方が良くなりそうだが、decoderで使う方が良いと結論づけた理由?
- encoder側で勾配が少ない
- 学習がうまくいかない
論文:Decomposable Neural Paraphrase Generation 担当:稲岡さん
- 今回は句(語含む)と文の単位で書き換え
- encoder、decoderは粒度の単位分用意
- 2つの粒度による結果をaggrigatorが取りまとめて、どちらの出力を採用するか決める
- 文の言い換えは一般的。ドメインに依存しない
- 語句の言い換えはドメインに若干依存する
- 弱教師あり学習を行う
- 最初は文言い換え、語句言い換えのラベルを与えてあげる
- おそらく、語句/文の言い換え途中にもう片方の言い換えが入ってくることはない
- データセット
- Quora [link]
- 質問サイト
- 質問の重複を解決できるように作られた
- 人手でラベル付け(品質が高い、ノイズが少ない)
- WikiAnswers
- 他ドメイン適応
- Quora→WikiAnswersが良い
- 質の高いデータ(Quora)で訓練しているから?
- Gumbel softmax
- 普通のsoftmax:単純に確率を出力する
- 今回の場合
- ラベルを入力
- 0か1みたいな出力をしたい
- 微分可能であってほしい
- これを叶えるのがGumbel softmax
- もう少し簡単な・ニューラルに頼らないモデルでもできる?
|