論文: Better Word Embeddings by Disentangling Contextual n-Gram Information担当:勝田さん
- 単語内の文字 n-gram と単語間の bi | tri -gram を同じ重さで扱う。:単語の n-gram と単語間の bi | tri -gram の重要性は異なると思われるので、今後の課題
- (スライドP4)「学習データに含まれるコンテキスト情報を uni-gram から取り除くことで、優れた分散表現が得られる」とは:Window 幅の中に同じ情報(単語)がたくさん出てくると、情報が薄れてしまう…?
- (スライドP6)「高次の n-gram を破棄することで単語の埋め込みを取得できる」:学習時は高次の n-gram 埋め込みを使うが、実際に使うときは捨ててしまう。
- Sent2Vec:文ベクトルを作る。1文の中のある1つを欠落させた状態で「周りの単語」+「単語の n-gram 」からその1つの単語を予測するもの。(=CBOW)
- 今回は文ベクトルは使用せず、埋め込み表現だけ持ってくる(?)
論文:Soft Contextual Data Augmentation for Neural Machine Translation 担当:丸山さん
- 精度が上がる要因?:ソフトに拡張(分布を与える)すること
- どの辺りが拡張?:LMからある単語のところに分布を入れているので、Encoder にとってはその部分の単語が「増えて」いるように見える。
- 確率分布を入れても学習できるの?:やんわりとした定義(分布)が入るので、OK…
- 例)
- 通常:「みかん」「りんご」などを直接入れる。
- 今回:やんわりと(果物っぽい…?)を入れる。
- 言語モデル:Transformer のLM。GPTみたいに、Decoder を使っている?
- 言語モデルが完璧に単語を予測したらあまり効果はなさそう
- 挿入する位置に応じてバリエーションを出せていると思う。
|