相田 太一‎ > ‎文献紹介‎ > ‎

2019/08/30

論文:Better Word Embeddings by Disentangling Contextual n-Gram Information
担当:勝田さん

  • 単語内の文字 n-gram と単語間の bi | tri -gram を同じ重さで扱う。:単語の n-gram と単語間の bi | tri -gram の重要性は異なると思われるので、今後の課題
  • (スライドP4)「学習データに含まれるコンテキスト情報を uni-gram から取り除くことで、優れた分散表現が得られる」とは:Window 幅の中に同じ情報(単語)がたくさん出てくると、情報が薄れてしまう…?
  • (スライドP6)「高次の n-gram を破棄することで単語の埋め込みを取得できる」:学習時は高次の n-gram 埋め込みを使うが、実際に使うときは捨ててしまう。
  • Sent2Vec:文ベクトルを作る。1文の中のある1つを欠落させた状態で「周りの単語」+「単語の n-gram 」からその1つの単語を予測するもの。(=CBOW)
    • 今回は文ベクトルは使用せず、埋め込み表現だけ持ってくる(?)

論文:Soft Contextual Data Augmentation for Neural Machine Translation
担当:丸山さん

  • 精度が上がる要因?:ソフトに拡張(分布を与える)すること
    • ノイズの影響がよわい?
  • どの辺りが拡張?:LMからある単語のところに分布を入れているので、Encoder にとってはその部分の単語が「増えて」いるように見える。
  • 確率分布を入れても学習できるの?:やんわりとした定義(分布)が入るので、OK…
    • 例)
      • 通常:「みかん」「りんご」などを直接入れる。
      • 今回:やんわりと(果物っぽい…?)を入れる。
  • 言語モデル:Transformer のLM。GPTみたいに、Decoder を使っている?
    • 言語モデルが完璧に単語を予測したらあまり効果はなさそう
    • 挿入する位置に応じてバリエーションを出せていると思う。
Comments