相田 太一‎ > ‎文献紹介‎ > ‎

2019/02/27

文献:A Document Descriptor using Covariance of Word Vectors
担当:稲岡さん

従来手法(doc2vec、FastSent)は単語と共通の空間にあるが、提案手法(DoCoV)は単語の密度の形状を符号化する為、単語の空間とは違った文書独自の空間ができる。

共分散はd次元の単語埋め込み?:行が単語、列がその単語ベクトル。列ごとに取り出して計算している。(i列目とj列目)
単語埋め込み:word embedding
共分散の行列からベクトル?:行列のままでもできるが、ベクトルとして扱いたかったから。そのままベクトルに変換すると、情報が抜け落ちる。そこで、p=qの時はそのまま、p!=qの時はルート2をかけている。
提案手法にどうやってBoWを足している?:単純に足してるだけ。
線形SVMで分類:レビューがpかnか分類。レビューは普通positiveかnegativeの2値
mean:文書に出現する単語(i列目の1~n番目の単語)の平均(=d次元。縦をそのまま圧縮しているだけ。)結果より、平均<共分散(ばらつきを評価する)
GloveのLrg?:ウィキペディアで学習したやつを使う。(Gnewsも外部のでかいデータとしては共通。)同じ次元数(d=300)でLrgを使う・使わないで比較できる。
単語の順番が考慮されていない。本当なら考慮されるべき。



文献:Back-Translation Sampling by Targeting Difficult Words in Neural Machine Translation
担当:丸山さん

逆翻訳でどれだけいい情報を選んでBackWord Modelに突っ込めるか。

予測の損失?:あるか・ないか。クロスエントロピー?エンコーダー・デコーダーモデルの損失関数。parallel corpusだけで計算。低いほうがいい。
2.予測損失の平均の閾値に合わせたサンプリング:閾値を越えれば大小に関係なく同じ量をサンプリング
3.予測損失の比率に合わせたサンプリング:2倍難しければ、2倍取ってくる。
予測の損失と頻度は相関がある。予測損失と頻度を考慮した場合、結果はどちらもあまり変わらなかった。低頻度を考慮すれば良さそう。
parallelと擬似データの比率。増やせば増やすほどいい?:1:1、1:4はあまりかわらない。1:10は悪くなった。1:1がベスト。
データの質:人手と擬似データはあまり変わらなかった。
コーパスを作る際にどんな文を用意するか、は考えるべき。
Comments