文献:A Document Descriptor using Covariance of Word Vectors 担当:稲岡さん 従来手法(doc2vec、FastSent)は単語と共通の空間にあるが、提案手法(DoCoV)は単語の密度の形状を符号化する為、単語の空間とは違った文書独自の空間ができる。 共分散はd次元の単語埋め込み?:行が単語、列がその単語ベクトル。列ごとに取り出して計算している。(i列目とj列目) 単語埋め込み:word embedding 共分散の行列からベクトル?:行列のままでもできるが、ベクトルとして扱いたかったから。そのままベクトルに変換すると、情報が抜け落ちる。そこで、p=qの時はそのまま、p!=qの時はルート2をかけている。 提案手法にどうやってBoWを足している?:単純に足してるだけ。 線形SVMで分類:レビューがpかnか分類。レビューは普通positiveかnegativeの2値 mean:文書に出現する単語(i列目の1~n番目の単語)の平均(=d次元。縦をそのまま圧縮しているだけ。)結果より、平均<共分散(ばらつきを評価する) GloveのLrg?:ウィキペディアで学習したやつを使う。(Gnewsも外部のでかいデータとしては共通。)同じ次元数(d=300)でLrgを使う・使わないで比較できる。 単語の順番が考慮されていない。本当なら考慮されるべき。 文献:Back-Translation Sampling by Targeting Difficult Words in Neural Machine Translation 担当:丸山さん 逆翻訳でどれだけいい情報を選んでBackWord Modelに突っ込めるか。 予測の損失?:あるか・ないか。クロスエントロピー?エンコーダー・デコーダーモデルの損失関数。parallel corpusだけで計算。低いほうがいい。 2.予測損失の平均の閾値に合わせたサンプリング:閾値を越えれば大小に関係なく同じ量をサンプリング 3.予測損失の比率に合わせたサンプリング:2倍難しければ、2倍取ってくる。 予測の損失と頻度は相関がある。予測損失と頻度を考慮した場合、結果はどちらもあまり変わらなかった。低頻度を考慮すれば良さそう。 parallelと擬似データの比率。増やせば増やすほどいい?:1:1、1:4はあまりかわらない。1:10は悪くなった。1:1がベスト。 データの質:人手と擬似データはあまり変わらなかった。 コーパスを作る際にどんな文を用意するか、は考えるべき。 |