相田 太一‎ > ‎文献紹介‎ > ‎

2019/06/19

論文:Grammar Error Correction in Morphologically Rich Languages: The Case of Russian
担当:小川さん

今回、ロシア語を取り上げた理由は?:日本語と状況(文法、データが少ない)が似ている
誤り単語も素性として学習させる
擬似データ:大規模なコーパスから生成
error typeは筆者が決めたもの?:言語学的に定められた規則。
コーパスのerror rate:学習者の熟練度によって変わる。


論文:A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
担当:勝田さん

Mx、Mzは:単語の類似度を全て計算するのが大変であるため、計算量を削減?
前処理でベクトルの長さを正規化していいの?:コサイン類似度を見てるからいいのかも。
4つの工夫の1つ、Bidirectional dictionary inductionは、何をしている?:学習する際に言語を入れ替え?
  • どちらかの言語を固定して、もう片方に写像
    • もう片方の情報があまり使われない
    • 局所最適解になる可能性
  • もう片方を固定して、最初の言語に写像

Comments