相田 太一‎ > ‎文献紹介‎ > ‎

2019/08/05

論文:Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data
担当:小川さん

  • 擬似誤りとしてできる単語とConfusion setの違い?:Confusion setは実在する単語を使っている。擬似誤りは存在しない単語を生み出す。
  • re-trainingの良さは?:述べられていない。fine-tuningが本当に良いのか試したかったのでは?
  • Right-to-Left re-rankingのメリット:単語の順番(後ろの単語を見ないとわからないもの)にも対応できる。
    • n-best、n=?:他の論文ではn=1000。↑を期待するため、nの値は大きくなる。
    • Left-to-Rightで出力。Right-to-Leftでスコアづけ、re-rankingする。
  • WikiEdをアノテーションコーパスの代わりに使っていて、今回はデータ数を揃えている。WikiEdをもっと増やすとどうなる?:大して上がらない。
  • 先行研究で擬似誤り生成をしているものは?:ある。これまでは教師あり。
    • 教師あり1:統計情報を使う(〜が間違えやすい、など)
    • 教師あり2:元の対訳を逆方向(正しい→誤り)に訓練(Back-Translation)
    • 今回教師ありに勝ったのは、文字削除・変更でスペルミスに対応+Confusion setで間違えやすい単語に置換?


論文: Adapting Grammatical Error Correction Based on the Native Language
担当:吉澤

  • NNJM+SMTをしたのはそれが翻訳で良いスコアを出したから?
  • 評価もL1固有のデータ?:そう。言語ごとに偏りがあるのかも。
    • 過適合:少しあった誤りが無視される事?
  • NNJM?:次の単語を予測するモデル。
    • SMTにどう組み込む?:デコーダ部分
    • 言語モデル的な役割をする。
  • データ量を調整する(結果SMALL)より、λを適切にした方が良さそう。

Comments