論文:Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Dat a担当:小川さん
- 擬似誤りとしてできる単語とConfusion setの違い?:Confusion setは実在する単語を使っている。擬似誤りは存在しない単語を生み出す。
- re-trainingの良さは?:述べられていない。fine-tuningが本当に良いのか試したかったのでは?
- Right-to-Left re-rankingのメリット:単語の順番(後ろの単語を見ないとわからないもの)にも対応できる。
- n-best、n=?:他の論文ではn=1000。↑を期待するため、nの値は大きくなる。
- Left-to-Rightで出力。Right-to-Leftでスコアづけ、re-rankingする。
- WikiEdをアノテーションコーパスの代わりに使っていて、今回はデータ数を揃えている。WikiEdをもっと増やすとどうなる?:大して上がらない。
- 先行研究で擬似誤り生成をしているものは?:ある。これまでは教師あり。
- 教師あり1:統計情報を使う(〜が間違えやすい、など)
- 教師あり2:元の対訳を逆方向(正しい→誤り)に訓練(Back-Translation)
- 今回教師ありに勝ったのは、文字削除・変更でスペルミスに対応+Confusion setで間違えやすい単語に置換?
論文: Adapting Grammatical Error Correction Based on the Native Language 担当:吉澤
- NNJM+SMTをしたのはそれが翻訳で良いスコアを出したから?
- 評価もL1固有のデータ?:そう。言語ごとに偏りがあるのかも。
- NNJM?:次の単語を予測するモデル。
- SMTにどう組み込む?:デコーダ部分
- 言語モデル的な役割をする。
- データ量を調整する(結果SMALL)より、λを適切にした方が良さそう。
|