論文:Neural Quality Estimation of Grammatical Error Correction 対象は?→全ての単語 スコアの出し方は言語モデルと同じ、全単語から1つの単語を予測する。 Source:訂正モデルの出力文。訂正モデルは完璧な訂正ができない。 Targetの1単語を欠如させて学習する。 quality vectorsの1つ1つ(q1,q2...)の意味は?→全て1つの単語に対するもの。 素性でHTERを使わなかったのは?→M2は自動、HTERは人手だから。 HTERでよくて、M2でよくないのは?→トークンごと(単語ごと)だと良い、フレーズごとだとあまり良くない。 言語モデル:次の単語を予測 Predictorモデル:言語モデルを拡張。1単語だけ隠して、それを予測。w:重み。ここでhjが完成する。これをEstimatorモデルで使うだけ。 出力例、Reference(正解文、人手のもの)だが低い、Referenceではないが高いの意味→Referenceに依存せず、正しい文は正しいとする。 出力は(誤り訂正GECにとって)自信がある順。出力文の数は調整できる。しかし、スコアはEstimatorモデルでつけるため誤り訂正モデルと多少の違いがある。 目的は出力の中から学習者に正しい文を選んでもらうこと。候補を出すに過ぎない。 PCC高→HTERとの相関が高い→人手に近い。 そのうち「どこがどう間違いか」を出力できるようになるのでは? 論文:Bag-of-Words as Target for Neural Machine Translation 担当:稲岡さん 「従来は誤りと処理される他の正解は共通したBoWを共有し、誤りかどうか区別できる」という仮説。→今回の実験ではわからない。 BoWの役割は?→学習時はReferenceの単語と出力文の単語を考慮するためのもの。 Targets and Loss Function l1:入出力 l2:bow epoch:学習の進み具合。 グラフはBoWをどれだけ意識するか、の度合い。 最初は流暢な方(Decorderの学習)を優先、だんだん学習が進むとBoWを使う。しかしDecorderにも重みを置きたいからあるところでBoWの度合いを止めているのでは?あくまで翻訳モデル。 データが少ない言語には難しい。 あらかじめBoWを用意して入力すれば良いのでは?重みを計算しなくて済みそう。 言語間でもBoWを2つ仕入れれば翻訳の品質評価ができるかも。 1.25M sentence pairは少ない。語彙サイズ5万語より大きくするのはよくない。 「0.5point勝つ論文」が多い中「5point勝つ論文」は本当?既存のものにBoWを足すだけで良くなった。中国語だから、ということもあるかも。 |