相田 太一‎ > ‎文献紹介‎ > ‎

2019/05/15

論文:Neural Grammatical Error Correction with Finite State Transducers
担当:小川さん

  • 文法誤りは強い制約のある問題であるため、FSTなどでNMTの予測空間を制限した方が良い。
    • データによりけりなところもある。
      • 単語単位で間違えている場合なら適している。
      • 突拍子も無い文を書いている場合は適さない。
  • FST:NMTの予測空間を制限。
    • FSA:状態遷移図。受け取るだけ。
      • 例)記号aとbしか受け取らず、a→bとb→aの順番を考慮しない。
    • FST:FSAの拡張。記号を受け取ったら別の記号を出力。
      • 例)記号aとbしか受け取らず、a, bを受け取ったらA, Bを出力。
    • WFST:FSTの拡張。重みをつけたもの。記号と重みを出力。
      • 例)記号aとbしか受け取らず、a, bを受け取ったらA, Bと、その経路の重みの合計を出力。
    • 例)単語発音辞書、言語モデル。
  • 5つのTransducerを提案。
    • I: 教師ありと教師なしで分かれる。
      • 教師なし:入力→入力単語列にそのまま変換。
      • 教師あり:訓練させたSMTのn-best list
    • E: 訂正候補(confusion sets)はもともと定義されている。フレーズ単位ではなさそう。
    • P: ペナルティ(λcorr)に変換 
    • L: 5-gram LM
    • T: 結局何をするもの?:単語とサブワードの変換。サブワードが入るとFSTに入らないため、その処理に乗せてあげるための変換。

論文:DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction
担当:勝田さん

  • DSGAN: データセットの自動拡張(DS)はノイズを含むため、GANでクリーニング
    • Generator: True positive, False positiveに分類。どうやって?:二値分類。policy gradientで確率を見る。
    • Discriminator: GeneratorのAccuracyを下げるように学習。1epochごとにpre-trainのパラメータをロード(=Accuracyのスタート位置を揃える)。

Comments