論文: Neural Grammatical Error Correction with Finite State Transducers担当:小川さん
- 文法誤りは強い制約のある問題であるため、FSTなどでNMTの予測空間を制限した方が良い。
- データによりけりなところもある。
- 単語単位で間違えている場合なら適している。
- 突拍子も無い文を書いている場合は適さない。
- FST:NMTの予測空間を制限。
- FSA:状態遷移図。受け取るだけ。
- 例)記号aとbしか受け取らず、a→bとb→aの順番を考慮しない。
- FST:FSAの拡張。記号を受け取ったら別の記号を出力。
- 例)記号aとbしか受け取らず、a, bを受け取ったらA, Bを出力。
- WFST:FSTの拡張。重みをつけたもの。記号と重みを出力。
- 例)記号aとbしか受け取らず、a, bを受け取ったらA, Bと、その経路の重みの合計を出力。
- 例)単語発音辞書、言語モデル。
- 5つのTransducerを提案。
- I: 教師ありと教師なしで分かれる。
- 教師なし:入力→入力単語列にそのまま変換。
- 教師あり:訓練させたSMTのn-best list
- E: 訂正候補(confusion sets)はもともと定義されている。フレーズ単位ではなさそう。
- P: ペナルティ(λcorr)に変換
- L: 5-gram LM
- T: 結局何をするもの?:単語とサブワードの変換。サブワードが入るとFSTに入らないため、その処理に乗せてあげるための変換。
論文:DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction 担当:勝田さん
- DSGAN: データセットの自動拡張(DS)はノイズを含むため、GANでクリーニング
- Generator: True positive, False positiveに分類。どうやって?:二値分類。policy gradientで確率を見る。
- Discriminator: GeneratorのAccuracyを下げるように学習。1epochごとにpre-trainのパラメータをロード(=Accuracyのスタート位置を揃える)。
|
|