NLP2015

気になった研究

P2-2 大域的情報を用いたOCR文字誤り訂正
p127-130
増田 勝也(東京大学)
古い文献などを電子化したい
しかし、そういった古い文献では今は使われていないような字体が使われていてOCRが対応していないものがある
そこで、そういった誤りを自動で検出・訂正する
 
今回は誤り訂正の部分をメインに行った
訂正対象の文字の文字trigramを使って訂正
今回のようなケースでは同じ文字に対して同じ読み取りミスとなると考えられるので、テキスト中から訂正対象文字を含むtrigramを抽出し、そのすべてで訂正候補に置換しもっともスコアが高いものを正解とする
結果としては誤った文字から正しい文字に訂正された数より、正しい文字から誤った文字になってしまったほうが圧倒的に多い
これは誤り箇所検出がうまくいかないことが原因
誤り箇所検出は対象文字列のtrigramが言語モデル中に存在しない場合、それを誤りとしている
検出精度は文章の年代で異なるが、適合率は0.03~0.412、再現率は0.452~0.805と低い
 

P4-8 The Application of Machine Transliteration Techniques to Spelling Correction
p920-923
田口惠子 (同志社大), アンドリューフィンチ (NICT), 山本誠一 (同志社大), 隅田英一郎 (NICT)
英語のつづり間違いを訂正する
検出は行っておらず、コーパス内の対のみを対象としている
訂正候補はベイジアンアライメントを使ってあげる
1bestで42%、10bestでも65%の精度
 
D3-5 疑似訓練データを用いた Q&A サイトの質問分類
p489-492
大森勇輔, 森田和宏, 泓田正雄, 青江順一 (徳島大)
質問文を情報検索型と社会調査型に分類
回答数を使って社会調査型を、キーワードを使って情報検索型を抽出し擬似訓練データを作成
擬似訓練データからχ^2検定を使って特徴表現を収集し、各表現に頻度を使ってスコア付け
国内・料理・自動車カテゴリ各300件を自動で分類
情報検索型は適合率が低く、再現率が高い
社会調査型は適合率が高く、再現率が低い
 
情報検索型(こっちでいう事実・根拠)のほうが精度が高かった記憶
Comments