西山 浩気‎ > ‎文献紹介‎ > ‎

2017/05/01 Effective search space reduction for spell correction using character neural embeddings

概要
 スペルミスを修正する手法として、一般的にはLevenshtein距離が用いられてきた。しかし、編集距離が長く、修正候補として挙げられる単語数も多い場合には計算コストが非常に高くなる。本論文では単語を子音と母音に分割し、発音をベクトルで表現する。発音ベクトルを元に単語を表現し、Ball Treeアルゴリズムで最近傍の単語を取得することで計算コストを抑えることができる。また、スペル修正の精度は編集距離2以下のときに99.6%, 3以下のときに97.9%が得られ、十分な精度も得ることができた。

参考文献
  • Harshit Pande, Effective search space reduction for spell correction using character neural embeddings, Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, pages 170–174, Valencia, Spain, April 3-7, 2017. 1
発表スライド[リンク]

Comments