前田朗. キーワード自動抽出システム「言選Web」
1.はじめに 〜「言選Web」へようこそ〜 - 文章中の重要なキーワードをあらかじめ示してくれれば、概要をすぐにつかめるのに
- 複数の文章を情報工学的に比較したい
→ 「言選Web」:文章からその概要をつかめるキーワードを取り出すWebサービス 言選Web
2.用語抽出手法あれこれ - 「言選Web」の処理
- 文章から用語を抽出する
- 形態素に分解してから用語を組み立てる手法
- 用語になりえない文字を消去し、残ったものを取り出す手法
- 重要性の高い順に並べかえる
- 形態素に分解してから用語を組み立てる手法
- MeCab(ChaSen)を用いて文章を形態素に分解
- 名詞が連続した場合に、それらをまとめた複合名詞を用語とする
- カタカナと漢字熟語の並びを抽出する(キーワードの多くは名詞である→名詞候補を抽出)
- 用語になりえない文字を消去し、残ったものを取り出す手法
- 機械的な方法:動詞となりうる形態素を全てストップワードにする→人手による選定のほうが効果的
- ノイズは、重要度順の用語並べ替えによって判別できる
3.大事な用語から並べてみよう - TF-IDF
- ある文献中に多く出てくる用語は重要だが、一般的な語は除外する
- "重要度" = "用語の出現頻度" × { log( "総文献数" ÷ "該当の用語を含む文献数" ) + 1 }
- FLR
- 他の単名詞と連結して複合語をなすことが多い単名詞ほど、文書中で重要な概念を示す
- "重要度" = "用語の出現頻度" × √[ { 10^( "前の語に連接した回数" × 2 ) } × { 10^( "後の語に連接した回数" × 2 ) } ]
- 連接回数のカウント方法
- 延べ数
- 種類数
- 情報理論的な回数:パープレキシティ(情報の多様性を示す指標)
→ 語の連接が多くの語に分散していれば、カウントが多くなる。
参考文献 森山聡, 吉田稔, 中川裕志. 複合語のパープレキシティに基づく重要語抽出法の研究. 言語処理学会第11回年次大会発表
小島浩之, 前田朗. キーワード(専門用語)自動抽出システムの構想とその展開. 第51回日本図書館情報学会研究発表要綱. pp.17-20(2003)
|