キーワード自動抽出システム「言選Web」

前田朗. キーワード自動抽出システム「言選Web」

1.はじめに 〜「言選Web」へようこそ〜
  • 文章中の重要なキーワードをあらかじめ示してくれれば、概要をすぐにつかめるのに
  • 複数の文章を情報工学的に比較したい
    → 「言選Web」:文章からその概要をつかめるキーワードを取り出すWebサービス 言選Web

2.用語抽出手法あれこれ
  • 「言選Web」の処理
    • 文章から用語を抽出する
      • 形態素に分解してから用語を組み立てる手法
      • 用語になりえない文字を消去し、残ったものを取り出す手法
    • 重要性の高い順に並べかえる
      • TF-IDF
      • FLR

  • 形態素に分解してから用語を組み立てる手法
    • MeCab(ChaSen)を用いて文章を形態素に分解
      • 名詞が連続した場合に、それらをまとめた複合名詞を用語とする
      • カタカナと漢字熟語の並びを抽出する(キーワードの多くは名詞である→名詞候補を抽出
  • 用語になりえない文字を消去し、残ったものを取り出す手法
    • 機械的な方法:動詞となりうる形態素を全てストップワードにする→人手による選定のほうが効果的
    • ノイズは、重要度順の用語並べ替えによって判別できる

3.大事な用語から並べてみよう
  • TF-IDF
    • ある文献中に多く出てくる用語は重要だが、一般的な語は除外する
    • "重要度" = "用語の出現頻度" × { log( "総文献数" ÷ "該当の用語を含む文献数" ) + 1 } 
  • FLR
    • 他の単名詞と連結して複合語をなすことが多い単名詞ほど、文書中で重要な概念を示す
    • "重要度" = "用語の出現頻度" × √[ { 10^( "前の語に連接した回数" × 2 ) } × { 10^( "後の語に連接した回数" × 2 ) } ]
      • 連接回数のカウント方法
        • 延べ数
        • 種類数
        • 情報理論的な回数:パープレキシティ(情報の多様性を示す指標)
          → 語の連接が多くの語に分散していれば、カウントが多くなる。

参考文献
    森山聡, 吉田稔, 中川裕志. 複合語のパープレキシティに基づく重要語抽出法の研究. 言語処理学会第11回年次大会発表
    小島浩之, 前田朗. キーワード(専門用語)自動抽出システムの構想とその展開. 第51回日本図書館情報学会研究発表要綱. pp.17-20(2003)
Comments