www を用いた概念ベースにない新概念およびその属性獲得手法

 著者
渡部 広一、河岡 司、辻 泰希
 タイトル www を用いた概念ベースにない新概念およびその属性獲得手法
 学会 The 18th Annual Conference of the Japanese Society for Artificial Intelligence, 2004
 ID:ページ:年 2D1-01
 PDF http://ultimavi.arc.net.my/banana/Workshop/JSAI2004/Papers/000183.pdf


流れ

NOT検索質問文作成

検索結果のページ上位100件取得

形態素解析

ルールによる補正
複合語の過多分割:情報処理技術者試験
未知語:BSE、ピッキング
これらに対応するため、
必要でない形態素か区切り文字が出るまで結合を続ける
サ変動詞は「する」を取り除く

重みづけ
Web-idf
全日本語ページ数と検索語が入ってたページ数でのidf
SWeb-idf
Web上の語のIDFを統計的に調べたIDF値
無差別に選んだ固有名詞(1132語)についてそれぞれgoogleで検索する。
検索結果の1132ページをwebの全文書空間としてページ数を検索文書の数
Now-Web-idf
webi-dfをその場で検索して求めるもの

属性獲得




Comments