Wikipediaからの拡張クエリ生成によるWeb検索とその評価

 著者
 堀 憲太郎、大石 哲也、峯 恒憲、長谷川 隆三、藤田 博、越村 三幸
 タイトル Wikipediaからの拡張クエリ生成によるWeb検索とその評価
 学会 人工知能学会研究会
 ID:ページ:年 SIG-SWO-A803-13
 PDFhttp://sigswo.org/papers/SIG-SWO-A803/SIG-SWO-A803-13.pdf 

はじめに
インターネットの普及によりWebにアクセスすることが一般的になってきた。
しかしWeb上なるデータ量は膨大で、ユーザーの欲しい情報にすぐ見つからないことがある。
検索の絞り込みには検索キーワードを複数与えるAND検索があるが、入力したキーワードを含まない文書を検索しない。
ユーザーが検索キーワードに対して知らない知識がある場合、その語で絞り込み検索できないことは新たな知識を得る際に不便。

先行研究
ユーザーの入力したキーワードに関連した単語を提案するシステムが研究されている。
「関連単語抽出アルゴリズムを用いたWeb検索クエリの生成」
「Rele-vance weighting of serch terms」
「文書検索におけるランキング検索技術」

関連単語提案システムの流れ
検索キーワード(以降元クエリと呼ぶ)の入力
元のクエリに関連した文書(以降適合文書と呼ぶ)をwikipediaから収集
適合文書を形態素解析を行う
結果から名詞のみを抽出
「こと」「もの」のような検索に適してない単語をあらかじめリストアップしておき削除する
「卒業論文」などは「卒業」「論文」に分かれてしまうので、名詞が連続した場合は連結語と判断し、卒業論文に戻す
単語間の距離とwikipediaの内部リンクを利用し、各単語の補正値を計算し関連語のリストを作成

適合文書
元クエリからwikipedia内を検索し、上位一件のページ内からAが出現している段落を適合文書とする。


Comments