中島 伸介,竹原 幹人,舘村 純一,日野 洋一郎,原 良憲,田中 克己 blog解析に基づくWeb情報検索の信頼性向上技術 人工知能学会 第6回セマンティックウェブとオントロジー研究会,SIG-SWO-A401-05(2004) Web情報検索の信頼性向上のための手法の提案 1 はじめにWeb掲示板:書き手不明→信憑性を判断するための情報が不十分blog:書き手が過去にどのような記事を書いているのかが把握できる→評価が行いやすい 2 関連研究================================== 3 blogスレッドの抽出および解析手法bolgスレッド「あるイベントについて意味的関連性の高いblogエントリのつながり」スレッド内における各エントリの位置づけを評価 →blogサイトの特性の判別 (1) Topicfinder 議論が盛んに行われたblogスレッドにおいて,スレッドの初期段階にエントリを提供することが多いblog投稿者 議論するための良いトピックを見つけることが多い →スレッドが将来成長するかどうかの判断材料にできる (2) Agitator 議論が盛んに行われたblogスレッドにおいて,議論が盛んになる直前にエントリを提供することが多いblog投稿者 議論が盛んになるきっかけを作っている可能性が高い →スレッドが成長する時期を予測するための判断材料にできる (3) Opinion Leader 他のblogエントリから参照されることが多いblog投稿者 重要な見解を効率良く取得できる (4) Summarizer 他の多くのblogエントリを参照することが多いblog投稿者 blogスレッドをまとめたような書き込みを効率良く取得できる可能性 blogスレッドに関する調査実験 トラックバックを手作業で辿り,スレッドに関する事例を収集 調査実験の制限 ・blogエントリ動詞の意味的な関連を考慮しない ・データ数が十分ではなく統計的解析していない 各スレッドの成長過程には,急激にエントリ数が増加する成長期と,エントリの増加量がほとんどない停滞期が存在 (停滞期)→成長期→停滞期 Opinion Leader候補であるエントリは,Agitator的な存在である可能性 Summarizerのようなエントリは見られなかった ================================== ここまで言語処理とは直接関係がなさそう ================================== 4 blog情報に基づくトラスト値の算出方法blogの書き手ががどのような分野の知識について詳しいかを推定blog記事内で参照先のページについてどのように評価しているのかを推定 ・どれだけ多くのユーザに読まれているか(人気) ・最近の注目のトピックやニュースを早く記事として載せているか(更新の早さ) ・他の信頼できるblogサイトを記事中で参照し,肯定的に紹介しているか(正確さ) ・他のサイトからより多く支持されているか(支持) 書き手がどのようなトピックについて詳しい知識を持っているか 文章中に頻出する名詞がどのようなカテゴリに属するのか 参照先のページに対して肯定的な評価を下しているか 単語の単純なマッチング blogサイト自体の信頼性を推定 信頼できるblogサイトから良い評価を持って参照されたページを良いとする 「文献紹介」に戻る |