流れ
NOT検索質問文作成 ↓ 検索結果のページ上位100件取得 ↓ 形態素解析 ↓ ルールによる補正
複合語の過多分割:情報処理技術者試験 未知語:BSE、ピッキング これらに対応するため、 必要でない形態素か区切り文字が出るまで結合を続ける サ変動詞は「する」を取り除く
↓ 重みづけ Web-idf 全日本語ページ数と検索語が入ってたページ数でのidf SWeb-idf Web上の語のIDFを統計的に調べたIDF値 無差別に選んだ固有名詞(1132語)についてそれぞれgoogleで検索する。 検索結果の1132ページをwebの全文書空間としてページ数を検索文書の数 Now-Web-idf webi-dfをその場で検索して求めるもの ↓ 属性獲得
|
|