概要 サーチエンジンは日常生活で欠かすことのできない技術であるため、今回はその技術について学ぶ。大規模な文書の集合からクエリの含まれる文章を抽出するために転置インデックスという索引を用いて検索する。しかし、検索結果は何万件以上マッチすることもあり関連度の高い文書でランキングする必要がある。関連度を求める方法としてTF-IDF法を用いる。この方法はある語の文書における重要度をTFとIDFの積から求める方法である。TFはある文書中におけるある語の頻度、IDFはクエリ中のどの語がより重要化を表現する尺度である。この方法を用いてベクトル検索モデルを構築し、ベクトル間の類似度の高い順番で並べることでクエリと関連度の高い順番で並び替えることができる。 発表スライド
|
|