TF-IDFは珍しい単語にタグがつきやすくなる → コサイン類似度による類似記事を収集し,頻出単語をタグ付け トピックを一つのタグで表現するのはかなり難しい.タグの集合で扱う方が良いだろう ニュース全体を俯瞰できるうまいタグを用意することを考えた方がいい コサイン類似度でやる場合には,対応としている単語の種類はどんなものなのか → 形態素解析をし,一般名詞のみを対象としている キーワード抽出関係の論文をサーベイする必要があるだろう クラスタリングをする際の種はどのように選んでいるのか? → 類似度が低い記事を用いてクラスタリングしている(人手は使っていない?) |