概念ベースから単語の類似度を求めてEarthMover'sDistanceを使って文書間の類似度を求めます さらに概念ベースを自動拡張します
概念ベース ある単語の意味(概念)をその単語に関連の深い単語群(属性)で定義した知識ベース 例 概念 | 属性/重み | 雪 | 雪/0.61、雪掻き/0.31、粉雪/0.27 | 雪掻き | 雪掻き・0.61、除雪/0.14、降雪/0.14 | 粉雪 | 粉雪/0.23、真っ白/0.21、氷点下/0.20 |
先行研究 wordnetを用いて単語間距離を定義し、EMDにより文書間類似度を定義する手法 →wordnetなどの整理された辞書を用いる場合は、辞書に含まれてない単語をどうするかが問題になる。
単語の共起情報をもとに単語間の関連性を定義し、EMDにより文書間の類似度を定義する手法→用いる文書集合の特性や容量の影響を大きく受けるため、正確に関連性を定義しているとは言えない。
概念ベースの自動拡張手法 入力された未定義語をキーワードとしてグーグルで検索して上位100件を取得 ↓ HTMLタグを取り除いて形態素解析して、自立語を抽出 ↓ 得られた自立語の中から概念ベースに存在するものを未定義語の属性候補とする ↓ 重みは属性の頻度にSWeb-idfの値を掛け合わせたものとする ↓ 但しSWeb-idfで求めた重みと概念ベースの重みでは重みの値が変わるため、そのまま概念ベースに追加することはできない
概念ベースの属性空間を考慮した重みづけ手法として概念に対するn次属性空間はその概念についての説明文書の集合とみなせる
概念:「個人情報」、属性:「個人、情報、識別、・・」 「個人を識別することができる情報」
3次属性まで含めると概念に関係ない語まで含まれるので、2次属性まで用います。 これにtf-idfの考え方をてきようして、未定義後の属性Aの重み(wc(a))は となる freq(A):未定義語の属性Aの2次属性内出現頻度 R:未定義後の一時属性の総数 cidf(A):未定義後の属性Aの概念ベース空間のidf値
新規概念を追加すると、概念ベースの既存の概念の属性として新規概念を持つものが存在しない。 新規概念がどの他のどの概念の属性にあたるかは2次属性内出現頻度を属性数で割った値が0.149以上かつ関連度0.068以上の場合に追加する。
閾値の設定は実際に概念と関係がある概念の組での2次属性内出現頻度割合と関連度の平均から求めた。
|