Wikipediaからの連想シソーラス構築プロジェクト

 著者
 伊藤雅弘、中山浩太郎、原隆弘、西尾章治朗
 学会 人工知能学会研究会資料
 ID:ページ:年 
 PDF sigswo.org/papers/SIG-SWO-A803/SIG-SWO-A803-05.pdf

wikipediaはURLによって概念(記事)を一意に識別できること。
Appleのような果物や社名など様々な意味をもつ多義語でも、意味に応じて別々のページがある。
概念の詳細な説明があること。
内部リンクが概念同士の関連度を定義した連想シソーラスの構築に有効なことが、これまでの研究でわかっている。

先行研究
カテゴリリンク
カテゴリリンクは記事とカテゴリ間の所属関係を表している。
wordnetのために提案された手法をカテゴリ構造に適用する。精度がよくなかった。
TFIDFベースの手法
tf-idfをwikipediaの各記事内のリンクに適用することで概念間の関連度を算出する。
記事の信頼性がない場合やリンクが少ない場合に精度が低下する。

リンクの構造及び共起性の解析
pfibf
pfibfはnホップいないのノード同士の関連性を数値化することを目的としている。
2記事間の関係の強さを計測する場合、その要素は
  • 記事から記事へのパスの多さ
  • 記事から記事への最短距離
からなる
式はPDF参照

 リンク共起性解析
リンクが共起するということは、ある異なる二つのリンクが同時に出現するという事。
wikipediaにおけるリンクは参照先の記事を一対一で表しているので、リンクの関連度はリンクの記事が表す二つの概念の関連度を求めることと等価である。
共起回数から共起性を求める手法はcosineを用いた。
単に共起回数だけである組の関連度を算出する一次共起ではなく、ある組の語がどれくらい同じ事共起しているかで関連度を算出する二次共起を使った。

実験・評価

TFIDF、pfibf、リンク共起解析はそれぞれ0.57、0.68、0.65の精度だった、またpfibfは他の二つの手法と比べ300倍ほど時間がかかった。

wordsimilarity-353 test collectionというテストコレクションがwikipediaの関連度計算に関する研究でよく用いられるが、
これは単語ペア数が限られているうえ、一般語に偏っている。
そのためwikipdiaのような様々なドメインの概念を有するコーパスに対しては不十分なので、著者はWikiSimi3000 Test collectionを構築している最中である。

Comments