文献紹介 2

 タイトルエンティティペア間類似性を利用した潜在関係検索 
 著者グェン トアンドゥク、ボレガラ ダヌシカ、石塚 満 
  情報処理学会論文誌Vol. 52 No. 4 1-13 (Apr. 2011)

1.まえがき
 従来のWeb検索エンジンはキーワードを入れた場合、そのキーワードを含んだ文書は見つけ出すが、エンティティ間の関係を検索することはできない。そこで、エンティティ間の関係を用いた潜在関係検索が検討されている。
 潜在関係検索とは、”与えられたエンティティペア(A, B) (以降,ソースペアという) と与えられたエンティティC (以降,キーエンティティという) に対して,(A, B) と(C, D) が類似関係を持つようなエンティティD を検索することである。”

例) (日本一、富士山) (世界一、エベレスト)
     (フルーツ、オレンジ) (動物、犬)

 ここでは、潜在関係検索を実現するために、テキストコーパスからエンティティペアを自動抽出する手法と、検索の高速化のために必要なインデックス構築手法を提案する。

2.関連研究
潜在関係検索はアナロジーシソーラス構築に関する研究や、関係類似度計算に関する研究で検討されてきた。
・Veale
WordNetを用いて”ギリシャ A"と羂検索すると”アルファ”と答えが返ってくるシステム
シソーラス(WordNet)内に存在しない単語に対しては答えられない
・TextRunner
テキストコーパスから自動的に関係のインスタンスを抽出できるシステ
例) Google acquired YouTube for $1.65 billion
        →acquired(Google, YouTube)
述語の関係は抽出できるが、周囲の文脈は関係に取り込まれない
したがって、関係類似度を高精度で計算できない
・Turney やBollegala らの研究
単語間の関係を周辺文脈の語彙パターンで表現、そのパターンの集合の類似度で関係類似度を定義することで、高精度な関係類似度の計算法を実現
例) (lion,cat)
      既存の検索エンジンで”lion * * * cat”で検索
     語彙パターン”lion is a big cat", ”lion is the largest cat"等を抽出
     (lion,cat)を関係づける語彙パターン”X is a big Y", ”X is the largest Y"を得る
     (ostrich,bird)で同じように行う
     (ostrich,bird)を関係づける語彙パターン”X is a large Y", ”X is the largest Y in the world"を得る
      この結果から、(lion,cat),(ostrich,bird)の類似度を計算
・WWW2REL
関係Rについて、R(arg1, ?) またはR(?, arg2) のようなクエリに対して答えを出力するシステム
シードとして関係Rをもつ単語ペア40個を用いて、関係Rを表現する語彙パターンを決定
例) 関係:INDUCES   シードペア:(carbon dioxide, headache)
      語彙パターン:”may cause”,”lead to”
     クエリ:INDUCES(aspirin,?)    既存検索エンジンで”aspirin may cause * ”を検索
     答え:apoptosis
このように関係検索は可能だが、潜在関係は検索できない
シードペアの取得にシソーラスが必要であり、シソーラスに出現しない関係は答えられない
・Katoらの研究
既存のキーワードベース検索エンジンを用いて、単語間の関係をbag-of-wordsモデルで表現し、潜在関係検索を実現
二つのステップにより{(A,B),(C,?)}の答えDを導く
ステップ1:ペア(A,B)の関係を表す単語や語彙パターンの集合Tを抽出
ステップ2:与えられたキーエンティティC と、抽出された単語または語彙パターンt ∈ T を使い、C とt のみとよく共起す
              る単語を検索エンジンを使って抽出
既存のキーワードベースのWeb 検索エンジンのインデックスを利用できるため、実装のコストが小さい
bag-of-words モデルを用いるので、幅広い範囲の単語種類を検索できるが、精度が低い

3.潜在関係検索システムの概要
インデックスを作成するために、Webページ等のドキュメントをクロールし、テキストコーパスを作成
                     ↓
Extractor:テキストコーパス中からエンティティペアを自動的に発見し、エンティティペアのインデックスを作成
                     ↓
関係類似度を計算するために、特徴量としてエンティティ間の関係を表す語彙パターンを抽出
                     ↓
Clustering Engine:抽出した語彙パターンやエンティティに対し、意味的に類似する語彙パターンを1 つの語彙パターンクラスタ                                        に、1 つのエンティティの異なる表現形式を1 つのエンティティクラスタにまとめ、関係検索インデックスを作成
                     ↓
Query Processor:エンティティクラスタの情報を用い、類似する検索結果エンティティを一個の結果クラスタにまとめ,クラスタの                平均類似度を計算
                     ↓
検索結果をリストで表示、エンティティの複数の表現形式を出力可能

4.エンティティペア抽出と表現方法

Comments