タイトル | エンティティペア間類似性を利用した潜在関係検索 |
著者 | グェン トアンドゥク、ボレガラ ダヌシカ、石塚 満 |
| 情報処理学会論文誌Vol. 52 No. 4 1-13 (Apr. 2011) |
1.まえがき 従来のWeb検索エンジンはキーワードを入れた場合、そのキーワードを含んだ文書は見つけ出すが、エンティティ間の関係を検索することはできない。そこで、エンティティ間の関係を用いた潜在関係検索が検討されている。
潜在関係検索とは、”与えられたエンティティペア(A, B) (以降,ソースペアという) と与えられたエンティティC (以降,キーエンティティという) に対して,(A, B) と(C, D) が類似関係を持つようなエンティティD を検索することである。”
例) (日本一、富士山) (世界一、エベレスト)
(フルーツ、オレンジ) (動物、犬)
ここでは、潜在関係検索を実現するために、テキストコーパスからエンティティペアを自動抽出する手法と、検索の高速化のために必要なインデックス構築手法を提案する。
2.関連研究
潜在関係検索はアナロジーシソーラス構築に関する研究や、関係類似度計算に関する研究で検討されてきた。
・Veale
WordNetを用いて”ギリシャ A"と羂検索すると”アルファ”と答えが返ってくるシステム
シソーラス(WordNet)内に存在しない単語に対しては答えられない
・TextRunner
テキストコーパスから自動的に関係のインスタンスを抽出できるシステム
例) Google acquired YouTube for $1.65 billion
→acquired(Google, YouTube)
述語の関係は抽出できるが、周囲の文脈は関係に取り込まれない
したがって、関係類似度を高精度で計算できない
・Turney やBollegala らの研究
単語間の関係を周辺文脈の語彙パターンで表現、そのパターンの集合の類似度で関係類似度を定義することで、高精度な関係類似度の計算法を実現
例) (lion,cat)
既存の検索エンジンで”lion * * * cat”で検索
語彙パターン”lion is a big cat", ”lion is the largest cat"等を抽出
(lion,cat)を関係づける語彙パターン”X is a big Y", ”X is the largest Y"を得る
(ostrich,bird)で同じように行う
(ostrich,bird)を関係づける語彙パターン”X is a large Y", ”X is the largest Y in the world"を得る
この結果から、(lion,cat),(ostrich,bird)の類似度を計算
・WWW2REL
関係Rについて、R(arg1, ?) またはR(?, arg2) のようなクエリに対して答えを出力するシステム
シードとして関係Rをもつ単語ペア40個を用いて、関係Rを表現する語彙パターンを決定
例) 関係:INDUCES シードペア:(carbon dioxide, headache)
語彙パターン:”may cause”,”lead to”
クエリ:INDUCES(aspirin,?) 既存検索エンジンで”aspirin may cause * ”を検索
答え:apoptosis
このように関係検索は可能だが、潜在関係は検索できない
シードペアの取得にシソーラスが必要であり、シソーラスに出現しない関係は答えられない
・Katoらの研究
既存のキーワードベース検索エンジンを用いて、単語間の関係をbag-of-wordsモデルで表現し、潜在関係検索を実現
二つのステップにより{(A,B),(C,?)}の答えDを導く
ステップ1:ペア(A,B)の関係を表す単語や語彙パターンの集合Tを抽出
ステップ2:与えられたキーエンティティC と、抽出された単語または語彙パターンt ∈ T を使い、C とt のみとよく共起す
る単語を検索エンジンを使って抽出
既存のキーワードベースのWeb 検索エンジンのインデックスを利用できるため、実装のコストが小さい
bag-of-words モデルを用いるので、幅広い範囲の単語種類を検索できるが、精度が低い
3.潜在関係検索システムの概要
インデックスを作成するために、Webページ等のドキュメントをクロールし、テキストコーパスを作成
↓
Extractor:テキストコーパス中からエンティティペアを自動的に発見し、エンティティペアのインデックスを作成
↓
関係類似度を計算するために、特徴量としてエンティティ間の関係を表す語彙パターンを抽出
↓
Clustering Engine:抽出した語彙パターンやエンティティに対し、意味的に類似する語彙パターンを1 つの語彙パターンクラスタ に、1 つのエンティティの異なる表現形式を1 つのエンティティクラスタにまとめ、関係検索インデックスを作成
↓
Query Processor:エンティティクラスタの情報を用い、類似する検索結果エンティティを一個の結果クラスタにまとめ,クラスタの 平均類似度を計算
↓
検索結果をリストで表示、エンティティの複数の表現形式を出力可能
4.エンティティペア抽出と表現方法