wikipediaを利用した上位下位関係の詳細化

 著者
 山田一郎、橋本力、呉鐘勲、鳥澤健太郎、黒田航、stijn de saeger、土田正明、風間淳一、
 タイトル wikipediaを利用した上位下位関係の詳細化
 学会 自然言語処理
 ID:ページ:年 2012年3月:3-23ページ
 PDF 

初めに
単語の上位下位概念を自動獲得する研究はあったけど、その詳細さについてはほとんど触れられなかった。
今までの手法だと、例えば「作品→7人の侍」「作品→1Q84」(7人の侍は映画、1Q84は小説)のような広範囲すぎる上位概念が含まれることがある。
これだと実際利用する時困ることがあるので間により具体的な上位概念を入れて改善します。
例1:「作品→映画監督の作品→黒沢明の作品→7人の侍」

具体的なな上位概念
まず次の二つを満たすときに「下位概念Cに対して、AはBより詳細な上位概念と呼ぶ。」
  • AとBは同じ下位概念Cを持つ
  • BはAの上位概念である

具体的な上位概念の作り方
Wikipediaの記事に出現する節タイトル、小節タイトル、項目名などはその記事のタイトルによって情報を捕捉できると考えられる。
ベース上位下位関係(作品→7人の侍)の上位下位関係は節、小節タイトル、項目名などに対応するので、
ベース上位下位関係の上位概念をWikipedia記事タイトルで補い具体的な上位概念を生成する。
補う方法は、元の上位下位関係が記述されているWikipediaの記事タイトルと元の上位概念を「AのB」の形式で連結することで自動獲得する。
Wikipedia記事はベース上位下位関係を抽出してきた記事を使う。
これをT-上位下位関係と呼ぶ。

T-上位下位概念の中の、記事タイトル箇所をその上位概念に置き換えてさらなる上位概念を生成する。(これをG-上位下位概念と呼ぶ)
上位概念はWikipediaの第1文を用いる方法と、記事カテゴリからSVMで選別して抽出する。(素性はこれのP11表2)

上の例(作品→7人の侍)では、
まず「黒沢明」の記事中の「作品」セクション内に「7人の侍」がある。
ここから「7人の侍」は「黒沢明」の作品であると推測して、「黒沢明の作品→7人の侍」を獲得。
「黒沢明」の上位概念に「映画監督」があることを獲得済みの上位下位関係から見つかれば、
元の「作品→映画監督の作品→黒沢明の作品→7人の侍」となる。

評価
評価は3人の被験者にGood、less good、Badを判断してもらい、それらに重みを付けた適合率とGoodのみの適合率を求めた。
  重み付き適合率 Goodラベルの適合率
 ベース上位下位 0.730 0.500
 G-上位概念ペア 0.786 0.702
 T-上位概念ペア 0.853 0.850

T-上位概念ペアの「対象―属性―属性値」関係としての解釈
「黒沢明の作品→7人の侍」の関係から、「作品」「7人の侍」「黒沢明」は「対象―属性―属性値」として見ることが出来る。
この仮説が正しいか確認した。

結果Wikipedia記事タイトルとその記事から取り出した2つのterm(節タイトル、小節タイトル、項目名)が上位下位概念として適切な場合「対象―属性―属性値」として解釈できる。


Comments