時間表現と固有表現を標識とするウィキペディアからの言い換え知識獲得

市川浩丈(東京大学)
松崎拓也(東京大学)
宮尾祐介(国立情報学研究所)

1.ウィキペディアから言い換え表現を得る
  • 歴史の試験問題を解くというタスクへ応用する
  • 時間表現と固有表現を標識とする
    • 1つの時間表現と2つ以上の固有表現を共有する文集合を抜き出す
    • 固有表現を含む係り受け部分木を言い換え表現として抽出する

2.ウィキペディアデータに対する前処理
  • 日時記法テンプレートの展開
    • 「YYYY年MM月DD日」の形に展開
  • 句点等のパターンを用いた文区切り
  • パターンマッチによる時間表現認識
  • 辞書マッチによる固有表現認識
    • 岩波日本史辞典の見出し語および地名集日本2007に収録された地名を併せたリストを作成
    • PERSON、ORGANIZATION、LOCATION、EVENT、RULE、IDEA、TEXT、BUILDING、の8クラスに分類
  • Jumanによる形態素解析
  • KNPによる係り受け解析

3.同一歴史事実に対する複数記述の抽出
  • 時間表現認識のエラーが多い西暦50年以前を除く
  • 同一の年について多数の異なる事実が記述される1961年以降を除く
  • 30〜800文からなる文集合のみを用いる(分数が少なかったり極端に多い文集合は信頼性が低い)

4.言い換え表現の抽出
  • 名詞句と動詞の依存関係を単位とするパターン
    • 1895年に下関条約が結ばれた。 → 下関条約、が、結ばれる
    • 1895年に下関条約を締結した。 → 下関条約、を、締結する
    • 「下関条約」をRULEクラスに抽象化 → (RULE、が、結ばれる)⇔(RULE、を、締結する)
  • WordNetからは得られない言い換え
    • 歴史分野に特有の言い換え表現
      • 築城する ⇔ 築く
      • 討ち死にする ⇔ 討死する
    • 受動形と能動形の言い換え表現
      • 討たれる ⇔ 討死する

Comments