市川浩丈(東京大学)松崎拓也(東京大学) 宮尾祐介(国立情報学研究所)
1.ウィキペディアから言い換え表現を得る - 歴史の試験問題を解くというタスクへ応用する
- 時間表現と固有表現を標識とする
- 1つの時間表現と2つ以上の固有表現を共有する文集合を抜き出す
- 固有表現を含む係り受け部分木を言い換え表現として抽出する
2.ウィキペディアデータに対する前処理 - 日時記法テンプレートの展開
- 句点等のパターンを用いた文区切り
- パターンマッチによる時間表現認識
- 辞書マッチによる固有表現認識
- 岩波日本史辞典の見出し語および地名集日本2007に収録された地名を併せたリストを作成
- PERSON、ORGANIZATION、LOCATION、EVENT、RULE、IDEA、TEXT、BUILDING、の8クラスに分類
- Jumanによる形態素解析
- KNPによる係り受け解析
3.同一歴史事実に対する複数記述の抽出 - 時間表現認識のエラーが多い西暦50年以前を除く
- 同一の年について多数の異なる事実が記述される1961年以降を除く
- 30〜800文からなる文集合のみを用いる(分数が少なかったり極端に多い文集合は信頼性が低い)
4.言い換え表現の抽出 - 名詞句と動詞の依存関係を単位とするパターン
- 1895年に下関条約が結ばれた。 → 下関条約、が、結ばれる
- 1895年に下関条約を締結した。 → 下関条約、を、締結する
- 「下関条約」をRULEクラスに抽象化 → (RULE、が、結ばれる)⇔(RULE、を、締結する)
- WordNetからは得られない言い換え
- 歴史分野に特有の言い換え表現
- 受動形と能動形の言い換え表現
|
|