文書内の事象を対象にした潜在的トピック抽出手法の提案とその応用

北島理沙,小林一郎
文書内の事象を対象にした潜在的トピック抽出手法の提案とその応用
NLP2011 C2-6 pp.492-495 (2011)

入力:文書集合
出力:イベント(後述)単位のトピック分布

背景

潜在的意味解析
従来,トピックが割り当てられるのは単語

提案:単語間の依存関係をトピック割り当ての対象とする

提案手法

イベントの定義

イベント:文書上に存在している事象
何が起こったか,誰がどのように感じたかなどの出来事を表す単語の組

CaboChaを用いて文節の係り受け関係を取り出す.
係り受け関係にある2つの文節から単語を抽出,(主語,述語),(述語1,述語2)の条件を満たす組をイベントとして定義.

イベント―文書行列の作成

トピック分布の推定

イベントー文書行列から潜在的ディリクレ配分法によってトピック推定

メモ

潜在的意味解析はクエリに特化した要約(クエリベースの要約)に有用だそうだ
MMR-MDという指標
クエリとの類似度

すでに抽出された文との類似度によるペナルティ(冗長性を排除)

「文献紹介」に戻る
Comments