Discovery of Topically Coherent Sentences for Extractive Summarization

Asli Celikyilmaz, Dilek Hakkani-Tuer
Proceedings of the 49 th Annual Meeting of the Association for Computational Linguistics,pages 491-499
2011

※現在読みかけ

複数文書要約(MDS)

理想的なクエリベースの要約:
文書間で共通な唯一の関連項目に加え,クエリに直結し各文書でユニークな情報を含んでいる

層分けされたトピックとその相互関係の発見に基づく一連の抜粋要約生成モデルの提案

/*
これまでの研究では辞書,意味論、話法制限?(discourse constraints)に基づく文の抜粋の有用性を示してきた
これらのモデルは異なるアプローチに頼っている
ユーザのクエリに基づくトピック記号?(topic signatures)や高頻度の内容語の特徴
*/

最近の研究:層分けされたトピックのモデルを用いた層分けされた概念の文書からの発見に焦点を当て,この層分けされたトピックを文に反映させる
      冗長性や一貫性の問題にはあまり焦点を置かれていない

層分けされた概念(hierarchical concept)の学習モデル
簡単な例:"baseball" と"soccer"は一般的な"sports"に含まれる
要約はより抽象的な"sports"のような概念に関連づいた用語を参照する

問題点
抜粋した文は普通,複数の関連付けられた概念を含んでいる
文書の一般的な概念を示している顕著な文を発見できるモデルが必要であり,
それらの文の間には最小限の関連しか許されない

この論文での手法
以前のモデルの有用性を利用しつつ,3つの変数によって各文書の各単語を連想できる教師なしの発生的なモデルを構築
3つの変数
  • sentence S
  • higher-level topic H
  • lower-level topic T
PAM(Pachinko allocation model)に似ているモデル
(PAM:有向,非周期的(非環)なグラフ(DAG:directed acyclic graph)を用いて,入れ子構造を持った,任意の,まばらなトピック間の相互関係を得るモデル)

層をなしたトピックを定義
DAGにおける上位ノードがHHは文書中のTの共起パターンを表す

要約テキストのなかから冗長性のある文を除くことで関連のあるトピックを発見することができる.


冗長性基準の抜粋要約を得るモデル発展のための合成実験(synthetic experiment)

DUC 2005 dataset:
各々に1-4セットの人手による要約(各10-15文)を含む45の文書クラスタ
各文書クラスタはクエリに基づいて検索された最大25の文書を含む

文書クラスタをコーパスとして用い,45に分けられたモデルを構築する

人手による要約を追加の文書として用いる

人手による要約に含まれる文はコーパス内で言及された一般的な概念である

この実験での目的は,to measure the percentage of sentence in a human summary that our model can identify as salient among all other document cluster sentences

人手による要約は一般的に冗長性がない文を含む
合成実験における定量的な冗長性の基準として上位に位置する人手による要約の文の総数を用いる
Comments