A survey on Automatic Text Summarization

Dipanjan Das, Andre F.T. Martins
2007

※かなり煩雑になってるので,更にまとめる必要あり

1 イントロダクション

自動要約研究を説明する3つの面(aspect)
  • 要約は単一または複数の文書から生成できる
  • 要約は重要な情報を保っている
  • 要約は短くなっているべきである

抜粋(extraction):テキスト中の重要な部分を同定し,そのまま抜き出す
アブストラクト(abstraction):一貫性のあるように抜粋部分を結合する
圧縮(compression):テキスト中の重要でない情報を取り除く


最初期の研究事例(1958):科学的文書の抜粋
用いた情報の例)語句の頻度,テキスト中の位置,キーフレーズ


以来ニュースの見出し?(newswire)を始めとする,多くの領域に注目し始める

多くのアプローチは,求められる要約の種類に応じたシステムを構築することに問題を置く


要約研究における問題:評価
要約を評価する万能な方法はまだない

2 単一文書要約

通常,文書から得られる情報の流れは一様ではない.
(こっちよりあっちの部分のほう重要だ!とか)

文書中よりより重要な部分を見分ける

2.1 初期の研究

最初期の研究は技術文書に焦点を置いたもの

最も参照された論文
Luhn (1958)
IBMで行われた研究
特定の語の頻度が重要度の基準になるということを提案したもの

まず,単語を原型に直し,ストップワードを削除する
次に内容語を出現頻度の降順に並べたリストを作成
その索引が単語の重要度の指標となる

文のレベルでは
  • その文中に重要な単語が出現した回数
  • 重要な単語間の直線距離
が重要度の要因となる

全ての文が重要度の要因によって順位付けられ,上位に位置するものが要約生成に選ばれる
(sentence-ranking method?)

関連した研究
Baxendale (1958)
文書の特徴的な部分を見つけるのに,文の位置を用いる
初めの文か,最後の文
機械学習に基づく多くの複雑なシステムで用いられてきた

Edmundson (1969)
抜粋要約の経験のための典型的な構造の発展
単語の頻度と位置による重要性を合わせた
その他にcue word(significantとかhardlyとかの単語の出現),文書のskeleton(文がtitleかheadingかどうか)を用いる.
各特徴に人手で重み付けをして,各文をスコア付けする
自動生成された要約のうち44%が人手による要約と一致した.

2.2 機械学習法

1990年代,NLPにおける機械学習の到来とともに,抜粋を生成するための統計的なテクニックを用いた,将来性のある一連の発表が現われた.

はじめ,殆どのシステムは素性は独立であると思われ,ナイーブベイズ法に基づいていたが
他方では適切な素性を選ぶことと独立でない前提を生み出す学習アルゴリズムに焦点をあてた.

他の特徴的なアプローチは抜粋要約を改善するために隠れマルコフモデルおよび対数―線形モデルを巻き込んだ.

ごく最近の論文では純粋に単一文書抜粋を改善するため,対照的に,
ニューラルネットワークとThird party features(検索エンジンのクエリの共通語)を用いている.

2.2.1 ナイーブベイズ法

Kupiecら(1995)
データから学習を行える方法を説明

ナイーブベイズ分類器を用いて,各文を抜粋に価値があるかどうか分類




素性はEdmundsonのものに加え,文の長さ,大文字の単語の出現も含む 各文を上式に基づいてスコア付け,上位n文を選ぶ. システムを評価するために,人手によるアブストラクト付の技術文書コーパスを用いた アブストラクトの各文に対して,元の文書中の文と対応させマッピング (完全に1文と対応,2文の結合,どこにも対応しない,など) 自動抜粋はこのマッピングに対して評価される. 素性解析の結果,文の位置とcue feature,加えて文の長さのみを用いたシステムが最もよい結果を示した. Aoneら(1999) ナイーブベイズ分類器により豊かな?(richer)素性を用いる. DimSumと呼ばれるシステム 文書中のキーコンセプトを指す特徴語を得るためにtf-idfを利用 idfは関連文書として同領域の多くのコーパスから計算される 統計的に求められる2つの名詞のコロケーションは1単語として数えられる 固有表現(named-entity tagger)が用いられ,各実体(entity)は単トークンとして考えられた //テキスト中での同じ実体の参照のような,いくつかの浅い談話?(shallow discourse)解析 参照は,文書内部の別名をリンクさせることで非常に浅いレベルで解決される 例) U.S. と United Statets IBM と International Business Machines 類義語や形態論の変形?(morphological variants)もまた辞書の用語を考慮することによって合併され,原形はWordnetを用いることで同定される 実験に用いたコーパスはnewswire,その一部はTRECが評価したものに属する

2.2.2 Rich features と決定木

Lin and Hovy (1997)
文の位置の重要性を研究
"position method"
単純に文のテキスト中の位置によって重み付け

テキストは,一般的に予見できる談話構造(discourse structure)に従う
中心となる大トピック?(greater topic)の文は確実に同定できる場所(タイトル,アブストラクトなど)に現れる傾向がある

談話構造(discourse structure)は領域によって顕著に変化するので,position methodは単純に定義できない
この論文は,ジャンルを越えてposition methodを最適に調整する技術を研究し,
また,有効性の評価方法することによって重要な貢献をした.

newswireコーパス:
TIPSTERから作られるZiff-Davisテキスト
コンピュータと関連したハードウェアについてのテキスト+key topic wordsと6文のアブストラクト

各コーパスにおいてtopic keywordsに対する各文の位置の産出?(yield)を測定
文の位置をランク付け

2つの評価がなされた
あらかじめ,初見のテキストは異なる領域において同じ手順が機能するかのテストに用いられる
1つめは,訓練文書と同じ外見を明らかにした
2つめは,抜粋した文を含む人手にるアブストラクトの単語の重複が測定される

アブストラクトの窓と選ばれた文の窓が比較され,一致の適合率と再現率が測定される.

Lin (1999)
素性は互いに独立であるという前提から抜け出す
ナイーブベイズ分類器のかわりに決定木を抜粋問題に使用

データセットはTRECトピックに答えるための要約に含まれるべき不可欠な文の断片(句,節,文)を含む
これらの断片は人手で評価される

新しい素性として,
query signature(クエリの単語を含んでいる数に依存する,文に与えられる正規化されたスコア)
IR signature(コーパス中の最も顕著な単語)
数的なデータ(数を含む文に1を与えるブーリアン値)
固有名詞(固有名詞を含んでいれば1)
代名詞または形容詞(代名詞か形容詞を含んでいれば1)
平日または月?(weekday or month)
クォーテーション

query signatureのような素性が質問を重視する?(question-oriented)ということは全く価値がない
評価セットが一般化された要約の骨組みに似ていないため

2.2.3 隠れマルコフモデル

これまでのアプローチは素性に基づくもので,不連続(non-sequential)だった

Conroy and O'leary (2001)
抜粋の問題を隠れマルコフモデルでモデル化
動機:文のlocal dependenceのため連続モデル(sequential model)を用いる

文の文書中の位置,文中のtermの数,document termsを与えられるsentence termsの類似度の3つの素性のみを使用

2s+1の状態
sの要約状態,s+1の非要約状態が交互に存在
非要約状態ではその状態に留まることが許されている
要約状態では次の状態(非要約状態)を飛ばすことが許されている

2.2.4 対数-線形モデル

Osborne (2002)
抜粋のアプローチにおいて、素性は独立だと思われてきたと主張

この前提を対数ー線形モデルを用いて取り除く
抜粋するかどうかの2つのラベル付け



最急降下法を用いて重みを学習

素性として

単語対
文の長さ
文の位置

を含む

2.2.5 ニューラルネットワークとThird party Features

2001-02
単一のニュース記事の100単語要約の問題
baseline(ニュース見出し記事の最初のn文を選ぶ)の評価を超えられない

Svoreら (2007)
ニューラルネットに基づくアルゴリズムとthird party datasetsを用いる

2.3 深い自然言語解析による方法

機械学習を用いず,
ほとんどはテキストの談話構造をモデル化しようとしている

Barzilay and Elhadad (1997)
かなりの量の言語学的解析を用いる

lexical chain:テキスト中の関連づけられた単語の順番
短距離(隣接した単語,文),長距離(テキスト全体)

テキストの断片化

lexical chainの定義

要約のための文の価値定義するため強いlexical chainを用いる

McKeown and Radev (1995)とLuhn (1958)の折衷案(middle ground)を目指したもの

テキスト中の異なる部分を意味的に結びつける

連結は単語レベルのみならず,単語の順番にもlexical chainとして起こり得る

意味的に関連付けられた単語と単語の順番(連続?)は文書中で定義され,いくらかの連結は抜粋され,文書の代表を形作る

Wordnetを用いて以下の3ステップでlexical chainを発見する

1. 候補の単語セットを選ぶ
2. 各候補に対して,Wordnetの距離に基づき適切な連結を見つける
3. 見つかったら状況に応じて連結中に単語を挿入し更新する

連結はその長さと均質性?(homogeneity)によってスコアづけされる

Onoら (1994)
日本語の解説的な書き物の談話(discourse)の計算的(computational)モデル
談話修辞構造を抜粋するための現実的な手順を入念に作る
文の塊の間関係を表す2分木
この構造は一連の自然言語処理の段階を用いて抜粋される

文の解析
修辞関係の抜粋
断片化
候補生成,選好判断

修辞関係の重要性に基づいて評価される

重要な部分を残しつつ文を減らすために修辞構造木のノードは切り取られる


Marcu (1998)


「文献紹介」に戻る

Comments