Dipanjan Das, Andre F.T. Martins
2007
※かなり煩雑になってるので,更にまとめる必要あり 1 イントロダクション自動要約研究を説明する3つの面(aspect)
抜粋(extraction):テキスト中の重要な部分を同定し,そのまま抜き出す アブストラクト(abstraction):一貫性のあるように抜粋部分を結合する 圧縮(compression):テキスト中の重要でない情報を取り除く 最初期の研究事例(1958):科学的文書の抜粋 用いた情報の例)語句の頻度,テキスト中の位置,キーフレーズ 以来ニュースの見出し?(newswire)を始めとする,多くの領域に注目し始める 多くのアプローチは,求められる要約の種類に応じたシステムを構築することに問題を置く 要約研究における問題:評価 要約を評価する万能な方法はまだない 2 単一文書要約通常,文書から得られる情報の流れは一様ではない.(こっちよりあっちの部分のほう重要だ!とか) 文書中よりより重要な部分を見分ける 最初期の研究は技術文書に焦点を置いたもの
最も参照された論文
Luhn (1958) IBMで行われた研究 特定の語の頻度が重要度の基準になるということを提案したもの
まず,単語を原型に直し,ストップワードを削除する 次に内容語を出現頻度の降順に並べたリストを作成
その索引が単語の重要度の指標となる
文のレベルでは
が重要度の要因となる
全ての文が重要度の要因によって順位付けられ,上位に位置するものが要約生成に選ばれる
(sentence-ranking method?)
関連した研究
Baxendale (1958) 文書の特徴的な部分を見つけるのに,文の位置を用いる 初めの文か,最後の文
機械学習に基づく多くの複雑なシステムで用いられてきた
Edmundson (1969)
抜粋要約の経験のための典型的な構造の発展 単語の頻度と位置による重要性を合わせた
その他にcue word(significantとかhardlyとかの単語の出現),文書のskeleton(文がtitleかheadingかどうか)を用いる.
各特徴に人手で重み付けをして,各文をスコア付けする
自動生成された要約のうち44%が人手による要約と一致した.
2.2 機械学習法1990年代,NLPにおける機械学習の到来とともに,抜粋を生成するための統計的なテクニックを用いた,将来性のある一連の発表が現われた. はじめ,殆どのシステムは素性は独立であると思われ,ナイーブベイズ法に基づいていたが 他方では適切な素性を選ぶことと独立でない前提を生み出す学習アルゴリズムに焦点をあてた. 他の特徴的なアプローチは抜粋要約を改善するために隠れマルコフモデルおよび対数―線形モデルを巻き込んだ. ごく最近の論文では純粋に単一文書抜粋を改善するため,対照的に, 2.2.1 ナイーブベイズ法Kupiecら(1995) データから学習を行える方法を説明 ナイーブベイズ分類器を用いて,各文を抜粋に価値があるかどうか分類 2.2.2 Rich features と決定木Lin and Hovy (1997) 文の位置の重要性を研究 "position method" 単純に文のテキスト中の位置によって重み付け テキストは,一般的に予見できる談話構造(discourse structure)に従う 中心となる大トピック?(greater topic)の文は確実に同定できる場所(タイトル,アブストラクトなど)に現れる傾向がある 談話構造(discourse structure)は領域によって顕著に変化するので,position methodは単純に定義できない 2.2.3 隠れマルコフモデルこれまでのアプローチは素性に基づくもので,不連続(non-sequential)だったConroy and O'leary (2001) 抜粋の問題を隠れマルコフモデルでモデル化 動機:文のlocal dependenceのため連続モデル(sequential model)を用いる 文の文書中の位置,文中のtermの数,document termsを与えられるsentence termsの類似度の3つの素性のみを使用 2s+1の状態 sの要約状態,s+1の非要約状態が交互に存在 非要約状態ではその状態に留まることが許されている 要約状態では次の状態(非要約状態)を飛ばすことが許されている Osborne (2002)
2001-02抜粋のアプローチにおいて、素性は独立だと思われてきたと主張 この前提を対数ー線形モデルを用いて取り除く 抜粋するかどうかの2つのラベル付け 最急降下法を用いて重み 素性として 単語対 文の長さ 文の位置 を含む 単一のニュース記事の100単語要約の問題 baseline(ニュース見出し記事の最初のn文を選ぶ)の評価を超えられない Svoreら (2007) ニューラルネットに基づくアルゴリズムとthird party datasetsを用いる 2.3 深い自然言語解析による方法機械学習を用いず,ほとんどはテキストの談話構造をモデル化しようとしている Barzilay and Elhadad (1997) かなりの量の言語学的解析を用いる lexical chain:テキスト中の関連づけられた単語の順番 短距離(隣接した単語,文),長距離(テキスト全体) テキストの断片化 ↓ lexical chainの定義 ↓ 要約のための文の価値定義するため強いlexical chainを用いる McKeown and Radev (1995)とLuhn (1958)の折衷案(middle ground)を目指したもの テキスト中の異なる部分を意味的に結びつける 連結は単語レベルのみならず,単語の順番にもlexical chainとして起こり得る 意味的に関連付けられた単語と単語の順番(連続?)は文書中で定義され,いくらかの連結は抜粋され,文書の代表を形作る Wordnetを用いて以下の3ステップでlexical chainを発見する 1. 候補の単語セットを選ぶ 2. 各候補に対して,Wordnetの距離に基づき適切な連結を見つける 3. 見つかったら状況に応じて連結中に単語を挿入し更新する 連結はその長さと均質性?(homogeneity)によってスコアづけされる Onoら (1994) 日本語の解説的な書き物の談話(discourse)の計算的(computational)モデル 談話修辞構造を抜粋するための現実的な手順を入念に作る 文の塊の間関係を表す2分木 この構造は一連の自然言語処理の段階を用いて抜粋される 文の解析 修辞関係の抜粋 断片化 候補生成,選好判断 修辞関係の重要性に基づいて評価される 重要な部分を残しつつ文を減らすために修辞構造木のノードは切り取られる Marcu (1998) だ 「文献紹介」に戻る |