自動要約について

要約器:人間が利用するために,入力内容を簡約にした表現を作成することを目標としたシステム

要約システムのパラメータ


1.圧縮率(要約率)

(要約の長さ)/(原文の長さ)
この値が小さいほど圧縮率が高いという.
より短くなっているものを高い圧縮率というか,上述の式で導かれる値が大きいものを高い圧縮率というかは研究者によってまちまちである.
自ら論文などを書くときには,その定義を明確にしなければならない.


(例)原文の長さ:100
a)要約の長さが1の場合
 1/100 = 1 %
b)要約の長さが99の場合
 99/100 = 99 %

2.読者

  • ユーザ(トピック,クエリ)に焦点を合わせた要約
特定のユーザやユーザの集団の要求に適合するように調整された要約
  • 一般的要約
特定の(通常広い)読者層を対象にした要約

3.原文との関係

  • 抜粋
入力から複写した題材だけで構成された要約
  • アブストラクト
入力に存在しない題材を含む要約

4.機能

  • 指示的要約
より深く読む文書を選択する参照機能を提供する要約
情報のソースを読むかどうかのユーザの決定を助けることを目的とする
  • 報知的要約
原文中の顕現的な情報をすべて,あるレベルの詳細さでカバーする
報知的要約は,指示的要約の機能を持つ(指示的要約の部分集合)
  • 批評的要約
原文の主題を評価し,著者の著作の質に関する要約作成者の見方を表現する
指示的要約にも報知的要約にもなりうる.
自動要約システムの範囲を少し越えており,人間に適してた活動であるといえる.

5.一貫性

一貫性のない文
  • 解消されない照応詞がある
  • 推論におけるギャップがある
  • 同じあるいは同様の考えを繰り返す(冗長性を有する)
など

6.スパン

  • 単一の入力文書
  • 複数文書要約(MDS)
MDSにおいて要約器は文書間で共通なことは何か,特定の文書で何が異なっているかを同定する.

7.言語

  • 単一言語
1つの言語を処理,入力と同じ言語で出力
  • 多言語
複数の言語を処理,入力と同じ言語で出力
  • 言語横断
複数の言語を処理,入力と異なる言語で出力

その他に
「技術マニュアルは特定の専門的な語彙を使っているかもしれない」
「生徒や旅行者,非母国語話者のために制限語彙と単純な構文を用いなければならない」
というようにサブ言語に制限される場合がある.

8.ジャンル

科学技術報告,新聞記事,電子メール,社説,本など
ジャンルに応じて特有な戦略を用いる場合もある.

9.メディア

テキスト,音声,表,図,映像など
マルチメディア要約では入出力は様々なメディアの組み合わせで構成される.
研究ではテキストがメインになると思われる.

要約プロセスの3段階


  1. 解析:入力を解析し,内部表現を構築
  2. 変形(洗練):入力の内部表現を要約の表現に変形する
  3. 合成:要約の表現を自然言語に戻す

要約器が実行する3つの基本的要約操作


あらゆる操作は以下に示す3つの基本的な操作によって表現できる.
これらの操作は上記の3段階内のどこでも行われる.
  1. 選択(要素のフィルタリング)
  2. 集約(要素の併合)
  3. 一般化(要素を,より一般的/抽象的なものに置き換えること)
ここでいう要素は,単語,句,節,文,談話などを指す.

要約手法


  • 表層的手法
単語の頻度や位置情報などを用いた手法.
言語に依存しないが利用できる情報に乏しく,一定以上の精度向上が期待できない.
  • 深層的手法
辞書,シソーラス,手掛かり語などの知識情報や,照応解析,文書構造解析,含意関係認識などの解析情報を用いた手法.
意味的関連性や一貫性を考慮でき,高精度が期待できる反面,言語や領域に大きく依存する.

具体的な方法いくつか


  • 修辞構造理論を用いた方法
  • ナップザック問題
  • 施設配置問題

参考文献
Inderjeet Mani 著/奥村 学・難波英嗣・植田禎子 訳:自動要約,共立出版(2003)
奥村 学 著:自然言語処理の基礎,コロナ社(2010)
天野禎章・横山晶一:ラベル伝搬による多言語資源の利用と転移学習を用いた重要文抽出システム,言語処理学会第17回年次大会論文集(2011)

「自然言語処理について」に戻る
Comments