1.圧縮率(要約率)(要約の長さ)/(原文の長さ)より短くなっているものを高い圧縮率というか,上述の式で導かれる値が大きいものを高い圧縮率というかは研究者によってまちまちである. 自ら論文などを書くときには,その定義を明確にしなければならない. (例)原文の長さ:100 a)要約の長さが1の場合
1/100 = 1 % b)要約の長さが99の場合 99/100 = 99 % 2.読者
特定のユーザやユーザの集団の要求に適合するように調整された要約
特定の(通常広い)読者層を対象にした要約
3.原文との関係
入力から複写した題材だけで構成された要約
入力に存在しない題材を含む要約
4.機能
より深く読む文書を選択する参照機能を提供する要約
情報のソースを読むかどうかのユーザの決定を助けることを目的とする
原文中の顕現的な情報をすべて,あるレベルの詳細さでカバーする
報知的要約は,指示的要約の機能を持つ(指示的要約の部分集合)
原文の主題を評価し,著者の著作の質に関する要約作成者の見方を表現する
指示的要約にも報知的要約にもなりうる. 自動要約システムの範囲を少し越えており,人間に適してた活動であるといえる. 5.一貫性一貫性のない文
6.スパン
MDSにおいて要約器は文書間で共通なことは何か,特定の文書で何が異なっているかを同定する.
7.言語
1つの言語を処理,入力と同じ言語で出力
複数の言語を処理,入力と同じ言語で出力
複数の言語を処理,入力と異なる言語で出力
その他に
「技術マニュアルは特定の専門的な語彙を使っているかもしれない」
というようにサブ言語に制限される場合がある.「生徒や旅行者,非母国語話者のために制限語彙と単純な構文を用いなければならない」 8.ジャンル科学技術報告,新聞記事,電子メール,社説,本などジャンルに応じて特有な戦略を用いる場合もある. 9.メディアテキスト,音声,表,図,映像などマルチメディア要約では入出力は様々なメディアの組み合わせで構成される. 研究ではテキストがメインになると思われる. 要約プロセスの3段階
要約器が実行する3つの基本的要約操作あらゆる操作は以下に示す3つの基本的な操作によって表現できる.
これらの操作は上記の3段階内のどこでも行われる.
ここでいう要素は,単語,句,節,文,談話などを指す.
要約手法
単語の頻度や位置情報などを用いた手法.
言語に依存しないが利用できる情報に乏しく,一定以上の精度向上が期待できない.
辞書,シソーラス,手掛かり語などの知識情報や,照応解析,文書構造解析,含意関係認識などの解析情報を用いた手法.
意味的関連性や一貫性を考慮でき,高精度が期待できる反面,言語や領域に大きく依存する. 具体的な方法いくつか
参考文献 Inderjeet Mani 著/奥村 学・難波英嗣・植田禎子 訳:自動要約,共立出版(2003) 奥村 学 著:自然言語処理の基礎,コロナ社(2010) 天野禎章・横山晶一:ラベル伝搬による多言語資源の利用と転移学習を用いた重要文抽出システム,言語処理学会第17回年次大会論文集(2011) 「自然言語処理について」に戻る |