Dong Wang, Yang Liu Proceedings of the 49 th Annual Meeting of the Association for Computational Linguistics,pages 331-339 2011 ※この文献中での圧縮率(compression ratio)は短くなっているほど低いという 概要意見の要約の予備実験電話での会話(88個)における話者の意見の抜粋,アブストラクトを含むコーパスを作成 要約には2つの方法を採用(抜粋に広く使われている手法)
研究の背景最近はスピーチの要約が興味を持たれつつある(telephone speech, broadcast news, lectures, meetings, voice mails) 意見要約は現在までさほど研究されてない スピーチの要約はよく構成されたテキストの要約より難しい 対話における感情解析も難しい 会話スピーチは情報の密度が低い,話がそれることもある これまでには 教師なし Maximal Marginal Relevance (MMR) Latent Semantic Analysis (LSA):潜在意味解析 教師あり→抜粋の問題へ 二値分類 Prior research has also explored using speech specific information, including prosodic features, dialog structure, and speech recognition confidence. この研究は質問応答とも関連 コーパスの作成Switchboardコーパストピックについての電話での5分程度の会話 全70トピック中6トピックから88の会話を選択 うち18の会話について3人の学部生にアブストラクト要約と抜粋要約を作成してもらう 加えて,各トピックについて話者は全体的にstrongly support, somewhat support, neutral, somewhat against, strongly againstのどれなのかを選んでもらう 意見要約の方法抜粋要約はアブストラクト要約生成の第一段階として用いられるdialogue acts (DA):対話行為 話者が何かしらの意図を持って発話すること sentence-ranking method 各文をスコア付けし,要約の圧縮率に達するまでスコアの高いものから順に選んでいく 各DAに対して
コサイン類似度を求めるのにTF*IDFを使用 IDFを求めるのにSwitchboardコーパスを使用 Tree Tagger toolkit The TreeTagger is a tool for annotating text with part-of-speech and lemma information. graph-based method 文書を隣接行列でモデル化 グラフのノードが文,エッヂが各文間の類似度 ノードのスコアが収束するまで繰り替えし処理する 各DAに対して
に基づいてスコア付けする 広く用いられる手法と違い,ノード間の結合には方向性がある(隣接行列が非対称) sentence-ranking methodにせよgraph-based methodにせよ 要約を行う際にはそれぞれの話者を分離するのが基本. この方法では,分離していない. →話者間の隣接した発話を抜粋できる 実験圧縮率10-25%(10%,15%,20%,25%)の抜粋要約ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 要約の自動評価方法のひとつ. (通常人手で作られる)参照要約に含まれるn-gramが出力にどれくらい再現しているか baselineおよび人手による抜粋要約,アブストラクト要約と比較 baselineは各話者の最も長い発話を選ぶ 結果 類似度の情報が役に立たない どの圧縮率でもbaselineよりいい結果がでた 圧縮率が高いほど改善率は低くなった →低圧縮率の場合,必ずしも最も長い発話が選ばれるとは限らない 圧縮率が高くなるほど,より最長の発話が選ばれ易くなる 2つの手法の間に顕著な違いは見られなかった. 抜粋の参照要約と比較した場合,圧縮率10%を除いてsentence-ranking methodの方がわずかにいい アブストラクトの参照要約と比較の場合,graph-based methodの方がわずかにいい sentence-ranking methodでは長いDAが好まれ graph-based methodでは隣接行列によって強調されているDAが好まれていた
トピック内の他の会話で同じ単語を使えばその単語のスコアが高くなる コーパスのサイズが小さいので,実際にはトピックと関連性のある単語でも単一の会話にしか出現しないこともあった
相手の発話の重複や割り込みによって,1つ文が2つ(以上?)のDAに別れてしまうことがある 人手による要約ではそれをひとつの文として抜粋できるが,提案手法では |