題名 | 形態・構文的パターンを用いた言い換えコーパスの構築 | 執筆者 | 藤田 篤、乾 健太郎 | 刊行書物 | 情報処理学会研究報告. 自然言語処理研究会報告 2005(117), 143-150, 2005-11-21 |
概要 言い換えに関わる語の統語・意味的な特性を明らかにするため。および言い換え生成技術の定量評価のための、言い換えコーパスを構築する。
言い換え 意味が近似的に等価な言語表現の異形のこと
言い換えの使い道(例) 簡単な文章にする。 音声合成の前処理に聞き取りやすいように変換する。等
言い換えコーパス 今までも言い換えコーパスはあったが、言い換えの基礎研究に使えるようなコーパスはなかった。 (言い換えの性能評価、特性の分析など)
従来の言い換えコーパスの作り方 内省に基づく言い換え生成 - 原文に対して複数の正解翻訳があれば、それを言い換えとする方法。
- 人間が評価し、言い換えを記述する方法
コーパスからの自動獲得 - 同じ出来事を報道している複数の新聞を対応付ける、無い用語や固有表現の重なり具合、構文表現の類似度、文の抽出元の記事の日付や文の位置などの情報から言い換えらしい文対を出力する。
論文での提案手法 1:パターンを記述し、形態素解析と係り受け解析で言い換え可能なパターンを網羅的に収集する。 例: | 言い換えの例
| パターン | 言い換え前: 言い換え後: | 刺激を受ける 刺激される | Nを(→V)V『「Nを」がVに係っているという意味』 V(N)『Nの動詞形という意味』 |
言い換え可能な文を網羅的に収集するため過剰な制約は記述しない。 2:既存の言い換え生成システムを用いて所与の分集合に変換パターンを適用し、言い換え事例の候補集合を生成する。
3:言い換えクラスごとに適否判定ガイドラインを作成し、言い換え候補を的確、不適格に分類する。 「語彙・構文的言い換えにおける変換誤りの分析」よりいくらかの作例に基づいて予測できる範囲で誤りの種類を列挙したもの。 未知の誤りが出現した場合、事例がたまった時点で議論し、ガイドラインを更新する。
結果 事例収集効率
各工程当たりでかかった時間の比較。 選考実験での事例収集効率の評価がないため比較はできなかった。
網羅性
もちいた文集合から無作為に取り出した750文に対し人手で206事例を作成、今回の方法で収集した事例と比較した。 ガバレージは77%だった。
判定結果の信頼性
判定結果の信頼性を保証するためには多くの作業者を用いる必要がある。 しかし人件費がかかるため、作業者間の判断結果が揺れないよう適否判定ガイドラインを設けた。 ガイドラインの更新に伴い作業者間の一致率が上昇したのでガイドラインの出来次第で信頼できるものになる。
言い換えクラスの定義に関する議論
特定の言い換えクラスを考える場合なら適否の判定基準は明確になると考えていた。 しかしそうでもなかった。 今回の試みによって多くの言い換え事例と適否判定ガイドラインには今後このような問題を論するための素材としての用途もある。
まとめ この論文では2つの言い換えクラスに対して事例収集手段を用いた。比較的頑強に作用することを示した。 |