丸山 拓海‎ > ‎

文献調査メモ

Simple English Wikipedia: A New Text Simplification Task

William Coster, David Kauchak
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:shortpapers, pages 665–669(2011)


概要
・English Wikipedia(Normal)とSimple English Wikipedia(Simple)から137,000文対の平易化コーパスを構築
・作成したコーパスとPB-SMT(Moses)を用いて文単位の平易化

平易化コーパス
・Normal sentenceからSimple sentenceへの変換
rewording 65%, deletion 47%, reorders 34%, merges 31%, split 27%
・平易化コーパスの27%はNormal,Simple間で一致


文単位の平易化
・手法: None(平易化なし), Moses, Moses-Oracle
・評価: BLEU, SSA, word-F1
・Mosesを用いることでBLEUが0.005向上
・Moses-Oracleにより, BLEUが0.034改善できることを示す


Learning to Simplify Sentences Using Wikipedia

William Coster, David Kauchak
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 1–9 (2011)


概要
・deletion(句の削除)を考慮した平易化モデル(Moses+del)を提案

句の削除
・"Normal"が"Simple"に対応付けされなかった場合に"NULL"を割り当てる
・Normal単語の集合(N)が一つのSimple word(s)に割り当てられており、Nの要素の一つnがsに対応付けされたならば、
 n以外のNの要素(n')に"NULL"を割り当てる


文単位の平易化
・手法: None(baseline)、文圧縮手法(K&M, T3)、Moses、提案手法(Moses + del)
・評価: BLEU、SSA、word-F1
・Moses+delがMosesをBLEUにおいて0.009上回る


Improving Text Simplification Language Modeling Using Unsimplified Text Data

D. Kauchak
Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pp. 1537–1546, 2013.

概要
・NormalとSimpleの間では、平均音節数,文の複雑さ, 文法の複雑さが異なり、言語
   モデルのパフォーマンスに影響
・SimpleにNormalを加えて学習することで、simpleだけではうまくいかない部分を    助ける
・少量のデータ(Simple)と大量のデータ(Normal)を組み合わせることで、大量の
   Simpleと同等程度のパフォーマンスを実現できる



Learning a Lexical Simplifier Using Wikipedia

C. Horn, C. Manduca, and D. Kauchak
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics

概要
・平易化コーパスから平易化規則を獲得する手法の提案
・Feature-basedのランキング手法の提案
・既存手法よりも精度の高い平易化を実現



Simplifying Lexical Simplification : Do We Need Simplified Corpora ?

S. Štajner and G. Glavaš
Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pp. 63–68, 2015.

概要
・大規模なコーパスから単語の分散表現により、複雑な語と同等の意味を持つ平易な
   語を探す
・ある複雑な単語に対して候補を10語収集し、ランキング
・平易化コーパスを用いた語彙平易化の既存手法と同等の精度を実現
・平易化が必要な語の換言を96%カバー(既存手法を上回る)



Optimizing Statistical Machine Translation for Text Simplification

Wei Xu, Courtney Napoles, Ellie Pavlick, Quanze Chen and Chris Callison-Burch
Transactions of the Association for Computational Linguistics, vol. 4, pp. 401–415, 2016.


概要
・平易化システム(SMT) のチューニング
- 大規模コーパスから獲得した換言ルール
- 人手によって作られた小規模な平易化コーパス
- 文平易化の自動評価尺度


自動評価尺度
入力文-参照文間の変化がない場合にペナルティを設ける
・FKBLEU: n入力と出力の変化分を考慮 + 可読性の評価
・SARI: 適切に平易化が行われているかを評価

結果
・SARIによってシステムを最適化することで、既存手法を上回る結果を実現
・SARIが人間の評価と相関があることを示す。



Lexical Simplification with Neural Ranking

Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2,
Short Papers, pages 34–40, Valencia, Spain, April 3-7, 2017

概要
・ニューラルネットワークを用いた語彙平易化手法の提案
・語彙平易化タスクでトップスコアのシステムを実現
・従来手法よりも文法/意味エラーが少ない

置換候補の生成パラレルコーパスと分散表現を組み合わせた手法
・Newsela コーパス(パラレルコーパス)
・context-aware word embeddings model

置換候補のランク付け回帰モデルによるランク付け、信頼性のチェック 
・neural regression model

実験結果, エラー分析
・語彙平易化タスクでトップスコアのシステムを実現
 ・従来手法よりも文法/意味エラーが少ない


Translating from Original to Simplified sentences using Moses: When does it Actually Work?

S. Štajner and H. Saggion, 
Proceedings of Recent Advances in Natural Language Processing, pages 611–617

概要
・3つのデータセットを用いて、Mosesによる平易化の成功と失敗の原因を特定
・トレーニングデータの原文と平易文が一致している場合にのみMosesは有効
・あらゆる平易化の操作を行う場合に、Mosesは効果的ではないことを示唆



From Word Embeddings To Document Distances

M. J. Kusner, Y. Sun, N. I. Kolkin, and K. Q. Weinberger
Proceedings of The 32nd International Conference on Machine Learning

概要
・文書間の距離を測る関数Word Mover'sDistance(WMD)の提案
・ある文書のWord Embeddingがもう一方の文書のWord Embeddingに移動する最小コストをWMDと定義する
・文書分類のタスクにおいてエラーの少ない関数であることが示される


A Deeper Exploration of the Standard PB-SMT Approach to Text Simplification and its Evaluation

S. Štajner, B. Hannah, and H. Saggion

Proc. 53rd Annu. Meet. Assoc. Comput. Linguist. 7th Int. Jt. Conf. Nat. Lang. Process. (Volume 1 Long Pap., pp. 823–828, 2015.

概要
・PB-SMT(Moses)によるText Simplification
・トレーニングデータの量と質(S-BLEUのスコア)の効果を比較

[Text Simplification Corpus]
・Training data : Simple English Wikipedia
・Tuning data: Simple English Wikipedia
・Test data: Simple English Wikipedia
                   (240文: 質分類における各グループから30文ランダムに抽出)
                    Encyclopedia Britannica
                     (601文: 全て)

    量分類: 

 Training data Tuning data
 2000
200 
 4000400 
 6000600 
 8000800 
 100001000 

質分類: S-BLEUにより分類 (0-0.3], (0.3-0.4], ...(0.9-1.0]

以上の量と質の組み合わせ40パターンのモデルを構築する

・評価
 ・自動評価(BLEU)
        ・トレーニングデータの量による影響はほとんど見られない
        ・トレーニングデータの質(S-BLEUのスコア)が結果に大きく影響する

 ・人手評価
        (0.5, 0.6]のモデルがGrammar, Meaning preservationで最良
Comments