emnlp2014_chen

Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers

Bibliography

Chen, C., & Ng, V. (2014). Chinese Zero Pronoun Resolution: An Unsupervised Probabilistic Model Rivaling Supervised Resolvers. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 763–774). Doha, Qatar: Association for Computational Linguistics

所感

中国語自体が日本語と似ていることから, 中国語の研究は日本語でも非常に参考になる場合が多い. この研究は,ゼロ参照解決のプロセスをゼロ代名詞の検出と参照解決に分け,後者のみに重点をおいている.

タイトルの通り, 教師なしの手法で参照解決を行っているが, その性能が教師有りの手法と同等の性能を示したことを報告している. 比較した教師有りの手法は,この先行研究で2~3年に渡り報告されていたもの.

メインのアイディアは,

  • ゼロ代名詞が補われた文(私は(pro)買ってあげた)に対して,
  • 文脈が非常に似たゼロ代名詞を補う必要の無い文(私はそれを買ってあげた)

という文は,音形の無い文要素 (pro)が(それ)に変わっただけで 基本的に等価. ということは(それ)の参照解決の結果とproの参照解決の結果もほぼ等価だろう. ということである.

結局参照の解決に有効な情報としては

  1. 対象の【ゼロ代名詞】と【人称・数量・性別・有性生】などが一致すること,
  2. 文脈 である.

特に2.文脈は, 教師なし学習(EMアルゴリズムによる最適化のため) 計算量を抑えるためにも文脈の素性をかなり工夫する必要がある.

本論で最も有効であった文脈素性は,3値素性で 1 参照先候補が参照元に最も近い先行詞で意味上の主語である かつ 参照先候補は pの述語に適合可能である 2-1 参照先候補が参照元に意味的に適語する初めての先行詞である. 2-2 参照先候補が参照元に意味的に適語する初めての先行詞でない. である.

前の主語は次の文の主語になりやすい(1). 前の主語が適合可能でない(人称等がうまく一致する)場合は, 文の最後の単語が主語になりやすい.(2-1)

という経験則を反映させたものである.

教師なし学習では, かなり素性構造を凝る必要がるのが理解できるだろう.


Comments