原稿へのリンクとメモを記載しています。
ベトナム語処理
Ho Tu Bao, Japan Advanced Institute of Science and Technology, 2009
ベトナム語自然言語処理の概要とVLSPグループの取り組みについて
Thai Phuong Nguyen, Xuẩn Lương Vũ, Nguyễn Thi Minh Huyền, Van Hiep Nguyen, Lê Hồng Phương, Proceedings of the Third Linguistic Annotation Workshop, ACL-IJCNLP 2009, pages 182–185
ベトナム語ツリーバンクの作成に関する論文。
LDC(Linguistic Data Consortium)で公開すると書いてあるが、現在確認できない。
Tuan Anh Luu and Kazuhide Yamamoto. Proceedings of the International Conference on Asian Language Processing (IALP 2012), pp.189-192 (2012.11)
ベトナム語の声調復元の研究
n-gramモデルで94.7%の精度で声調記号を復元
ベトナム語入力環境が未だ整っていないなどの理由から、声調記号なしのベトナム語(日本語のひらがなだけのようなもの)で入力する人は多いため、形態素解析に復元機能を付加するといいと思う。
Tuan Anh Luu and Kazuhide Yamamoto.
ベトナム語単語分割へのPointwise法の応用
SVMを用いて単語分割を行ったところ、98.2%の精度で解析を行った。
また既存のvnTokenizerよりも非常に高速に解析ができ、精度も1%高い。
ツール「dongdu」として公開されている。
Oanh Thi Tran and Cuong Anh Le and Thuy Quang Ha,自然言語処理, Vol.17, No.3, pp.41-60 , 言語処理学会 (2010)
最大エントロピーモデルを利用して単語分割および品詞付与を行う。
中国語の研究に基づく素性を導入。
単語分割は95.30%、品詞付与まで行うと89.64%の精度。
Nguyen, C.T., Nguyen, T.K., Phan, X.H., Nguyen, L.M, Ha, Q.T, Proceedings of the 20th PACLIC, pp.215-222
CRFもSVMもF値で94%ほど。
日本語形態素解析
森, 信介 and ニュービッググラム and 坪井, 祐太, 情報処理学会論文誌 52(10), 2944-2952, 2011-10-15, 情報処理学会
森 信介 and 中田 陽介 and Neubig Graham and 河原 達也, 自然言語処理, Vol.18, No.4, pp.367-381 , 言語処理学会 (2011) 条件付き確率場と同等の性能を得ることができた。 また新しい分野に適応する際に、簡単で少ないアノテーションにより精度を向上させることが可能である。
工藤, 拓 and 山本, 薫 and 松本, 裕治、情報処理学会研究報告自然言語処理(NL)、Vol.2004, No.47, pp.89-96, 一般社団法人情報処理学会
工藤 拓、松本 裕治、情報処理学会研究報告. NL,自然言語処理研究会報告 140, 9-16, 2000-11-21
一般社団法人情報処理学会
中国語形態素解析
吉田 辰巳,大竹 清敬, 山本 和英. 自然言語処理, Vol.10, No.1, pp.109-131 , 言語処理学会 (2003.1)
入手可能なツールと資源を用いて中国語の解析を行った結果のまとめ。
YamCha(SVM)による形態素解析精度は約88%
中国語のコンピュータ処理について -コンピュータによる中国語処理の発展と課題-
張 玉潔, 山本 和英. 漢字文献情報処理研究, Vol.6, pp.102-109, 好文出版 (2005.10) 中国語の入力から、中国語特有の難しさ、今後の展望について
|