2015-11-07ベトナム語形態素解析に関する文献

原稿へのリンクとメモを記載しています。


ベトナム語処理

Vietnamese Language Processing : Issues and Challenges

Ho Tu Bao, Japan Advanced Institute of Science and Technology, 2009
ベトナム語自然言語処理の概要とVLSPグループの取り組みについて

Building a Large Syntactically-Annotated Corpus of Vietnamese

Thai Phuong Nguyen, Xuẩn Lương Vũ, Nguyễn Thi Minh Huyền, Van Hiep Nguyen, Lê Hồng Phương, Proceedings of the Third Linguistic Annotation Workshop, ACL-IJCNLP 2009, pages 182–185

ベトナム語ツリーバンクの作成に関する論文。
LDC(Linguistic Data Consortium)で公開すると書いてあるが、現在確認できない。

ベトナム語形態素解析関連

Tuan Anh Luu and Kazuhide Yamamoto. Proceedings of the International Conference on Asian Language Processing (IALP 2012), pp.189-192 (2012.11)

ベトナム語の声調復元の研究
n-gramモデルで94.7%の精度で声調記号を復元
ベトナム語入力環境が未だ整っていないなどの理由から、声調記号なしのベトナム語(日本語のひらがなだけのようなもの)で入力する人は多いため、形態素解析に復元機能を付加するといいと思う。

Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt

Tuan Anh Luu and Kazuhide Yamamoto.

ベトナム語単語分割へのPointwise法の応用

SVMを用いて単語分割を行ったところ、98.2%の精度で解析を行った。
また既存のvnTokenizerよりも非常に高速に解析ができ、精度も1%高い。
ツール「dongdu」として公開されている。

Improving Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds of Resources

Oanh Thi Tran and Cuong Anh Le and Thuy Quang Ha,自然言語処理, Vol.17, No.3, pp.41-60 , 言語処理学会 (2010)

最大エントロピーモデルを利用して単語分割および品詞付与を行う。

中国語の研究に基づく素性を導入。
単語分割は95.30%、品詞付与まで行うと89.64%の精度。

Vietnamese Word Segmentation with CRFs and SVMs: An Investigation 

Nguyen, C.T., Nguyen, T.K., Phan, X.H., Nguyen, L.M, Ha, Q.T, Proceedings of the 20th PACLIC, pp.215-222

CRFもSVMもF値で94%ほど。



日本語形態素解析

森, 信介 and ニュービッググラム and 坪井, 祐太, 情報処理学会論文誌 52(10), 2944-2952, 2011-10-15, 情報処理学会

点予測による形態素解析

森 信介 and 中田 陽介 and Neubig Graham and 河原 達也自然言語処理, Vol.18, No.4, pp.367-381 , 言語処理学会 (2011)
条件付き確率場と同等の性能を得ることができた。
また新しい分野に適応する際に、簡単で少ないアノテーションにより精度を向上させることが可能である。

Conditional Random Fieldsを用いた日本語形態素解析

工藤, 拓 and 山本, 薫 and 松本, 裕治、情報処理学会研究報告自然言語処理(NL)、Vol.2004, No.47, pp.89-96, 一般社団法人情報処理学会

Support Vector Machine を用いた Chunk 同定

工藤 拓、松本 裕治、情報処理学会研究報告. NL,自然言語処理研究会報告 140, 9-16, 2000-11-21 
一般社団法人情報処理学会

中国語形態素解析

サポートベクトルマシンを用いた中国語解析実験

吉田 辰巳,大竹 清敬, 山本 和英. 自然言語処理, Vol.10, No.1, pp.109-131 , 言語処理学会 (2003.1)
入手可能なツールと資源を用いて中国語の解析を行った結果のまとめ。
YamCha(SVM)による形態素解析精度は約88%

中国語のコンピュータ処理について -コンピュータによる中国語処理の発展と課題-

張 玉潔,  山本 和英. 漢字文献情報処理研究, Vol.6, pp.102-109, 好文出版 (2005.10)
中国語の入力から、中国語特有の難しさ、今後の展望について
Comments