ベトナム語外部ページベトナム語コーパス(Webサイトから集められたもの)
VNESEcorpus.txt:65万文
VNTQcorpus(small).txt:30万文
VNTQcorpus(big).txt:175万文
単語分割
DongDu
Anhさんが研究開発を行ったSVMを用いた単語分割ツール 精度は98.2%
VLSP(Vietnamese Language and Speech Processing)http://vlsp.vietlp.org:8080/demo/?page=home
・Vietnamese machine readable dictionary:3万5千語
・Vietnamese treebank:単語分割済みの7万文、品詞付与済みの1万文、構文解析済みの1万文
・English-Vietnamese bilingual corpus:約10万文の英語ベトナム語のバイリンガルコーパス
VLSPで公開されているツール
・Vietnamese word segmentation program(vnTokenizer)
精度97%
7万文から学習
・Vietnamese part-of-speech tagger(VietTagger)
精度93%
2万文から学習
その他
単語分割済み(IOB2タグ付与済み)コーパス:http://www.jaist.ac.jp/~hieuxuan/vnwordseg/data/
ベトナム語の声調記号を復元するWebアプリ Vietnamese Accent Marks:http://vietnameseaccent.com/
Chương trình tự động thêm dấu tiếng Việt:http://www.easyvn.com/tiengviet/index.php ベトナム語自然言語処理のポータルサイト:http://vnlp.net/
|
|