2015-11-07入手・利用可能な資源

ベトナム語外部ページ

ベトナム語コーパス(Webサイトから集められたもの)

VNESEcorpus.txt:65万文

VNTQcorpus(small).txt:30万文

VNTQcorpus(big).txt:175万文

単語分割

DongDu

Anhさんが研究開発を行ったSVMを用いた単語分割ツール

精度は98.2%

VLSP(Vietnamese Language and Speech Processing)

http://vlsp.vietlp.org:8080/demo/?page=home

・Vietnamese machine readable dictionary:3万5千語

・Vietnamese treebank:単語分割済みの7万文、品詞付与済みの1万文、構文解析済みの1万文

・English-Vietnamese bilingual corpus:約10万文の英語ベトナム語のバイリンガルコーパス

VLSPで公開されているツール

・Vietnamese word segmentation program(vnTokenizer)

精度97%

7万文から学習

・Vietnamese part-of-speech tagger(VietTagger)

精度93%

2万文から学習

その他

単語分割済み(IOB2タグ付与済み)コーパス:http://www.jaist.ac.jp/~hieuxuan/vnwordseg/data/

ベトナム語の声調記号を復元するWebアプリ

Vietnamese Accent Marks:http://vietnameseaccent.com/

Chương trình tự động thêm dấu tiếng Việt:http://www.easyvn.com/tiengviet/index.php

ベトナム語自然言語処理のポータルサイト:http://vnlp.net/
Comments