研究

目的・目標

 ベトナム語に対して、自然言語処理を研究したい。
 ベトナム語処理の問題というのは、データが足りません。日本語や英語を研究したい人は、ほしいデータをすぐに手に入れられるが、ベトナム語の場合では、そういう簡単ではありません。辞書やコーパスは自分でやらなければなりません。私はオープンソースの中のデータを正規化して用いています。
 ベトナム語の研究もありますが、一般基準を使わなかった。単語の品詞を例とします。16種も31種も同時に使っています。
 もう一つの問題は、研究の結果、資料を公開しないという問題です。ただ結果を報告しましたが、他の研究者が使えません。

 この現状の上で、私は最初に辞書、コーパス、形態素解析などのベトナム語処理の基本な資源を作ろうと思っています。

方針

ベトナム語処理のために貢献したいという主張で、出来るだけ研究の結果、資料、ソースなどを公開します。

ベトナム語の特徴

  • 文字は、ラテン文字系ですが、特殊な文字がある。全部は202文字を使う(特殊の文字:158 + 英語の文字52 - {'z','f','w','j'})
  • ベトナム語では、スペースを使っていますが、単語と単語の区別記号ではなく、音節と音節の区別記号です。
    例えば:今日 は いい 天気 です ね。 (英語の場合)
        今 日 は い い 天 気 で す ね。(ベトナム語の場合)
    により、形態素解析が必要です。
  • 一つの単語は複数の品詞があります(英語と同じ)。
  • 固定名詞の最初文字は大文字です(英語と同じ)。
  • 単語は活用形がありません(中国語と同じ)。

アプローチ

機械学習・統計的自然言語処理

現時点での成果

今後の課題

Comments