FOGA-符号なしベトナム語の修正

3/6/2012  :  正解度93.5%( 931769 / 997040 token)
17/5/2012 : 測定できました。 最後は、システム全体の精度を計算する。また、コードをまとめる、いまバラバラになってしまった。
14/5/2012 : 全単語に対するモデルを作った。 
10/5/2012 :
 選択された素性の数/もともとの素性の数精度(closed test)
0.5
99.1
 0.2 98.8
 0.197.7
 0.0596.7
0.01
92.7
                予想とおりの結果だった。素性の数がどんどん少なくなると、精度もだんだん下がる。しかし、精度がまだまだ高い。
                以上の実験結果により、データサイズが大きすぎを心配する必要がない。
9/5/2012 : F-scoreの使い方を誤解しました。見直します。
9/5/2012 : 選択係数と精度との関係:
                以上のグラフを見ると、選択係数が0.3〜0.99には、精度がほぼ同じだった。
                したがって、精度が80%でもよかったら、選択係数が0.3を選ぶ。
                しかし、精度と選択係数のバランスが求めたいと、F-scoreの方法があまりよくないと考えます。


9/5/2012 : 素性選択を直しました。
 選択された素性の数/もともとの素性の数 精度(closed test)
 1/10 64%
 1/582%
 1/383%
 1/199%
                その結果は、予想とおりだった。

9/5/2012 : F-scoreにより、
選択された素性の数/もともとの素性の数
 精度(closed test)
 1/10 55%
 1/5 86%
 1/3 79%
 1/1 89%
                1/1の時、99%になるはずが。プログラムには、どこかエラーがあると思う。

8/5/2012 : F-scoreにより素性選択する。最初には、素性の数は1/10倍に減らして、精度を再検討する。
7/5/2012 : 素性を選んで、半分ぐらいになった。残念ですが、精度が92%に下がった。
7/5/2012 :  学習とテストができた。
                素性 : 29199
                エラー/テスト : 645 : 70965
               精度(closed test) : 99.0911%
                ただ、モデルファイルが7.7MBだった。

28/4/2012 : 素性+ラベル+モデルを保存するファイルのサイズは1.1MBだ。 これはまだ1つの音節のデータしかない。音節全部作ったら、データが大きすぎじゃない?
                モデルファイルを開けてみると、0 0 0 0 ...の列が圧倒的多い。要らないや意味ない素性を抜いて捨てなければならない。
                捨てたら、もう一回結果を比較する。
28/4/2012 : 測定するpredict_string()を作った。
28/4/2012 : 分類器を使ってみる。
28/4/2012 : 指定した一つの音節にデータを作って、学習した。 音節は”cho”だった。
27/4/2012 : save_model, load_modelを使ってみた。
27/4/2012 : trainができた。
27/4/2012 : blasディレクトリを加えて、tron.cppのコンパイラエラーを解決した。
27/4/2012 : class Problemをデバッグする。
26/4/2012 : model-io.hを作った。
Comments