3/6/2012 : 正解度93.5%( 931769 / 997040 token) 17/5/2012 : 測定できました。 最後は、システム全体の精度を計算する。また、コードをまとめる、いまバラバラになってしまった。 14/5/2012 : 全単語に対するモデルを作った。 10/5/2012 :
以上の実験結果により、データサイズが大きすぎを心配する必要がない。 9/5/2012 : F-scoreの使い方を誤解しました。見直します。 9/5/2012 : 選択係数と精度との関係: 以上のグラフを見ると、選択係数が0.3〜0.99には、精度がほぼ同じだった。 したがって、精度が80%でもよかったら、選択係数が0.3を選ぶ。 しかし、精度と選択係数のバランスが求めたいと、F-scoreの方法があまりよくないと考えます。 9/5/2012 : 素性選択を直しました。
9/5/2012 : F-scoreにより、
8/5/2012 : F-scoreにより素性選択する。最初には、素性の数は1/10倍に減らして、精度を再検討する。 7/5/2012 : 素性を選んで、半分ぐらいになった。残念ですが、精度が92%に下がった。 7/5/2012 : 学習とテストができた。 素性 : 29199 エラー/テスト : 645 : 70965 精度(closed test) : 99.0911% ただ、モデルファイルが7.7MBだった。 28/4/2012 : 素性+ラベル+モデルを保存するファイルのサイズは1.1MBだ。 これはまだ1つの音節のデータしかない。音節全部作ったら、データが大きすぎじゃない? モデルファイルを開けてみると、0 0 0 0 ...の列が圧倒的多い。要らないや意味ない素性を抜いて捨てなければならない。 捨てたら、もう一回結果を比較する。 28/4/2012 : 測定するpredict_string()を作った。 28/4/2012 : 分類器を使ってみる。 28/4/2012 : 指定した一つの音節にデータを作って、学習した。 音節は”cho”だった。 27/4/2012 : save_model, load_modelを使ってみた。 27/4/2012 : trainができた。 27/4/2012 : blasディレクトリを加えて、tron.cppのコンパイラエラーを解決した。 27/4/2012 : class Problemをデバッグする。 26/4/2012 : model-io.hを作った。 |