大規模データ処理に興味がある研究者は岡野原さんの論文を読まない人がいないだろう。 岡野原さんのLearning Combination Features with L1 regularizationと全ての部分文字列を考慮した文書分類という論文の中にGrafting + L1正則化Logistic回帰モデルを用いて、大規模の素性集合から有効な素性を選ばれる方法を説明された。 この方法は面白く、よく有用な方法だと思うが、コードなど公開されない。 自分の研究も使うツールとして、夏休みには、Grafting + L1 LR toolsを実装する。 |