Coursera How to win a data science competition: learn from top kagglers
"Target mean encoding" 日本語解説[ link] - 表のデータをどうやって計算機が使いやすい形にするか
- 最初は過学習を防ぐ
- Validationの時にどうしたらいいか
- 与えられたデータのうち、訓練用データの方をregularization:正則化
- K-fold、FOOを使う
- 例)各ユーザが複数のappを使っている場合:ユーザ毎にベクトルで表すと良い
- 例)時系列、各ユーザがいろんな買い物をする場合:1日毎に各ユーザの総額を求める
- 計算機にはベクトルの形が嬉しいのかもしれない
"Hyperparameter" - 調整するパラメータはたくさんあるが、その中で大事なものを絞る
- パラメータのoptimization:最適化には時間がかかる。寝ているうちに計算を回しておく
- RandomForest(ドキュメント見た方が早い。) 日本語解説[link]
- n(number)_estimators:推定量は高い方が良い。RandomForest特有。森の大きさ、木の数。それぞれの木が分類器になっている。
- ランダムフォレスト自体の説明になるが、それぞれの木(分類器)に分岐する。
- max_depth:10,20~。それぞれの木(分類器)の深さ。
- Neural
- dropconnect:dropout を一般化したもの。隠れ層の接続をランダムに減らす。 日本語解説[link]
|