相田 太一‎ > ‎Kaggle勉強会‎ > ‎

2019/03/02

How to Win a Data Science Competition
Week2のValidation、Data leakageを視聴

・Validation
データをtrain、testに分割する方法
  • Holdout
  • KFold
    • データの量が巨大、KFoldの結果がだいたい同じとき:Holdoutを使う
    • データの量が中くらい、KFoldの結果が違うとき:KFoldでチューニングする
  • LOO(Leave One Out)
validationの中の分割の種類
  • random
  • time
  • by id
  • combined
データを分析するときは、ドメインを意識してみると良い。
Underfitting ↔︎ Overfitting
ValidationとPublicで2つ結果を出すと比較ができる。
leader board をシャッフルする理由
  • testデータが小さすぎるとき
  • どのユーザのスコアも似ているとき

・Data leakage
Data leakage:ただの数字でなく、意味を持つ。例)学籍番号、タイタニックのチケット
→現実だと…「匿名化したのにバレていいの??」印象はあまり良くない。


Comments