相田 太一‎ > ‎Kaggle勉強会‎ > ‎

2019/02/17

How to Win a Data Science Competition
Week2のEDA、EDA examplesを視聴

機械学習しなくてもEDAで80%くらいのスコアが出る
生成過程を把握して確認することが大事
ヒストグラム:分布
プロット:データ間の相関、傾向
Scatter plot:相関
EDAだから全部使ってデータをくまなく見るのが大事

多い数で割るのは普通?

先頭からラベルエンコーディングしている
F4の先頭がA、F5の先頭がCだから、
F4はABCの順で123、F5はCBAの順で123

“EDA is art”
視覚化ツール
  • seaborn
  • ggplot
  • plotly
  • NetworkX
Comments