相田 太一‎ > ‎Kaggle勉強会‎ > ‎

2019/04/17

タイタニック

欠損値の多い年齢を予測するモデルを作ろうとしていたが、本当にそれでいいのか悩み中。
年齢予測、生死予測で2回同じデータを用いることになる気がする。
→年齢予測、生死予測でモデルが違うから仕方がない?

年齢予測をするのであれば、1の位は切り捨てて10代未満、10代〜90代のように10歳ごとに割り当てる。
→他クラス分類?

年齢は生死に大きく影響するため、平均値で補完するのは危険だと判断し、年齢予測モデルを作成することに。
→XGBoostを使ってみる。:参考[link]
年齢予測に使うのは、以下の3つ。
  • SibSp:同乗した兄妹/配偶者の人数
  • Parch:同乗した両親/子供の人数
  • Pclass:チケットの等級

Comments