kaggle初心者ガイド
とりあえず、雑多に役立つ情報をどんどん追加してください!見づらくなってきたら適当に整理つけましょう。
ここを見てもわからなかったら、kaggler-slack の#beginners-helpまで!
こちらも見ると良いです。/よくある質問, /なんでもkaggle関連リンク
Kaggleとは
Kaggle とは、主に機械学習モデルを構築するコンペティションのプラットフォームです。企業や研究機関などが提供するデータについて、世界中から集まる参加者が機械学習モデルの性能を競います。
下記の資料では、Kaggleとは何かが簡潔にまとめられています。
Kaggle入門記事リンク
Kaggle関連書籍
Kaggle入門動画
- GCPでの環境構築から実コンペでの提出まで網羅
- Kaggleのチュートリアル第6版解説 完全版
- 【2位入賞】ずんだもんとめたんで学ぶKaggle 入門 & 参戦記 Part 1【Petfinderコンペ】【修正版】
オレオレKaggle入門方法
- tkm2261流
- 興味のあるデータの過去コンペを漁る
- そのコンペのkernelをupvote降順に並び替える
- LB: 0.789など、提出スコアがついているものを選ぶ
- Kernelの中身を読んで、実際にsubmit
- You became a Kaggler
初心者お勧め過去コンペ
Otto Group Product Classification Challenge
https://www.kaggle.com/c/otto-group-product-classification-challenge
定番。テーブルが1つしかなく、データ量が小さいので始めやすい。マルチクラス。列が匿名なのは微妙。
train: 144k, test: 62k
BNP Paribas Cardif Claims Management
https://www.kaggle.com/c/bnp-paribas-cardif-claims-management
オーソドックスな二値分類タスク。カテゴリ変数のハンドリングが肝。
train: 114k, test: 114k
Mercedes-Benz Greener Manufacturing
https://www.kaggle.com/c/mercedes-benz-greener-manufacturing
データが小さいので扱いやすいが、その分validationが難しい。一部を除きbinary特徴。
train: 4k, test: 4k
Recruit Restaurant Visitor Forecasting
https://www.kaggle.com/c/recruit-restaurant-visitor-forecasting
時系列の要素が入ったテーブルデータコンペ。
Walmart Recruiting: Trip Type Classification
https://www.kaggle.com/c/walmart-recruiting-trip-type-classification
テーブルが1つしかなく、データ量が小さい。30個以上の多クラス分類なので計算時間がちょっとかかるかも。
Home Credit Default Risk
https://www.kaggle.com/c/home-credit-default-risk
train: 308k, test: 49k。Kaggle史上最多参加数のコンペ。