kaggle初心者ガイド

とりあえず、雑多に役立つ情報をどんどん追加してください!見づらくなってきたら適当に整理つけましょう。

ここを見てもわからなかったら、kaggler-slack の#beginners-helpまで!

こちらも見ると良いです。/よくある質問, /なんでもkaggle関連リンク

Kaggleとは

Kaggle とは、主に機械学習モデルを構築するコンペティションのプラットフォームです。企業や研究機関などが提供するデータについて、世界中から集まる参加者が機械学習モデルの性能を競います。

下記の資料では、Kaggleとは何かが簡潔にまとめられています。

Kaggle入門記事リンク

タイトル補足
Kaggleに登録したら次にやること ~ これだけやれば十分闘える!
Titanicの先へ行く入門 10 Kernel ~ 
Kaggle事始め 
nejumi/kaggle_memo 
いかにしてkaggleを解くか 
kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 
Top2%の私が教えるKaggleの極意 Bosch Production Line Performance 
実践多クラス分類 Kaggle Ottoから学んだこと 
How to Win a Data Science Competition: Learn from Top Kagglers coursera
Hands-On Data Science Education 公式入門記事
【Kaggle初心者入門編】タイタニック号で生き残るのは誰? 
機械学習の勉強歴が半年の初心者が、 Kaggle で銅メダルを取得した話 
機械学習初心者がKaggleの「入門」を高速で終えるための、おすすめ資料などまとめ(2020年8月版) 
Kaggleをはじめたので対策や攻略法についてのブックマーク まとめ

Kaggle関連書籍

タイトル補足
Kaggleで勝つデータ分析の技術 
Kaggleのチュートリアル第6版 
Kaggleで学んでハイスコアをたたき出す! Python機械学習&データ分析 
実践Data Scienceシリーズ PythonではじめるKaggleスタートブック 
Pythonで動かして学ぶ! Kaggleデータ分析入門 
Kaggleコンペティション チャレンジブック 
Approaching (Almost) Any Machine Learning Problem 英語
Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ 上記書籍の日本語版
The Kaggle Book: Data analysis and machine learning for competitive data science 英語
Kaggleで磨く 機械学習の実践力--実務xコンペが鍛えたプロの手順 
データサイエンスの森 Kaggleの歩き方 
kaggleで上位に入るための探索的データ解析入門 

Kaggle入門動画

  • GCPでの環境構築から実コンペでの提出まで網羅
  • Kaggleのチュートリアル第6版解説 完全版
  • 【2位入賞】ずんだもんとめたんで学ぶKaggle 入門 & 参戦記 Part 1【Petfinderコンペ】【修正版】

オレオレKaggle入門方法

  • tkm2261流
    • 興味のあるデータの過去コンペを漁る
    • そのコンペのkernelをupvote降順に並び替える
    • LB: 0.789など、提出スコアがついているものを選ぶ
    • Kernelの中身を読んで、実際にsubmit
    • You became a Kaggler

初心者お勧め過去コンペ

Otto Group Product Classification Challenge
https://www.kaggle.com/c/otto-group-product-classification-challenge 
定番。テーブルが1つしかなく、データ量が小さいので始めやすい。マルチクラス。列が匿名なのは微妙。
train: 144k, test: 62k

BNP Paribas Cardif Claims Management
https://www.kaggle.com/c/bnp-paribas-cardif-claims-management 
オーソドックスな二値分類タスク。カテゴリ変数のハンドリングが肝。
train: 114k, test: 114k

Mercedes-Benz Greener Manufacturing
https://www.kaggle.com/c/mercedes-benz-greener-manufacturing 
データが小さいので扱いやすいが、その分validationが難しい。一部を除きbinary特徴。
train: 4k, test: 4k

Recruit Restaurant Visitor Forecasting
https://www.kaggle.com/c/recruit-restaurant-visitor-forecasting 
時系列の要素が入ったテーブルデータコンペ。

Walmart Recruiting: Trip Type Classification
https://www.kaggle.com/c/walmart-recruiting-trip-type-classification 
テーブルが1つしかなく、データ量が小さい。30個以上の多クラス分類なので計算時間がちょっとかかるかも。

Home Credit Default Risk https://www.kaggle.com/c/home-credit-default-risk 
train: 308k, test: 49k。Kaggle史上最多参加数のコンペ。