かばやん's だいありー

かばやん's だいありー

学んだことをゆるゆるアウトプットしていきたいです。

atmaCup #4に参加してきました

はじめに

2020年3月1日(日)〜3月8日(日)に開催されたatmaCup #4に参加してきました。 本イベントの前回の様子をTwitterで見ていて、面白そうだなと思ったのと、前回初心者向けセッションもあるとのコメントを見かけたので「私でも参加できそう!」と思ったので参加しました。

このブログ記事はほぼポエムですが、「初心者でも楽しく参加できるよ!」ということを伝えたいのと、自分の忘備録のために書きました。

どんなイベント?

atma.connpass.com

オンサイトのデータ分析のコンペです。 3/1はリモートで、3/8は現地で参加しました。間の期間は各自で分析を進める感じでした。

私とコンペ

きちんとコンペに取り組んだのは初めてでした! なんと2sub以上したコンペは4年ぶりです。実質初めてです。

www.kaggle.com

参加してよかったこと

初動が遅いことに関する課題を認知できた

  • 過去のコンペの経験上、いつも1 subするまで時間がかかりすぎて1 subで力つきる事が多かったので、とりあえずInputからOutputまでの流れを作りました。1 sub目は1カラムだけ使いましたが、流れを最初に作れたのは良かったと思います。
  • Memory Errorで時間を溶かしました。根本的な原因は、行のduplicationを除けていない部分があった事でした。やってる事がおかしかったのが原因ではありましたが、Memory Errorで消耗するのはもうやめにしたいので、この辺りの対策は仕組み化したいと感じました。
  • データのmergeで結構とまどったので、pipelineをすっと使えるようにしようと思いました。
  • featureの保存は途中からするようにしました。
  • あんまり時間無いしなーと思ってnotebookでrun allする形でやっていたのですが、しんどかったので次からはscriptでやりたいです。
  • 初動を速くしてもっと生産的なことに時間を使いたいです。 EDAの時間もほぼ取れなかったし、思いついた特徴量の生成も終わりませんでした。
  • 特徴量を最初に増やしすぎたので、少しずつやった方がよかったなと思いました。

初心者向けセッションが良かった

  • 2回目は中間くらいのちょうどいい時期にあったので、自分のやっている事が大幅にずれていない確認になって良かったです。
  • 知らなかった書き方も知れました。

期間が自分にとってちょうど良かった

  • 1週間なのでだれなかったのが良かったです。
  • 今までコンペ続かなかったのですが、どのあたりがネックだったのかがなんとなくわかり、良い機会になりました。きちんと対策して前に進めそうです。

おわりに

コンペに取り組んでいる時間自体も楽しかったですし、今後のモチベUPにもなりました! またパワーアップしながらコンペ参加していきたいなと思います。