かばやん's だいありー

かばやん's だいありー

学んだことをゆるゆるアウトプットしていきたいです。

yukiCup 2023 Autumn x atmaCup に参加しました

はじめに

2023/11/25(土)に行われた、yukiCup 2023 Autumn x atmaCupに参加しました。

yukicup.connpass.com

当日の様子は、Twitterハッシュタグ#yukiCupでもわかります。

本イベントは、2回目の開催で、オンサイト・オンラインのハイブリッド開催でした。 私はオンラインで参加していました。 期間は1日で、お題は「文化財のデータを利用して、ある建物や美術品が国宝に指定されているかどうかの予測」で、テーブルデータのコンペでした。

初めてのチームマージ

データ分析コンペに触れ出したのが2016年くらいなんですけど、8年目にして初めてのチームマージ!!!(がっつりやってた期間は無いです)

週末の予定を聞かれて、「yukiCupっていうデータ分析コンペに出るんだよね〜」と答え、そのままデータ分析コンペ未経験者の勧誘に成功しました。 りりうむさん(@ririumux)、チーム組んでくれてありがとう! 結構いろんなところでyukiCupの話はしていて、面白そうだねと言ってくれる人はいっぱいいても、実際に参加してくれる人は今までいなかったので、良かったなと思っています。

コード共有はGitHubのプライベートリポジトリでやっていました。 GitHubに数年触れていなかったので、完全に浦島太郎でした。元々CLIで使ってたのでgit cloneしようとしたら権限ないと言われ、解決めんどくさくてそのままWeb UI使おうとしたら本当に何も分かりませんでした。コンペ期間中にはディレクトリ構成無視してファイルをpushすることしかできなかった←

コミュニケーション方法は、Discordで通話繋ぎっぱなしで、ずっと画面共有してもらっていました。私も画面共有すれば良かったかなと思います。1時間ごとに交代にすれば良かったのかな……??

Solution

https://www.guruguru.science/competitions/23/discussions/28df5aaf-3f33-4057-bf06-2750779a5306/

反省

「データ分析コンペって効く特徴量を入れられるかが大事」って聞くのですが、ディスカッションに上がっているのと同じ特徴量使ってるはずなのにbaselineよりも低い……自分で書いてるnotebookにbaselineで使われている特徴量加えて見たけどbaselineよりも低い……みたいな体験が結構多く、モデルへの理解が乏しいのが原因かなと思っています。 何がどうなったら「データ分析コンペって、ハイパラ調整する遊びでしょ?」って感想になるのか今までわからなかったんですけど、この辺りの体験を積んで抜け出せないまま辞めてしまった人がそう思うのかなと思いました。

今回は、自分が実装していると信じていたものと実際の実装が違ったので、今までももしかしたら、自力レビューで気づけなかっただけで、そういうことが結構あったのかもしれません。コンペの時間が短いと、先に進まないとという気持ちが強くなりがちですが、見直す時間を取るのは大事だなと思いました。

今回は元々夜に予定が入っていて、途中までしか出られないけどいいか……と参加してしまったのですが、できればちゃんとフルで参加したいですね。

まとめ

コンペ期間内に、特徴量を加えてbaselineを超えたと感じられる世界線に早く行きたい

本コンペの、他の参加者のブログ記事

まだ見つけられていないので、随時更新します。