Machine Learning Casual Talks #12 (Online) に参加しました
はじめに
2020/05/28(木)に行われた、Machine Learning Casual Talks #12 (Online) に参加しました。
今回のテーマは機械学習プロジェクトに関する「ベストプラクティスとアンチパターン」でした。
YouTube に動画が上がっています。 www.youtube.com
当日の様子は、Twitterのハッシュタグ、#MLCT でもわかります。
本編
"Cost-efficient and scalable ML-experiments in AWS with spot-instances, Kubernetes and Horovod" の紹介と感想 服部圭悟さん (@keigohtr)
資料
私のメモ
各発表に対して「私のメモ」という項目で書きますが、概要ではありません。文字通りメモです。
EBS
- 読み込みには消去法的にEBS使う
- EBSジョブごと作成
EFS
- 自由度 diskfullでジョブが死ぬ、成果物を得られない 気をつけないとクラウド破産
文献(Rosebud AI)ではどうしたか?
Spot Instance(インスタンスが取り上げられることがある。2分前に通知がくるので、10分ごとにチェックポイントとして学習の途中経過をEFSに保存)
Kubernetes Job
ABEJA Platform: SpotInstancesを管理するSpotinstを使う tech-blog.abeja.asia
分散学習どうするか?(文献) Horovod github.com
まとめ
- データセットはEBS、成果物はEFS
- リストとコストの最適化はSpot Instancesを使うと良い
- 機械学習ジョブの実行はKubernetes Jobを使うと良い
- 分散学習はHorovodを使うと良い
おすすめ ethical.institute
所感 私自身はプラットフォーム全然詳しくないのですが、どういうものがあってどう使われてるか、メリットデメリットが伝わってきました!
データマネジメントなきMLは、破綻する。 〜こんなデータじゃ機械学習できねぇよ問題の処方箋〜 @yuzutas0 さん
資料
私のメモ
- DataとOpsが繋がっていないところに問題あり
データに紐づく情報も管理
yuzutas0 さんが執筆されている書籍
データマネジメントが30分でわかる本
所感
ものすごく細かくわかりやすく経験に基づいて発表されてるなーと思いました。
全部頭に入らなかったので、『データマネジメントが30分でわかる本』、買います!
大嶋悠司さん (@overs_5121)
資料
私のメモ
Edge AI(モバイル)
モデルサイズ、消費電力の制限
なんのためにやるか?
制限は大きいが、低レイテンシ・ネットを必要としない推論によってUXを大きく改善
TemsorFlow Lite
tvm
PyTorch Mobile
何を作ったか
本の撮影とか→バーコード出品をサジェスト mobile netなどのイメージクラシフィケーション
quantization aware training
UINT8への量子化による制度劣化を防ぐ
学習コストは上がる
思ったよりタップされない問題
精度?latency?-> 違うのでUI?
表示時間4sec->8secにして、伸ばした方が良さそうだとわかった
文言:そもそもバーコード出品が何かわからないのでは?
デザイン:使用するが押せると思わないのでは?
× MLをモバイル上で使う営み
◯ UXを改善する営み(デザイン、モデルの精度、モデルのlatencyを総合的にモニタリング)
所感
こういった取り組みのお話聴く機会なかったので、面白いなと思いました。
バーコード出品、いつもそのまましてしまうので、今度一回写真撮ってやってみます!
補足
Q&Aの時間もあったのですが、本記事では省略します。