データサイエンス女子のゆるふわだいありー

データサイエンス女子のゆるふわだいありー

学んだことをゆるゆるアウトプットしていきたいです。

Machine Learning Casual Talks #12 (Online) に参加しました

はじめに

2020/05/28(木)に行われた、Machine Learning Casual Talks #12 (Online) に参加しました。

mlct.connpass.com

今回のテーマは機械学習プロジェクトに関する「ベストプラクティスとアンチパターン」でした。

YouTube に動画が上がっています。 www.youtube.com

当日の様子は、Twitterハッシュタグ#MLCT でもわかります。

本編

"Cost-efficient and scalable ML-experiments in AWS with spot-instances, Kubernetes and Horovod" の紹介と感想 服部圭悟さん (@keigohtr)

資料

私のメモ
各発表に対して「私のメモ」という項目で書きますが、概要ではありません。文字通りメモです。

blog.rosebud.ai

EBS

aws.amazon.com

  • 読み込みには消去法的にEBS使う
  • EBSジョブごと作成

EFS

aws.amazon.com

  • 自由度 diskfullでジョブが死ぬ、成果物を得られない 気をつけないとクラウド破産

文献(Rosebud AI)ではどうしたか?

  • Spot Instance(インスタンスが取り上げられることがある。2分前に通知がくるので、10分ごとにチェックポイントとして学習の途中経過をEFSに保存)

  • Kubernetes Job

kubernetes.io

ABEJA Platform: SpotInstancesを管理するSpotinstを使う tech-blog.abeja.asia

分散学習どうするか?(文献) Horovod github.com

まとめ

  • データセットはEBS、成果物はEFS
  • リストとコストの最適化はSpot Instancesを使うと良い
  • 機械学習ジョブの実行はKubernetes Jobを使うと良い
  • 分散学習はHorovodを使うと良い

おすすめ ethical.institute

所感 私自身はプラットフォーム全然詳しくないのですが、どういうものがあってどう使われてるか、メリットデメリットが伝わってきました!

データマネジメントなきMLは、破綻する。 〜こんなデータじゃ機械学習できねぇよ問題の処方箋〜 @yuzutas0 さん

資料

私のメモ

所感
ものすごく細かくわかりやすく経験に基づいて発表されてるなーと思いました。 全部頭に入らなかったので、『データマネジメントが30分でわかる本』、買います!

大嶋悠司さん (@overs_5121

資料

私のメモ

developers-jp.googleblog.com

Edge AI(モバイル)
モデルサイズ、消費電力の制限

なんのためにやるか?
制限は大きいが、低レイテンシ・ネットを必要としない推論によってUXを大きく改善

TemsorFlow Lite

www.tensorflow.org

tvm

docs.tvm.ai

PyTorch Mobile

pytorch.org

何を作ったか

本の撮影とか→バーコード出品をサジェスト mobile netなどのイメージクラシフィケーション

quantization aware training

  • UINT8への量子化による制度劣化を防ぐ

  • 学習コストは上がる

思ったよりタップされない問題
精度?latency?-> 違うのでUI?
表示時間4sec->8secにして、伸ばした方が良さそうだとわかった
文言:そもそもバーコード出品が何かわからないのでは?
デザイン:使用するが押せると思わないのでは?

× MLをモバイル上で使う営み
◯ UXを改善する営み(デザイン、モデルの精度、モデルのlatencyを総合的にモニタリング)

pair.withgoogle.com

所感
こういった取り組みのお話聴く機会なかったので、面白いなと思いました。 バーコード出品、いつもそのまましてしまうので、今度一回写真撮ってやってみます!

補足

Q&Aの時間もあったのですが、本記事では省略します。

本イベントの、他の参加者のブログ記事

t.co

BERT応用勉強会に参加しました

はじめに

2020/5/15(金)に行われた、「nlpaper.challenge BERT応用勉強会」に参加しました。 nlpaper-challenge.connpass.com

配信動画:

www.youtube.com

当日の様子は、Twitterハッシュタグ#xpaperchallenge でもわかります。

イベント概要

近年NLPの領域で発展を遂げているBERTモデル。 今回はそのBERTモデルの応用をテーマにした勉強会を開催します。 特定のドメインでの活用事例やフロントエンドでの利用例などをLT形式で発表します。(BERT応用勉強会 - connpass より引用)

Cluster*1 + YouTube Live という形でのオンライン開催でした。大人気でCluster枠には入れなかったので、私はYouTube Liveで視聴しました。 また、nlpaper.challengeのイベントに参加するのは今回が初めてでした。今までの勉強会、CVとの交流会が多かったイメージを持っていて、「CV何もわからないしな......難しそうだしな......最近NLP周りは論文読んでないしなあ......」との言い訳を続けた結果一度も参加してこなかったので、今回が初参加となりました。BERTは初心者で特に論文を追えている訳ではないのですが、どう応用されているかには興味があったので参加しました。

冒頭

nlpaper.challengeの紹介 yamamotoさん

  • cvpaper.challengeと同じようなことをやろうと思って立ち上げた
  • 昨年から活動開始
  • これまでの勉強会:NLP/CV交流勉強会、NLP/CV最先端勉強会、ACL網羅的サーベイ報告会など
  • 今年は勉強会だけでなく研究にも力を入れていく

本編

医療言語処理へのBERTの応用 --BioBERT, ClinicalBERT, そして-- Yuta Nakamuraさん

資料

私のメモ
各発表に対して「私のメモ」という項目で書きますが、概要ではありません。文字通りメモです。
医療言語処理はAfter BERT

  • 技術的な面ではAfter BERT
  • 医療NLP 要素技術の発展→医療分野でのデータセット→医療文書→現実の医療
  • より現場に近い研究への流入は始まったばかり
  • 今年に入ってBERT使った論文も少しずつ見られるようになってきた

医療ドメイン特化型BERT

  • BioBERT, ClinicalBERT, EhrBERT
  • 医療文書は表記揺れが激しい
  • 適用事例:固有値表現抽出+病名正規化、質問応答(Titleが疑問文ならabstractのconclusion推定)、要約+マルチモーダル、文書分類、固有表現抽出+関係抽出、包含関係意識

医療ドメイン特化型BERTのその先

  • BeHRt: BERTを言語でないものに使う、診断に使う
  • TAPER: 言語データ+非言語医療データ

日本語では?

  • 東京大学医療AI開発学講座が日本語診療記録で事前学習したBERTを公開している

ai-health.m.u-tokyo.ac.jp

所感
医療の領域でのBERTがどう使われてきているか知ることができて、とても興味深かったです!

Multilingual BERTの二言語領域適応に基づく対訳文同定 siidaさん

資料
現時点(2020年5月16日)では見つけられていません。 NLP2020で発表されたものと同じ内容だそうです。
[Multilingual BERTの二言語領域適応に基づく対訳文同定(https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D2-1.pdf)]

私のメモ

  • BERTを用いて、ニューラル機械翻訳に必要な質・量ともに優れた対訳文を獲得する
  • 対訳文収集、20年くらい動的計画法だったけど、LASERの登場によりニューラルネットを使う流れが出てきた
  • 日英対訳特許文書
  • fine-tuning
  • セグメント対は多対多もある
  • マスクされてるとこを当てるのが領域適応
  • fine-tuningによる対訳分類器作成
  • Quora Question Pairs(QQP)

所感
対訳文収集、確かに大事ですよね〜と思いながら聞いてました。タスクに対する問題設計、アプローチ、面白く大変興味深い発表でした!

BERTのMulti Modalタスクへの活用 ymym3412さん

資料

私のメモ

  • マルチモーダル
  • 今回はVision+Languageだけ
  • ViLBERT, LXMERT, VL-BERT, Unicode-VL, UNITER
  • 解きたいタスク: Visual Question, Answering(画像とそれに対する質問にYES or NOで答える), Visual Commonsense Reasoning(画像+アノテーション+状況の説明、テキストでの質問、複数選択肢から答えを選ぶ), Referring Expression Comprehension(テキスト情報→画像ではどこに該当するか), Cross-Modal Retrieval(テキスト→画像の検索、画像→テキストの検索)

所感
マルチモーダル領域で使われているモデルについて知ることができて良い機会でした。〇〇BERTっていっぱいあるなあ......と思っても全然追えてなかったので。><
個人的にVL-BERTのImageもTextもENcoder分離せずに同じTransformerで扱ってるというのが、衝撃でした。「一緒に入れられるんだ!?」という。

BERTをブラウザで動かすには ―MobileBERTとTensorFlow.js― Shion Hondaさん

資料

私のメモ

  • Mobile BERT Q&A
  • TensorFlow.js Q&A モデル

tfjs-models/qna at master · tensorflow/tfjs-models · GitHub

所感
蒸留の工夫、アーキテクチャの工夫など知れて良かったです!

テキスト生成の評価 × BERT cfikenさん

資料

私のメモ

BERTScore github.com pip install で入れられるらしい。

MoverScore

  • Word Mover's Distance をBERT出力に適用
  • BERTScoreは最も類似度の高い単語だけを参照する、MoverScoreはどのように分布を移動させれば採用で済むかを計算する

BLEURT

  • 疑似データペアを大量に作成して活用
  • BERTを更にpre-trainingおよびfinetuning行う

余談
指標は3つに分類できる
1. ルールベース(BLEU等)
2. 汎用的なモデルの出力を比較(w2v, BERTScore 等)
3. 人手評価をモデリング(RUSE, BLEURT 等)

所感
テキスト生成、昔やっていたのですが、私自身はBLEUしか使ったことがなかったので、勉強になりました!
個人的には仕込んであるネタが全部面白くてツボでした。普通に笑ってたんですが、オンラインだと発表者には伝わらないことを失念していたので、YouTube Liveのコメントとかでちゃんと反応すれば良かったかもと今思っています。

おわりに

どの発表もめちゃくちゃ面白かったです!運営・発表者のみなさま、ありがとうございました。

おまけ

Cluster面白そうだなと思って、アカウント登録してチュートリアルやってみました。いつか他の勉強会で使う機会あるかもと思って、アバターを作成中です。ただ、運営する方はすごい大変そうだな〜と思って眺めていました。

本イベントの、他の参加者のブログ記事

upura.hatenablog.com

yhiss.hatenablog.com

atmaCup #4に参加してきました

はじめに

2020年3月1日(日)〜3月8日(日)に開催されたatmaCup #4に参加してきました。 本イベントの前回の様子をTwitterで見ていて、面白そうだなと思ったのと、前回初心者向けセッションもあるとのコメントを見かけたので「私でも参加できそう!」と思ったので参加しました。

このブログ記事はほぼポエムですが、「初心者でも楽しく参加できるよ!」ということを伝えたいのと、自分の忘備録のために書きました。

どんなイベント?

atma.connpass.com

オンサイトのデータ分析のコンペです。 3/1はリモートで、3/8は現地で参加しました。間の期間は各自で分析を進める感じでした。

私とコンペ

きちんとコンペに取り組んだのは初めてでした! なんと2sub以上したコンペは4年ぶりです。実質初めてです。

www.kaggle.com

参加してよかったこと

初動が遅いことに関する課題を認知できた

  • 過去のコンペの経験上、いつも1 subするまで時間がかかりすぎて1 subで力つきる事が多かったので、とりあえずInputからOutputまでの流れを作りました。1 sub目は1カラムだけ使いましたが、流れを最初に作れたのは良かったと思います。
  • Memory Errorで時間を溶かしました。根本的な原因は、行のduplicationを除けていない部分があった事でした。やってる事がおかしかったのが原因ではありましたが、Memory Errorで消耗するのはもうやめにしたいので、この辺りの対策は仕組み化したいと感じました。
  • データのmergeで結構とまどったので、pipelineをすっと使えるようにしようと思いました。
  • featureの保存は途中からするようにしました。
  • あんまり時間無いしなーと思ってnotebookでrun allする形でやっていたのですが、しんどかったので次からはscriptでやりたいです。
  • 初動を速くしてもっと生産的なことに時間を使いたいです。 EDAの時間もほぼ取れなかったし、思いついた特徴量の生成も終わりませんでした。
  • 特徴量を最初に増やしすぎたので、少しずつやった方がよかったなと思いました。

初心者向けセッションが良かった

  • 2回目は中間くらいのちょうどいい時期にあったので、自分のやっている事が大幅にずれていない確認になって良かったです。
  • 知らなかった書き方も知れました。

期間が自分にとってちょうど良かった

  • 1週間なのでだれなかったのが良かったです。
  • 今までコンペ続かなかったのですが、どのあたりがネックだったのかがなんとなくわかり、良い機会になりました。きちんと対策して前に進めそうです。

おわりに

コンペに取り組んでいる時間自体も楽しかったですし、今後のモチベUPにもなりました! またパワーアップしながらコンペ参加していきたいなと思います。

2019年にしたインプット・アウトプット、新しかったこと

はじめに

2019年の振り返りです。2018年と同じ形式で振り返ります。 kabayan55.hatenablog.com

2019年の年始には目標を立て、12月にそれに沿って振り返りをするという記事を書いたのですが、いま読み直したら、3行くらいで終わりそうだなと思いました。 振り返りの形式は2018年と合わせつつ、年始目標の項目も入れる形で振り返ろうと思います。

kabayan55.hatenablog.com

インプット

読書

2019年に読んだ本は110冊でした!(マンガは除く)
今年のおすすめは以下の記事で紹介しています。

kabayan55.hatenablog.com

勉強会・技術系イベント参加

Geek Women Japan New Year Party 2019

togetter.com

昨年参加して楽しかったので、参加しました。本当にみんなやってることがそれぞれ違って面白い!

Women in Machine Learning

kabayan55.hatenablog.com このイベント、英語でのイベントだったので、感想をあとで英語でも書こうと思っていたのに結局日本語でしか書かなかったやつです。

Machine Learning Casual Talks #8

mlct.connpass.com

kabayan55.hatenablog.com

イベント自体の感想は記事をご覧ください。 初めてブログ枠で参加したイベントです。まだブログに不慣れだったのもあって、書くのに3晩くらいかかりました。残りのお二方が当日夜には記事を書いて出していたので、わりと絶望しながら書いていましたが、一回ここでちゃんと書いたおかげでその後もイベント参加記事を書けるようになったと思っており、良い機会だったと思っています。 参加記事では触れていませんが、めちゃくちゃ懇親会が楽しかったです。

【交流会/女性限定】エンジニア "女子会" ミートアップ【meetup】

supporterzcolab.com

結構みんなしんどい思いをしているんだなーというのを感じました。吐き出せない悩みを吐き出せるこういう場があるのは良いことだと思います。私自身はかなり恵まれた環境にいるんだなというのも同時に感じました。

真冬こそ激アツの自由研究LT大会 engineers.connpass.com

エンジニアの登壇を応援する会」が主催のLT大会です。2018年にエンジニアの登壇を応援する会の忘年会に行き、LTしてみたいな、自由研究LT楽しそうだな、と思って参加しました。この会で、Twitterで絡むようになった人も結構いるので、LTして良かったなと思っています......!!

白金鉱業 Meetup Vol.6

brainpad-meetup.connpass.com

初めての白金台で、テンション上がってこの勉強会の前に、夜桜を見に行きました。

初めてLOVOTのお話を聞けて、LOVOTを見かけるたびに気になるようになりました。 lovot.life

この日の参加記事、途中まで書いていたのですが、出さずじまいで消してしまいました。メモはちゃんと取っていたので気合いが足りなかっただけです。 この会のu++さんの発表がエモすぎ&刺さりすぎて、過去を思い出したり人生について考えたりし始めたらブログを書き切る気力が無くなってしまいました(盛大な言い訳)。

新オフィスお披露目パーティー supporterzcolab.com

サポーターズの新オフィスです。渋谷ソラスタ、かっこいいですが、未だにちょっと迷います。この日は、ひたすら女子会をしていました。この時期は仕事が忙しくて、平日は家と会社の往復で土日は何もする気力がなかったので、良い息抜きになりました。

Webhack#24 x Mercari: Real World AI

webhack.connpass.com

Webhackは結構毎回テーマが違うので、自分と関係ありそうなテーマの時のみ参加しています。 Emotion Analysisの話が面白かったです!

tech.mercari.com

白金鉱業 Meetup Vol.10(一周年記念回)

brainpad-meetup.connpass.com

白金鉱業 Meetupに参加するのは2回目でした。
最高でした。最高すぎてまた記事が書けませんでした。ごめんなさい。

Bonfire Data Analyst #2 yj-meetup.connpass.com

Not for meでした。 今度はBonfire Data Scientistの方に参加したいです!

【東京】LTea Party ~女性登壇LT大会~ atlabo.connpass.com

登壇者が豪華すぎる会でした。

お菓子とかオシャレな紅茶とかもありました。 普段は業務に関係ある勉強会ばかり行っていますが、こういう会もたまにはいいなと思いました。

Machine Learning Production Pitch #4 x ML@Loft #6

machine-learning-pitch.connpass.com

kabayan55.hatenablog.com

ずっと気になっていたMLPP、興味のあるテーマだったので参加してきました。久しぶりにNLPしたいな〜と思いました!!!
半年ぶりにイベント参加記事を書きました。登壇者の方のうちのお一人と懇親会で話したのですが、感想伝えそびれちゃったな〜と思って書きました。今年参加した勉強会の中でも、結構面白い会だったと思うので読んでほしいです←

落合陽一が今、20代エンジニアに伝えたいこと

supporterzcolab.com

kabayan55.hatenablog.com

圧倒されてたら終わりました。やっとブログ早出しができるようになりました。

【Merpay x M3 x PFN 共催】 Machine Learning Night

machine-learning-pitch.connpass.com

kabayan55.hatenablog.com

↑ 詳細は上の記事に書いています。

アウトプット

サポーターズCoLab講師

kabayan55.hatenablog.com

↑ 上の記事とセットでやっと完成かなという感じです。2月の登壇だったのですが、色々考えているうちに参加についての記事を書くのが12月になってしまいました。自然言語処理アドベントカレンダーの記事にしたのでViewは結構あったのですが、肯定する意見も批判も全く見ていないので、難しいトピックなのかもしれないなと感じました。

LT

【交流会】17卒エンジニア限定 "新年会" ミートアップ【meetup】 supporterzcolab.com

「もっとアウトプットしていこう!」というLTをしました。日本での勉強会は、日本語で開催されるものが多いので(Machine Learning TokyoやWebHackは英語ですが)、日本人(日本語話者)である私がアウトプットしていくぞ!という話をしました。結構おもしろかったとの反応をいただきました。会社の同期の前でリハーサルをし、面白く無いと言われてだいぶ話す内容変えて発表したので良かったなと思っています。この時期の私は「日本語を話せる」という強みを活かしていきたいという思いが強く、この話をしました。というか、あまりにも自分に自信を持てなかった時期で、自分の得意なことは「日本語を話せること」くらいしか無いと感じていました←

真冬こそ激アツの自由研究LT大会 engineers.connpass.com

kabayan55.hatenablog.com

エスカレーターの話をしました。かき氷の話と迷ったのですが、開催時期が冬だったので、季節の関係ないエスカレーターを選びました。

この資料の中で、香港の世界一長いエスカレーターに行きますと書いていますが、実際に行ってきました。まさかエスカレーターを眺めながらランチをすることになるであろうとは予想していませんでした。笑
ちなみに、香港に行ったのはエスカレーターのためではなく、香港の大学院に通っている会社の元同期に会いに、同期何人かで旅行で行きました。

サポーターズCoLab女子会

kabayan55.hatenablog.com

LTした内容を、記事に書きました。前日夜に発表資料を作り始め、説明が足りなかったところもあったので補足的な意味で書いています。 女子会で「視覚優位か聴覚優位か」みたいな話題で盛り上がったのもあって(?)、記事内で、突然英語ツールに関係ないPodCast(日本語)の紹介をしています←

社内同期有志勉強会

Learn You a Haskell for Great Good!

learnyouahaskell.com

kabayan55.hatenablog.com

計算理論

books.rakuten.co.jp

books.rakuten.co.jp

仕事忙しくなって全く参加できませんでした。私は業務に直結する勉強以外の勉強の優先度が、わりと低い方なのかもと感じた一年でした。

社内部署有志勉強会

ディープラーニングの基礎から勉強したいよねという話になっていたので、RNNとLSTMの話をしたら完全に釈迦に説法でした。 あとは、Scikit-learnのPipelineを使う話をしました。この辺はブログに書こうかなと思いつつ書きそびれたまま年末になりました。

ブログ

この記事を含めて17記事です。そのうち8記事を12月に書いています。これは、会社同期アドベントカレンダーを埋めようと思って増えました。 4月以降ブログに対するやる気が無くなっていて、もしかしたらもう更新することはないかもと思うこともありましたが、9月のMLPPでやる気が復活したので感謝しかありません。

読書メーター

レビュー記事36/110冊 1月あたりは結構書いてましたが、次第に書かなくなりました。

bookmeter.com

2019年新しかったこと

分析

何を言っているかわからないかもしれないですが、データサイエンティスト3年目にして初めて業務で分析をしました。 kaggleも1サブで力尽きてしまっていたくらいなので、データ分析ってiterationを回すものなのだなという実感を強く持った一年でした。個人的には0からのスタートという気分でした。

ACM RecSys Challenge 2019

www.recsyschallenge.com

やる気満々で睡眠時間を削ってまでやっていたはずなのに、仕事の忙しさの波にのまれて結局断念しました。ちゃんと最後までやりたかったな......。

Will・Can・Must

ビジネスフレームワークです。キャリアについて考える際に、これに当てはめてみるといいよと紹介していただきました。

アクティビティ図

初めてアクティビティ図を書きました。 PlantUMLを使えるようになりました!

plantuml.com

デザインパターン

そもそも「デザインパターン」って何?というところからのスタートでした。 データサイエンティストがデザインパターンまで気にする必要があるかについては、色々な意見があるかもしれませんが、エンジニアリングに携わるものとしては、わかってた方がいいなと感じました。

デリゲーションポーカー

マネージャーとメンバーで、どのレベルで権限があると思っているか確認する時に使えます。 説明は以下の記事がわかりやすいと思います。

developers.cyberagent.co.jp

アイコン

アイコンを似顔絵にしました。ココナラで写真を送って描いてもらいました。 ずっと似顔絵のアイコンに憧れていたのですが、やっと決意できて変えました。 元々、Twitterだけ違う名前でやっていたのも同時に統一しました。 我が家はSNSが未だに禁止で、過去にSNSやブログが親バレして大げんかになって消したことが何度かあります。 もうどうとでもなれ、と思うようになったので、思い切ってアイコンを変えました。似顔絵アイコンにしていなかったのは、少しでも親バレの危険を避けたかったからです。 まだ変えて数ヶ月で効果はそこまで感じていませんが、似顔絵アイコンは最高です!アイコンと本人が結びつかない問題が解消されてくれればなと思っています。

note

気が向いたので、始めました。

note.com

note.com

ヨギボーは、いいぞ。(一部ネタバレ)

おまけ

今年は映画館に3度足を運びました! 鑑賞した作品は、『ラブライブ! サンシャイン!!The School Idol Movie Over the Rainbow』『天気の子』『翔んで埼玉』です。今年の後半は、なかなかまとまった時間を取れなくて行けませんでした。 来年気になっている映画は『AI崩壊』です。

どうしても、映画館はデートで行くところだというイメージが自分の中であって、ソロ映画は少し慣れてきましたが、まだそんなには行かず。一人で観るなら飛行機かアマプラで観ればいいやと待ってしまいがちです。『翔んで埼玉』は会社の同期たちと観に行きました。

ココイチにもちゃんと行きました!注文難しそうでドキドキしながら行ったのですが、杞憂でした。笑

他にも、一風堂てんやに初めて行きました!

来年行ってみたいと思っている行ったことないチェーン店は、一蘭リンガーハット串カツ田中 あたりです。 そもそも外食をすることがあまりないので、来年こそは積極的にいろんな人を誘ってご飯行くようにしようかなと思います!

【2019年】おすすめ書籍10選【振り返り】

はじめに

今年読んだ本の中で、特に良かった10冊を、ジャンル問わず紹介したいと思います。 昨年やって良かったなと思ったので、今年もやります! 私が今年読んだ本なので、出版年は関係ありません。

2019年、現時点で読んだ本は合計109冊でした!(マンガは含みません。) 今読んでいるものも含めて、あと5冊くらいは読みそうです。昨年は83冊でした。

2018年の記事はこちら↓ kabayan55.hatenablog.com

技術関連書籍

機械学習のための特徴量エンジニアリング

books.rakuten.co.jp

1回目に読んだのは今年前半ですが、今でも辞書的な感じで業務中に読んでます。特徴量エンジニアリングについて一通りまとまってるのでお勧めです。

仕事ではじめる機械学習

books.rakuten.co.jp

2019年の初めに、「機械学習プロジェクトは新卒入社時からずっとやってきたはずなのによくわからない!」と感じていて、家に本書を積んでいたことを思い出して読みました。積んでいたことを後悔した本、堂々の第1位です。第I部の一般的な話が書いてある部分も好きですが、「第II部 7章 映画の推薦システムをつくる」も、推薦システムについて考える際に重宝しました。

Kaggleで勝つデータ分析の技術

books.rakuten.co.jp

最近よく読んでいるのは、「第3章 特徴量の生成」です。早く本書の内容全部マスターしたい......!!

ビジネス書

どこでも誰とでも働ける――12の会社で学んだ“これから"の仕事と転職のルール(尾原和啓)

詳しい感想は下の記事に書いてます。 ↓ kabayan55.hatenablog.com

2019年に読んだ中で一番良かったです!全章について感想書きたくなりましたが、完全にネタバレになってしまうので、がんばって一部ピックアップして書いたのが上の記事です。

機械学習エンジニアになりたい人のための本 AIを天職にする (AI&TECHNOLOGY)

books.rakuten.co.jp

機械学習エンジニア界隈からすると、ああそうだよねということがいっぱい書いてありますが、私たちの感覚に近いことが言語化されて書いてあるのは素晴らしいと思います。 私たちがなんとなく持ってる感覚を、本書を読むことによって、すぐキャッチアップできるようになるかと思うとすごいです。 自分の言葉で、「機械学習エンジニアになりたいけど、どうしたらいい?」という質問に答えるのは難しいので、本書を推薦するだけの人になりました。(丸投げ)

最高の結果を出すKPIマネジメント

books.rakuten.co.jp

私が社会人になって初めて覚えた単語がKPIでした。しかし、一度でも理解のためにきちんと勉強したかと言われればNOで、2019年になって本書を手に取りました。新卒や、実はKPIよくわかっていないかも、という人におすすめです。社会人1年めで読むべきだったと思う本です。

FACTFULNESS

books.rakuten.co.jp

データサイエンティストなんだし、ある程度世の中のことを正しく見れていると思っていましたが、完全に自信を無くしました。かなり流行っていた本なので、読んんだ人も多いかとは思うが、まだの方にはぜひ一度手に取ってほしいです。

クイズもあるので是非やってみてください!

交渉の武器

books.rakuten.co.jp

交渉のことがまるでわからなかったので手に取った本です。

【基本】

  • 交渉とは、自分の目的を達成するための手段

  • 合意のために不本意な譲歩をしない

  • 交渉決裂は「交渉の終わり」ではない

【コツ】

  • 交渉決裂ラインを決める、死守する

  • 嘘はリスク大NG

【実践できそうなもの】

  • 弱者の交渉戦略 上司の許可を取った上で)上司のせいにする 事前調査をしっかり行い相手の弱みを利用する

  • 謝罪はタイミングと範囲が大事。こちらに過失がある場合はすぐ謝る方がいいが、範囲は気をつける。

小説

かがみの孤城

books.rakuten.co.jp

昨年からずっとオススメされていましたが、2019年になってから読みました。2018年の本屋大賞です。 文句無しにオススメです。

同人誌

現場の「ズレ」を解消するコミュニケーションメソッド

この1年を通して一番お世話になった本です!詳しい感想は以下の記事で書いています。 ↓ kabayan55.hatenablog.com

おまけ

2018年に、記事を書いたあとに出会った本を1冊だけ紹介します!

かなり面白かったので一気に読めました。

  • アウトプットは、ただ感情を垂れ流すのは良くなくて、わかりやすく説明するのが重要
  • アウトプットを通して作られる信頼関係が大事

アウトプットをしたい人、アウトプットを始めたけどどうしたら続けられるかわからない人にオススメの1冊です。

books.rakuten.co.jp

おわりに

今年もたくさんの素晴らしい本と出会えました!来年も読書を楽しもうと思います。 他の書籍の感想はぜひ読書メーターを見てください。フォローもお気軽にどうぞ!

bookmeter.com

#LAPRAS伸びしろ選手権 をきっかけに、teratailを始めてみました

はじめに

私はプログラミングのQ&Aサイトは基本的にStackOverflow*1しか見ていなかったのですが、 LAPRAS*2 に登録したことをきっかけに、teratail*3に興味を持ち、登録してみました。

LAPRAS とは

GitHub, Twitter, Facebook, Qiita, Connpass, SpeakerDeck, teratailなどの外部サービスの情報を連携することができ、そこから「技術力」、「ビジネス力」、「影響力」を自動的にスコア化してくれるサービスです。 例として、私のページを載せます。

lapras.com

#LAPRAS伸びしろ選手権 とは

LAPRASでの11月17日時点の技術力スコアと12月15日時点の技術力スコアの伸びを競うプレゼントキャンペーンです。

twitter.com

teratail とは

プログラミングに関する日本語のQ&Aサイトです。 3分でわかるteratail|teratail(テラテイル) を読むのが一番わかりやすいと思います。

teratail に対する印象

私は回答しかしていないので、回答者としての所感を書きます。

質問に関するガイドラインがきちんとしている

全エンジニアに読んでほしいです。私自身も参考にして良い質問を心がけたいと思います!

びっくりするくらい質問が来る

タグを登録することができ、「無し」「緩い」「厳密」でタイムラインの質問をしぼることができます。 私は答えられそうな質問しか見ないようにしているので、「厳密」に設定しています。 それでも1日に何問も質問が投稿されています!

すぐ回答がつく

スピード感がすごいです。早く解決できることはいいことですよね! 回答は1つついた時点で解決済みになるケースが多いなと思いました。 いろんな人の回答がつくようになった方が面白そうだなとは思うのですが、私は未回答の質問ばかり選んで回答するようにしていたので、他の回答者もそうなのかもしれないと感じました。

日本語でコミュニケーションができる

特に英語に対して苦手意識を持った人にとっては良いのではないでしょうか。日本語で質問できるサイトがあるというのは、「プログラミングがわからないのか、英語がわからないのかわからない」という状態を防げていいと思います。

ちょっとこわい?

正直な第一印象は「治安悪い......」でした。 質問や回答に関しては高評価・低評価をつける項目があるのですが、評価のつかない「質問への追記・修正、ベストアンサー選択の依頼」という項目があって、特に質問修正依頼がタメ語のものや高圧的な態度のものを見てしまい、怖いという印象を受けました。言葉遣いが汚い人も見受けられます。ただ、これはごく一部のユーザーです。単純に私自身が普段良質な質問の場しか見る機会がなく、ちょっと面食らってしまっただけかもしれません。個人的には「質問する人はみんな偉い!」と思っているので、質問をすることに対して臆病になってしまう人が出ないことを願うばかりです。回答者一人一人がきちんと意識して、良くしていくのが一番良いのかなと思います。

話が逸れますが、個人的に質問しやすいと思っている良質なSlackコミュニティが2つあるので紹介します。

r-wakalangR言語のSlackコミュニティ、kaggler-ja*4は日本kaggler(kaggle*5をやっている人)のSlackコミュニティです。 どちらも短時間で有識者から質問に対する回答を得られます。説明も丁寧でわかりやすいものばかりですし、複数人の意見が集まることも少なくないです。 質問の仕方が最初はうまくいかないこともありますが、そういった場合は「〜のような書き方をすると回答を得られやすくなると思います!」といった優しいコメントが来るので極めて治安は良いです。 私はROM専でたまにリアクションするくらいですが、それでも得られるものは大きいと思っています。

teratail を始めて良かったこと

私にも回答できる質問があるんだ!と少し自信になりました。 また、私は普段あまり人に教える機会がないので、どう説明すれば伝わるかを意識するきっかけになりました。 ただ、質問 → 回答 → ベストアンサー のスピードがはやいので、「〇〇の単語で検索してみると実現したいことに近づけるかも」といった今後自力で解決に近づけるようなアドバイスのみの回答はteratailではしにくい印象です。「これ使えばいいよ!」みたいなものになりがちです。実現する方法はもちろんですが、理由についてはきちんと明記するように心がけてました。

結構楽しい!

週間27位になる程度にはハマりました。ほぼ土日。

f:id:kabayan55:20191229222637p:plain:w150

これからもteratailを続けるか

人の役に立つことは好きなので、暇を見つけて回答していければなと思います。ずっとフルコミットは多分キツいので、簡単に回答できそうなものは回答するようにしようかなと思っています。

LAPRASの技術スコアにはどう反映されたか

teratailを始める前、LAPRAS伸びしろ選手権開始日の11/17の時点の技術スコアは3.42でした。現在3.60なので、約0.18全体の技術スコアに反映されていると思います。この期間connpassのイベントに1つ参加したのと、GitHubレポジトリにStarをいくつかした記憶があるので、もちろんそれも含まれているとは思います。

f:id:kabayan55:20191215142118p:plain

おわりに

LAPRASをきっかけにteratailを知ることができたので、良かったと思います。
teratail、もし良かったらフォローしてください!
kabayan55のQAプラットフォーム|teratail(テラテイル)
この記事ではあまり紹介できませんでしたが、LAPRASはスコアを出すだけでも楽しいので是非やってみてください!私のように、新しいサービスとの出会いもあるかもしれません。

おまけ

追記(2019/12/17)
LAPRASを活用した、私と似たような取り組みの記事です。 現在人事部門でこの技術スコアの高さは目を見張るものがあります。
LAPRAS/teratail でレベルアップ!採用担当は候補者に負けないスキルを維持せよ - Qiita

「Python3 エンジニア認定基礎試験」 に合格しました

Python3 エンジニア認定基礎試験とは

一般社団法人Pythonエンジニア育成推進協会が行っている試験です。

www.pythonic-exam.com

受けようと思った理由

受けている人を見て、私も受けてみようかなという軽いノリでした。 もう少しちゃんとした理由を書くと、Python3をちゃんと書きはじめて半年くらいだったので、腕試しをしようと思いました。Python2系は5年以上書いていたと思います。 Python(2系も含む) の勉強をきちんと一通り勉強したことはなく、学生時代に研究や、NLPプログラミングチュートリアル*1 の演習をしながら、わからない箇所を調べながら実装していくスタイルだったので、一度基礎的な部分が抜けていないか確認しようと思い、受験しました。 ちなみに、私の場合は、Pythonを書き始めるよりも前に、C言語JavaOCaml*2の勉強を終えています。

どんな勉強をしたか

以下のサイトで模擬試験を3回解きました。

exam.diveintocode.jp

模擬試験1回目は合格点に届きませんでした。 普段実装する上で覚えていなくても調べればなんとかなってしまうこともあるし、結構覚えてないことも多いなという印象でした。ただ、覚えておくべきかどうかはまた別の話だとは思います。 この検定を受けるまで知らなかったけど便利だなと思ったのは、ビルドイン関数dir()*3です。 ひっかけっぽい問題もあります。雰囲気で解かず、きちんと変数を追いかけていれば解けると思います。私は見事にほぼ全部ひっかかりました。

どんな人にオススメか

プログラミングをはじめたばかりの人向けですかね......?? ただ、模擬試験を解けば実力の把握はできると思うので、腕試しをしたいだけなら受けなくてもいいかなという印象です。 資格ドリブンで勉強するタイプの人にはいいかもしれません。受験してから書くのもなんですが、Not for meだった気がします。

申し込み方法

全国のオデッセイコミュニケーションズCBTテストセンターで受験が可能で、Odyssey CBTのサイトから申し込みができます。 試験会場を検索して、会場に直接申し込みます。

cbt.odyssey-com.co.jp

会場によっては受験可能日のカレンダーがあったり無かったりしたので、受験可能日が載っている会場を選択しました。
受験可能日を聞くところから始めるのはめんどくさいと感じました。
どう申し込むのかは結構とまどったのですが、私が申し込みをした施設では、 「問い合わせをする」のフォームから「受験について」の項目を選んだ上で、受験希望日と受験したい資格試験の名前を添えて受験したい旨をお伝えしました。 お問い合わせの回答は、メールにていただきました。 ちなみに、Odysseyのページでは、受験可能日はたくさんあったのに、12月中の土日の開催日は1日しかないと言われました。笑
受験者が少なければ開催日を減らした方が合理的なのは百も承知ですが、お問い合わせをする前にわかった方が嬉しいなと思いました。 まあお問い合わせをすれば解決する問題なので、私が単純に面倒くさがり屋なのがいけないのかもしれません。でも世の中には私のような面倒くさがり屋さんは結構たくさんいるんじゃないかと思っています。

当日困ったこと

試験官の方が用意してくださったページがOdysseyのページで無かったハプニングが。 別の試験用のアプリ(?)だったことに気づかず、OdysseyのID登録していったのになぜかログインできないな〜とか思いながら、登録を0からやって、受験する試験を選ぶ画面で違うことに気づきました。 Odysseyの画面からIDとパスワードを入力して試験が始まります。Odysseyという文字が見当たらなければ、試験官に言いましょう。

おわりに

私は実務でPythonを使っており、絶対合格したいと思っていたので、無事に合格できて良かったと思います。