データサイエンス女子のゆるふわだいありー

データサイエンス女子のゆるふわだいありー

学んだことをゆるゆるアウトプットしていきたいです。

2019年にしたインプット・アウトプット、新しかったこと

はじめに

2019年の振り返りです。2018年と同じ形式で振り返ります。 kabayan55.hatenablog.com

2019年の年始には目標を立て、12月にそれに沿って振り返りをするという記事を書いたのですが、いま読み直したら、3行くらいで終わりそうだなと思いました。 振り返りの形式は2018年と合わせつつ、年始目標の項目も入れる形で振り返ろうと思います。

kabayan55.hatenablog.com

インプット

読書

2019年に読んだ本は110冊でした!(マンガは除く)
今年のおすすめは以下の記事で紹介しています。

kabayan55.hatenablog.com

勉強会・技術系イベント参加

Geek Women Japan New Year Party 2019

togetter.com

昨年参加して楽しかったので、参加しました。本当にみんなやってることがそれぞれ違って面白い!

Women in Machine Learning

kabayan55.hatenablog.com このイベント、英語でのイベントだったので、感想をあとで英語でも書こうと思っていたのに結局日本語でしか書かなかったやつです。

Machine Learning Casual Talks #8

mlct.connpass.com

kabayan55.hatenablog.com

イベント自体の感想は記事をご覧ください。 初めてブログ枠で参加したイベントです。まだブログに不慣れだったのもあって、書くのに3晩くらいかかりました。残りのお二方が当日夜には記事を書いて出していたので、わりと絶望しながら書いていましたが、一回ここでちゃんと書いたおかげでその後もイベント参加記事を書けるようになったと思っており、良い機会だったと思っています。 参加記事では触れていませんが、めちゃくちゃ懇親会が楽しかったです。

【交流会/女性限定】エンジニア "女子会" ミートアップ【meetup】

supporterzcolab.com

結構みんなしんどい思いをしているんだなーというのを感じました。吐き出せない悩みを吐き出せるこういう場があるのは良いことだと思います。私自身はかなり恵まれた環境にいるんだなというのも同時に感じました。

真冬こそ激アツの自由研究LT大会 engineers.connpass.com

エンジニアの登壇を応援する会」が主催のLT大会です。2018年にエンジニアの登壇を応援する会の忘年会に行き、LTしてみたいな、自由研究LT楽しそうだな、と思って参加しました。この会で、Twitterで絡むようになった人も結構いるので、LTして良かったなと思っています......!!

白金鉱業 Meetup Vol.6

brainpad-meetup.connpass.com

初めての白金台で、テンション上がってこの勉強会の前に、夜桜を見に行きました。

初めてLOVOTのお話を聞けて、LOVOTを見かけるたびに気になるようになりました。 lovot.life

この日の参加記事、途中まで書いていたのですが、出さずじまいで消してしまいました。メモはちゃんと取っていたので気合いが足りなかっただけです。 この会のu++さんの発表がエモすぎ&刺さりすぎて、過去を思い出したり人生について考えたりし始めたらブログを書き切る気力が無くなってしまいました(盛大な言い訳)。

新オフィスお披露目パーティー supporterzcolab.com

サポーターズの新オフィスです。渋谷ソラスタ、かっこいいですが、未だにちょっと迷います。この日は、ひたすら女子会をしていました。この時期は仕事が忙しくて、平日は家と会社の往復で土日は何もする気力がなかったので、良い息抜きになりました。

Webhack#24 x Mercari: Real World AI

webhack.connpass.com

Webhackは結構毎回テーマが違うので、自分と関係ありそうなテーマの時のみ参加しています。 Emotion Analysisの話が面白かったです!

tech.mercari.com

白金鉱業 Meetup Vol.10(一周年記念回)

brainpad-meetup.connpass.com

白金鉱業 Meetupに参加するのは2回目でした。
最高でした。最高すぎてまた記事が書けませんでした。ごめんなさい。

Bonfire Data Analyst #2 yj-meetup.connpass.com

Not for meでした。 今度はBonfire Data Scientistの方に参加したいです!

【東京】LTea Party ~女性登壇LT大会~ atlabo.connpass.com

登壇者が豪華すぎる会でした。

お菓子とかオシャレな紅茶とかもありました。 普段は業務に関係ある勉強会ばかり行っていますが、こういう会もたまにはいいなと思いました。

Machine Learning Production Pitch #4 x ML@Loft #6

machine-learning-pitch.connpass.com

kabayan55.hatenablog.com

ずっと気になっていたMLPP、興味のあるテーマだったので参加してきました。久しぶりにNLPしたいな〜と思いました!!!
半年ぶりにイベント参加記事を書きました。登壇者の方のうちのお一人と懇親会で話したのですが、感想伝えそびれちゃったな〜と思って書きました。今年参加した勉強会の中でも、結構面白い会だったと思うので読んでほしいです←

落合陽一が今、20代エンジニアに伝えたいこと

supporterzcolab.com

kabayan55.hatenablog.com

圧倒されてたら終わりました。やっとブログ早出しができるようになりました。

【Merpay x M3 x PFN 共催】 Machine Learning Night

machine-learning-pitch.connpass.com

kabayan55.hatenablog.com

↑ 詳細は上の記事に書いています。

アウトプット

サポーターズCoLab講師

kabayan55.hatenablog.com

↑ 上の記事とセットでやっと完成かなという感じです。2月の登壇だったのですが、色々考えているうちに参加についての記事を書くのが12月になってしまいました。自然言語処理アドベントカレンダーの記事にしたのでViewは結構あったのですが、肯定する意見も批判も全く見ていないので、難しいトピックなのかもしれないなと感じました。

LT

【交流会】17卒エンジニア限定 "新年会" ミートアップ【meetup】 supporterzcolab.com

「もっとアウトプットしていこう!」というLTをしました。日本での勉強会は、日本語で開催されるものが多いので(Machine Learning TokyoやWebHackは英語ですが)、日本人(日本語話者)である私がアウトプットしていくぞ!という話をしました。結構おもしろかったとの反応をいただきました。会社の同期の前でリハーサルをし、面白く無いと言われてだいぶ話す内容変えて発表したので良かったなと思っています。この時期の私は「日本語を話せる」という強みを活かしていきたいという思いが強く、この話をしました。というか、あまりにも自分に自信を持てなかった時期で、自分の得意なことは「日本語を話せること」くらいしか無いと感じていました←

真冬こそ激アツの自由研究LT大会 engineers.connpass.com

kabayan55.hatenablog.com

エスカレーターの話をしました。かき氷の話と迷ったのですが、開催時期が冬だったので、季節の関係ないエスカレーターを選びました。

この資料の中で、香港の世界一長いエスカレーターに行きますと書いていますが、実際に行ってきました。まさかエスカレーターを眺めながらランチをすることになるであろうとは予想していませんでした。笑
ちなみに、香港に行ったのはエスカレーターのためではなく、香港の大学院に通っている会社の元同期に会いに、同期何人かで旅行で行きました。

サポーターズCoLab女子会

kabayan55.hatenablog.com

LTした内容を、記事に書きました。前日夜に発表資料を作り始め、説明が足りなかったところもあったので補足的な意味で書いています。 女子会で「視覚優位か聴覚優位か」みたいな話題で盛り上がったのもあって(?)、記事内で、突然英語ツールに関係ないPodCast(日本語)の紹介をしています←

社内同期有志勉強会

Learn You a Haskell for Great Good!

learnyouahaskell.com

kabayan55.hatenablog.com

計算理論

books.rakuten.co.jp

books.rakuten.co.jp

仕事忙しくなって全く参加できませんでした。私は業務に直結する勉強以外の勉強の優先度が、わりと低い方なのかもと感じた一年でした。

社内部署有志勉強会

ディープラーニングの基礎から勉強したいよねという話になっていたので、RNNとLSTMの話をしたら完全に釈迦に説法でした。 あとは、Scikit-learnのPipelineを使う話をしました。この辺はブログに書こうかなと思いつつ書きそびれたまま年末になりました。

ブログ

この記事を含めて17記事です。そのうち8記事を12月に書いています。これは、会社同期アドベントカレンダーを埋めようと思って増えました。 4月以降ブログに対するやる気が無くなっていて、もしかしたらもう更新することはないかもと思うこともありましたが、9月のMLPPでやる気が復活したので感謝しかありません。

読書メーター

レビュー記事36/110冊 1月あたりは結構書いてましたが、次第に書かなくなりました。

bookmeter.com

2019年新しかったこと

分析

何を言っているかわからないかもしれないですが、データサイエンティスト3年目にして初めて業務で分析をしました。 kaggleも1サブで力尽きてしまっていたくらいなので、データ分析ってiterationを回すものなのだなという実感を強く持った一年でした。個人的には0からのスタートという気分でした。

ACM RecSys Challenge 2019

www.recsyschallenge.com

やる気満々で睡眠時間を削ってまでやっていたはずなのに、仕事の忙しさの波にのまれて結局断念しました。ちゃんと最後までやりたかったな......。

Will・Can・Must

ビジネスフレームワークです。キャリアについて考える際に、これに当てはめてみるといいよと紹介していただきました。

アクティビティ図

初めてアクティビティ図を書きました。 PlantUMLを使えるようになりました!

plantuml.com

デザインパターン

そもそも「デザインパターン」って何?というところからのスタートでした。 データサイエンティストがデザインパターンまで気にする必要があるかについては、色々な意見があるかもしれませんが、エンジニアリングに携わるものとしては、わかってた方がいいなと感じました。

デリゲーションポーカー

マネージャーとメンバーで、どのレベルで権限があると思っているか確認する時に使えます。 説明は以下の記事がわかりやすいと思います。

developers.cyberagent.co.jp

アイコン

アイコンを似顔絵にしました。ココナラで写真を送って描いてもらいました。 ずっと似顔絵のアイコンに憧れていたのですが、やっと決意できて変えました。 元々、Twitterだけ違う名前でやっていたのも同時に統一しました。 我が家はSNSが未だに禁止で、過去にSNSやブログが親バレして大げんかになって消したことが何度かあります。 もうどうとでもなれ、と思うようになったので、思い切ってアイコンを変えました。似顔絵アイコンにしていなかったのは、少しでも親バレの危険を避けたかったからです。 まだ変えて数ヶ月で効果はそこまで感じていませんが、似顔絵アイコンは最高です!アイコンと本人が結びつかない問題が解消されてくれればなと思っています。

note

気が向いたので、始めました。

note.com

note.com

ヨギボーは、いいぞ。(一部ネタバレ)

おまけ

今年は映画館に3度足を運びました! 鑑賞した作品は、『ラブライブ! サンシャイン!!The School Idol Movie Over the Rainbow』『天気の子』『翔んで埼玉』です。今年の後半は、なかなかまとまった時間を取れなくて行けませんでした。 来年気になっている映画は『AI崩壊』です。

どうしても、映画館はデートで行くところだというイメージが自分の中であって、ソロ映画は少し慣れてきましたが、まだそんなには行かず。一人で観るなら飛行機かアマプラで観ればいいやと待ってしまいがちです。『翔んで埼玉』は会社の同期たちと観に行きました。

ココイチにもちゃんと行きました!注文難しそうでドキドキしながら行ったのですが、杞憂でした。笑

他にも、一風堂てんやに初めて行きました!

来年行ってみたいと思っている行ったことないチェーン店は、一蘭リンガーハット串カツ田中 あたりです。 そもそも外食をすることがあまりないので、来年こそは積極的にいろんな人を誘ってご飯行くようにしようかなと思います!

【2019年】おすすめ書籍10選【振り返り】

はじめに

今年読んだ本の中で、特に良かった10冊を、ジャンル問わず紹介したいと思います。 昨年やって良かったなと思ったので、今年もやります! 私が今年読んだ本なので、出版年は関係ありません。

2019年、現時点で読んだ本は合計109冊でした!(マンガは含みません。) 今読んでいるものも含めて、あと5冊くらいは読みそうです。昨年は83冊でした。

2018年の記事はこちら↓ kabayan55.hatenablog.com

技術関連書籍

機械学習のための特徴量エンジニアリング

books.rakuten.co.jp

1回目に読んだのは今年前半ですが、今でも辞書的な感じで業務中に読んでます。特徴量エンジニアリングについて一通りまとまってるのでお勧めです。

仕事ではじめる機械学習

books.rakuten.co.jp

2019年の初めに、「機械学習プロジェクトは新卒入社時からずっとやってきたはずなのによくわからない!」と感じていて、家に本書を積んでいたことを思い出して読みました。積んでいたことを後悔した本、堂々の第1位です。第I部の一般的な話が書いてある部分も好きですが、「第II部 7章 映画の推薦システムをつくる」も、推薦システムについて考える際に重宝しました。

Kaggleで勝つデータ分析の技術

books.rakuten.co.jp

最近よく読んでいるのは、「第3章 特徴量の生成」です。早く本書の内容全部マスターしたい......!!

ビジネス書

どこでも誰とでも働ける――12の会社で学んだ“これから"の仕事と転職のルール(尾原和啓)

詳しい感想は下の記事に書いてます。 ↓ kabayan55.hatenablog.com

2019年に読んだ中で一番良かったです!全章について感想書きたくなりましたが、完全にネタバレになってしまうので、がんばって一部ピックアップして書いたのが上の記事です。

機械学習エンジニアになりたい人のための本 AIを天職にする (AI&TECHNOLOGY)

books.rakuten.co.jp

機械学習エンジニア界隈からすると、ああそうだよねということがいっぱい書いてありますが、私たちの感覚に近いことが言語化されて書いてあるのは素晴らしいと思います。 私たちがなんとなく持ってる感覚を、本書を読むことによって、すぐキャッチアップできるようになるかと思うとすごいです。 自分の言葉で、「機械学習エンジニアになりたいけど、どうしたらいい?」という質問に答えるのは難しいので、本書を推薦するだけの人になりました。(丸投げ)

最高の結果を出すKPIマネジメント

books.rakuten.co.jp

私が社会人になって初めて覚えた単語がKPIでした。しかし、一度でも理解のためにきちんと勉強したかと言われればNOで、2019年になって本書を手に取りました。新卒や、実はKPIよくわかっていないかも、という人におすすめです。社会人1年めで読むべきだったと思う本です。

FACTFULNESS

books.rakuten.co.jp

データサイエンティストなんだし、ある程度世の中のことを正しく見れていると思っていましたが、完全に自信を無くしました。かなり流行っていた本なので、読んんだ人も多いかとは思うが、まだの方にはぜひ一度手に取ってほしいです。

クイズもあるので是非やってみてください!

交渉の武器

books.rakuten.co.jp

交渉のことがまるでわからなかったので手に取った本です。

【基本】

  • 交渉とは、自分の目的を達成するための手段

  • 合意のために不本意な譲歩をしない

  • 交渉決裂は「交渉の終わり」ではない

【コツ】

  • 交渉決裂ラインを決める、死守する

  • 嘘はリスク大NG

【実践できそうなもの】

  • 弱者の交渉戦略 上司の許可を取った上で)上司のせいにする 事前調査をしっかり行い相手の弱みを利用する

  • 謝罪はタイミングと範囲が大事。こちらに過失がある場合はすぐ謝る方がいいが、範囲は気をつける。

小説

かがみの孤城

books.rakuten.co.jp

昨年からずっとオススメされていましたが、2019年になってから読みました。2018年の本屋大賞です。 文句無しにオススメです。

同人誌

現場の「ズレ」を解消するコミュニケーションメソッド

この1年を通して一番お世話になった本です!詳しい感想は以下の記事で書いています。 ↓ kabayan55.hatenablog.com

おまけ

2018年に、記事を書いたあとに出会った本を1冊だけ紹介します!

かなり面白かったので一気に読めました。

  • アウトプットは、ただ感情を垂れ流すのは良くなくて、わかりやすく説明するのが重要
  • アウトプットを通して作られる信頼関係が大事

アウトプットをしたい人、アウトプットを始めたけどどうしたら続けられるかわからない人にオススメの1冊です。

books.rakuten.co.jp

おわりに

今年もたくさんの素晴らしい本と出会えました!来年も読書を楽しもうと思います。 他の書籍の感想はぜひ読書メーターを見てください。フォローもお気軽にどうぞ!

bookmeter.com

#LAPRAS伸びしろ選手権 をきっかけに、teratailを始めてみました

はじめに

私はプログラミングのQ&Aサイトは基本的にStackOverflow*1しか見ていなかったのですが、 LAPRAS*2 に登録したことをきっかけに、teratail*3に興味を持ち、登録してみました。

LAPRAS とは

GitHub, Twitter, Facebook, Qiita, Connpass, SpeakerDeck, teratailなどの外部サービスの情報を連携することができ、そこから「技術力」、「ビジネス力」、「影響力」を自動的にスコア化してくれるサービスです。 例として、私のページを載せます。

lapras.com

#LAPRAS伸びしろ選手権 とは

LAPRASでの11月17日時点の技術力スコアと12月15日時点の技術力スコアの伸びを競うプレゼントキャンペーンです。

twitter.com

teratail とは

プログラミングに関する日本語のQ&Aサイトです。 3分でわかるteratail|teratail(テラテイル) を読むのが一番わかりやすいと思います。

teratail に対する印象

私は回答しかしていないので、回答者としての所感を書きます。

質問に関するガイドラインがきちんとしている

全エンジニアに読んでほしいです。私自身も参考にして良い質問を心がけたいと思います!

びっくりするくらい質問が来る

タグを登録することができ、「無し」「緩い」「厳密」でタイムラインの質問をしぼることができます。 私は答えられそうな質問しか見ないようにしているので、「厳密」に設定しています。 それでも1日に何問も質問が投稿されています!

すぐ回答がつく

スピード感がすごいです。早く解決できることはいいことですよね! 回答は1つついた時点で解決済みになるケースが多いなと思いました。 いろんな人の回答がつくようになった方が面白そうだなとは思うのですが、私は未回答の質問ばかり選んで回答するようにしていたので、他の回答者もそうなのかもしれないと感じました。

日本語でコミュニケーションができる

特に英語に対して苦手意識を持った人にとっては良いのではないでしょうか。日本語で質問できるサイトがあるというのは、「プログラミングがわからないのか、英語がわからないのかわからない」という状態を防げていいと思います。

ちょっとこわい?

正直な第一印象は「治安悪い......」でした。 質問や回答に関しては高評価・低評価をつける項目があるのですが、評価のつかない「質問への追記・修正、ベストアンサー選択の依頼」という項目があって、特に質問修正依頼がタメ語のものや高圧的な態度のものを見てしまい、怖いという印象を受けました。言葉遣いが汚い人も見受けられます。ただ、これはごく一部のユーザーです。単純に私自身が普段良質な質問の場しか見る機会がなく、ちょっと面食らってしまっただけかもしれません。個人的には「質問する人はみんな偉い!」と思っているので、質問をすることに対して臆病になってしまう人が出ないことを願うばかりです。回答者一人一人がきちんと意識して、良くしていくのが一番良いのかなと思います。

話が逸れますが、個人的に質問しやすいと思っている良質なSlackコミュニティが2つあるので紹介します。

r-wakalangR言語のSlackコミュニティ、kaggler-ja*4は日本kaggler(kaggle*5をやっている人)のSlackコミュニティです。 どちらも短時間で有識者から質問に対する回答を得られます。説明も丁寧でわかりやすいものばかりですし、複数人の意見が集まることも少なくないです。 質問の仕方が最初はうまくいかないこともありますが、そういった場合は「〜のような書き方をすると回答を得られやすくなると思います!」といった優しいコメントが来るので極めて治安は良いです。 私はROM専でたまにリアクションするくらいですが、それでも得られるものは大きいと思っています。

teratail を始めて良かったこと

私にも回答できる質問があるんだ!と少し自信になりました。 また、私は普段あまり人に教える機会がないので、どう説明すれば伝わるかを意識するきっかけになりました。 ただ、質問 → 回答 → ベストアンサー のスピードがはやいので、「〇〇の単語で検索してみると実現したいことに近づけるかも」といった今後自力で解決に近づけるようなアドバイスのみの回答はteratailではしにくい印象です。「これ使えばいいよ!」みたいなものになりがちです。実現する方法はもちろんですが、理由についてはきちんと明記するように心がけてました。

結構楽しい!

週間27位になる程度にはハマりました。ほぼ土日。

f:id:kabayan55:20191229222637p:plain:w150

これからもteratailを続けるか

人の役に立つことは好きなので、暇を見つけて回答していければなと思います。ずっとフルコミットは多分キツいので、簡単に回答できそうなものは回答するようにしようかなと思っています。

LAPRASの技術スコアにはどう反映されたか

teratailを始める前、LAPRAS伸びしろ選手権開始日の11/17の時点の技術スコアは3.42でした。現在3.60なので、約0.18全体の技術スコアに反映されていると思います。この期間connpassのイベントに1つ参加したのと、GitHubレポジトリにStarをいくつかした記憶があるので、もちろんそれも含まれているとは思います。

f:id:kabayan55:20191215142118p:plain

おわりに

LAPRASをきっかけにteratailを知ることができたので、良かったと思います。
teratail、もし良かったらフォローしてください!
kabayan55のQAプラットフォーム|teratail(テラテイル)
この記事ではあまり紹介できませんでしたが、LAPRASはスコアを出すだけでも楽しいので是非やってみてください!私のように、新しいサービスとの出会いもあるかもしれません。

おまけ

追記(2019/12/17)
LAPRASを活用した、私と似たような取り組みの記事です。 現在人事部門でこの技術スコアの高さは目を見張るものがあります。
LAPRAS/teratail でレベルアップ!採用担当は候補者に負けないスキルを維持せよ - Qiita

「Python3 エンジニア認定基礎試験」 に合格しました

Python3 エンジニア認定基礎試験とは

一般社団法人Pythonエンジニア育成推進協会が行っている試験です。

www.pythonic-exam.com

受けようと思った理由

受けている人を見て、私も受けてみようかなという軽いノリでした。 もう少しちゃんとした理由を書くと、Python3をちゃんと書きはじめて半年くらいだったので、腕試しをしようと思いました。Python2系は5年以上書いていたと思います。 Python(2系も含む) の勉強をきちんと一通り勉強したことはなく、学生時代に研究や、NLPプログラミングチュートリアル*1 の演習をしながら、わからない箇所を調べながら実装していくスタイルだったので、一度基礎的な部分が抜けていないか確認しようと思い、受験しました。 ちなみに、私の場合は、Pythonを書き始めるよりも前に、C言語JavaOCaml*2の勉強を終えています。

どんな勉強をしたか

以下のサイトで模擬試験を3回解きました。

exam.diveintocode.jp

模擬試験1回目は合格点に届きませんでした。 普段実装する上で覚えていなくても調べればなんとかなってしまうこともあるし、結構覚えてないことも多いなという印象でした。ただ、覚えておくべきかどうかはまた別の話だとは思います。 この検定を受けるまで知らなかったけど便利だなと思ったのは、ビルドイン関数dir()*3です。 ひっかけっぽい問題もあります。雰囲気で解かず、きちんと変数を追いかけていれば解けると思います。私は見事にほぼ全部ひっかかりました。

どんな人にオススメか

プログラミングをはじめたばかりの人向けですかね......?? ただ、模擬試験を解けば実力の把握はできると思うので、腕試しをしたいだけなら受けなくてもいいかなという印象です。 資格ドリブンで勉強するタイプの人にはいいかもしれません。受験してから書くのもなんですが、Not for meだった気がします。

申し込み方法

全国のオデッセイコミュニケーションズCBTテストセンターで受験が可能で、Odyssey CBTのサイトから申し込みができます。 試験会場を検索して、会場に直接申し込みます。

cbt.odyssey-com.co.jp

会場によっては受験可能日のカレンダーがあったり無かったりしたので、受験可能日が載っている会場を選択しました。
受験可能日を聞くところから始めるのはめんどくさいと感じました。
どう申し込むのかは結構とまどったのですが、私が申し込みをした施設では、 「問い合わせをする」のフォームから「受験について」の項目を選んだ上で、受験希望日を添えて受験希望日をお伝えしました。 お問い合わせの回答は、メールにていただきました。 ちなみに、Odysseyのページでは、受験可能日はたくさんあったのに、12月中の土日の開催日は1日しかないと言われました。笑
受験者が少なければ開催日を減らした方が合理的なのは百も承知ですが、お問い合わせをする前にわかった方が嬉しいなと思いました。 まあお問い合わせをすれば解決する問題なので、私が単純に面倒くさがり屋なのがいけないのかもしれません。でも世の中には私のような面倒くさがり屋さんは結構たくさんいるんじゃないかと思っています。

当日困ったこと

試験官の方が用意してくださったページがOdysseyのページで無かったハプニングが。 別の試験用のアプリ(?)だったことに気づかず、OdysseyのID登録していったのになぜかログインできないな〜とか思いながら、登録を0からやって、受験する試験を選ぶ画面で違うことに気づきました。 Odysseyの画面からIDとパスワードを入力して試験が始まります。Odysseyという文字が見当たらなければ、試験官に言いましょう。

おわりに

私は実務でPythonを使っており、絶対合格したいと思っていたので、無事に合格できて良かったと思います。

【Merpay x M3 x PFN 共催】Machine Learning Night に参加してきました

はじめに

本日2019/12/10(火)に行われた、【Merpay x M3 x PFN 共催】 Machine Learning Night に参加してきました。本勉強会は、Machine Learning Production Pitch*1 番外編です。

machine-learning-pitch.connpass.com

当日の様子は、Twitterハッシュタグ#mlppでもわかります。

LT

田中 龍亮さん (エムスリー株式会社)

資料

私のメモ
各発表に対して「私のメモ」という項目で書きますが、概要ではありません。文字通りメモです。

  • embeddingで情報を密にしてあげてる
  • 希少疾患・希少薬剤とかにグラフラプラシアン効く
  • タグ付の方と、両方が相互で良くなっていく

大垣 慶介さん (エムスリー株式会社)

資料

私のメモ

  • 10月入社で1つ目のプロダクト
  • アンケート分析して終わりじゃもったいない!!!
  • レコメンドとかパーソナライズに使いたい

  • 性格の計画が分かるタイプのアンケート

  • 予測できるというか傾向がつかめる、ログを使ってアンケート結果の予測ができる

www.m3tech.blog

所感
アンケートってみんなが答えてくれるわけではないし、アンケートのデータ取れるユーザだけ使うと「アンケートに答えるようなユーザ」のバイアスがかかってしまうので、確かに予測するのは良さそうだなと思いました!

本編

MerpayにおけるML活用のポイント 竹原 一彰さん @_zak3 (株式会社メルペイ)

資料
12/11時点では公開を確認できていません。

私のメモ

  • MLチーム 、8人
  • 課題発見からモデリング、マイクロサービスの提供まで
  • pjo*2-tl*3-em*4体制
  • Go言語
  • GCP縛り

メルペイ
今3年目、2019年2月にローンチ

  • メルカリスマート払い*5の与信枠は機械学習で決めている
  • AML (Anti-Money Laundering) マネーロンダリング対策
  • 疑わしい取引を検知して人がチェック

  • チームの3年ロードマップ

  • A4 2枚程度でミッション、取り組むべき重要案件

  • ソフトウェアエンジニアとして課題を解く

  • 精度の良いモデルだけでは不十分

  • Data Validation

  • 各マイクロサービスがアグレッシブに変えてしまう。モデル動かせなくて検知

  • 8人しかいないので解くべき課題にフォーカス

  • 相談された時に安易に受けない

  • 1-3ヶ月で1st version

  • 問題に適した技術

  • いきなりディープラーニングとかしない

  • レビュープロセス等いろいろ改善、ルールの追加だけでなくて廃止も

所感
解くべき課題にフォーカスすることを徹底されているのが特に素晴らしいと感じました!

Preferred Networksの顧客向けプロダクト開発 谷脇 大輔さん (株式会社Preferred Networks)

資料

私のメモ

  • 国内最大級のGPU!!

  • 今年からプロダクト開発チームができた!

  • 優れた研究成果を世に広めるために将来のスケーラビリティを考慮したアプリケーション開発を高品質かつ高速に行う

  • 顧客ごとにプロジェクトがある

  • インフラは本番環境は顧客ごと、devは共通だがアプリは分ける
  • プライバシー

  • アプリ、micro service

  • ドメインが同じ場合は、共通ロジックを再利用できる。マイクロサービスはいい
  • 研究者のjupyterのやつを上げるためにpythonの推論サーバ(言語依存内容に

  • 今までは研究で注目されてきたけど、それをどうやって活かしていくかというところを最近頑張っている、アプリケーションエンジニア採用中

preferred.jp

所感
元々研究でかなり成果を出していらっしゃるPFNさんが、研究を実際に活かしていくことにも最近は注力しているとのことなので、今後どんどんビジネスに活かしていかれるかと思うと楽しみです!

sansan紹介(Sansan株式会社 執行役員/CTO)

今月テック系のTwitterをはじめたみたいです! twitter.com

パネルディスカッション

モデレータ:藤倉成太さん(Sansan株式会社 執行役員/CTO) パネラー:谷脇 大輔さん(株式会社Preferred Networks), 西場 正浩さん(エムスリー株式会社) , 竹原 一彰さん(株式会社メルペイ)

Q 事業を形にできている成功している企業だと思うが、どう事業化に結びつけてきたのか?
PFN

  • 研究で成果ができたらどう活かしていこうか?ってなって企業とやる
  • 予算、費用を担保
  • 開発を続ける

メルペイ

  • データプラットフォームは初期初からあった
  • ビジネスのコアを見極めて提案するのはmLエンジニアから
  • お問い合わせは断りつつ、MLエンジニアから提案を徹底

M3

  • そもそもプロダクトからチームスタート
  • 2年半か3年前から。機械学習素人でルールベースとかから頑張った
  • ルールベースで他のとこがやってるのを横展開にするとすんなりいく

メルペイ

  • MLエンジニアは新しい物好きなのでほっとくとR&D的になってるから縛りは強くしている
  • 解釈性

Q PFNさんは事業化の道が見つからないことはあるのか?
PFN

  • ないわけじゃない
  • 共同研究先が大企業だから、大企業のやりたいことを研究するから闇雲にやってるわけではない

Q PFNさんに クライアントさんが先に問題設定してるってことはある?
PFN

  • 結構ある
  • プロダクト開発チームが早い段階で入って、もった方がいい観点をサポート

Q M3は?
M3

  • 今は目の前のできることを一個一個やる

Q どこまでカバーしますか?
M3

  • 障害起きたらMLエンジニアもいく 
  • サクッと作って出してるのでAPI落ちてカバーできなかった時は、何かしらフロントが表示してくれている
  • 晦日に出勤したこともある

メルペイ

  • フロントはしないが、バッチシステム
  • SLO*6を高くしすぎない
  • 夜間バッチをなくす、週次バッチ、など工夫

PFN

  • プロダクト開発チームが発足して早いので、24時間365日対応のプロダクトは今はない
  • AWS上でCICD、アプリ監視も自分たち
  • 運用はミッションではない、研究を世のニーズにマッチしていることを示す

Q コード書くとこまでやりたがるのか?採用とかの時にそこまでやりたくないって人もいるのか?
PFN

  • 研究系は本当に研究でアプリは一切やらないけど一点突破って感じの強い人、
  • プロダクト開発チームは機械学習に強い人はそこまでいない
  • キャッチアップは重要

メルペイ

  • 運の良いことに、モデルだけやりたいみたいな人はいない
  • 得手不得手はあるが、チームのアサインで工夫

  • モデルだけだと厳しい時がある、仕事がなくなってしまう

  • 採用時にマッチングを意識的にやっている
  • 会社ではビジネスコミットしてプライベートでは大学院とか

M3

  • 採用時にプロダクションコードまでやるって言ってて、チャレンジしたいならOK
  • docker作ってインフラにはdockerで渡す

Q ML系の周辺のサービスやツールは助けになってる?
メルペイ

  • 昔ほどネットワーク設定やサーバ構築からしなくていい
  • 専門性は必要だし難しいので補いながら

M3

PFN

  • モデルはリアルタイムに更新するのは今ない
  • AWS SageMaker*8とかは使ってない
  • モデルはS3にアップロードしてロードして使ってる

Q 課題
PFN

  • 解決しつつある課題
  • 推論サーバをどう作るか
  • 研究者がjupyterで描いたやつをプロダクションで使えるように

メルペイ

  • 与信枠、完全MLではない、ビジネスロジックでフィルター
  • うまい融合は難しい
  • 自動化の範囲を広げればいい?

M3

  • 解決すべき課題は正しいのか?

Q これからのチャレンジは?
M3

  • 新しいプロダクトの発見をグローバルにしたい
  • 医療に貢献したい、40兆円くらいを10兆円くらい減らしたい
  • ミッション高く仲間が欲しいかつ腕に自信がある人腕を磨いていきたい人と働きたい

メルペイ

  • 与信続ける
  • お金の流動性が上げていきたい
  • お金を滑らかにしている
  • 欲求を満たすような推薦、検索
  • MLは手段の一つでミッションを実現する人と働きたい

PFN

  • 新しい事業を作っていくフェーズ
  • 周りと協力しながら働く人
  • 専門分野以外のキャッチアップに会社が協力的
  • 特許・論文の勉強会も社内にある

sansan

  • まだ人力も結構ある
  • クラウドワーカーさん数十万人!!!

  • 100%ソフトウェアに可能なら変えたい、まだまだチャレンジの領域はある

  • 機械学習は、今までできなかったことをできるようにする領域

PFN

  • 研究で終わらず事業化していくか考えるのはチャレンジ

おわりに

各社のチームのこと、課題、どういった感じで仕事しているかを知ることができて良かったです。 懇親会も盛り上がって楽しかったです!ありがとうございました。

本イベントの、他の参加者の記事

tenajima.hatenablog.com

yhiss.hatenablog.com

過去に私が参加したMLPPの記事

kabayan55.hatenablog.com

私がエンジニアにオススメする英語ツールまとめ

はじめに

2019年12月6日(金)に、サポーターズCoLab女子会*1にて、今年の推しツールについてLTをしました。 せっかくの機会なので、このLTで紹介したツールと、普段使ってる英語ツールについてこの記事で紹介したいと思います。「エンジニアに」とタイトルに入れましたが、エンジニア以外の方にもオススメなツールも多いと思います。

発表資料

Read Aloud

Read Aloudは、Text-to-Speech(テキストの読み上げ機能)のChrome Extensionです。 同様の機能を持つChrome Extentionはいくつかありますが、いくつか試して一番使いやすかったのでRead Aloudがお気に入りです。 Voice, Speed, Pitch, Volume, Text Highlightingの機能があります。 声が200以上はあるので苦手な声でイライラすることもないですし、スピード調節は重宝しますし、テキストハイライトはどこの部分を読んでいるかがすぐにわかるので便利です。私自身は英語しか使っていませんが、40ヶ国語以上サポートされているようです。

chrome.google.com

Read Aloudを使う場面

長文を読むとき
私の場合、英語の長文を読む時は、普通に上から読んで、わからない単語を調べつつ読むというスタイルです。 読んだ内容を日本語で説明する必要がある場合は、全文翻訳で概要を掴んでから読み始めることもありますが、読んだ内容を英語でシェアする機会の方が多いので、基本的にはそのまま英語で読み始めます。 ただ、日本語の文を読んでいる時と比べて、私の場合は集中力が切れてしまうことが多いので、このツールをたまに使います。 どうしても集中力が続かないときや他の考え事をしてしまう時に、目と耳から同じ情報を入れることによって、意識を文を読むことに集中させています。私としては、目と耳からインプットをした方が、理解が早まるように思います。

語学学習
中学・高校の英語の授業で使用していたテキストは、教科書とCDがセットになったものが多かったように思います。 大学受験の際は、ニュース記事とそれに対応したCDの教材を買って学習していました。似たような教材で語学を勉強した、あるいはしている方も多いのではないかと思います。 このツールがあれば、ネット上の記事全てが語学学習教材に様変わりです! もしツールで間違った発音があって間違えたまま覚えてしまうと問題かとは思うのですが、かなり音声生成技術は高いと思うので、そんなに気にならないかと思います。 また、英語だけでもUS English, British English, Australian Englishがあるので、聞き比べをすることができます!

余談:わたしと音声コンテンツ

読み上げ機能のツールを紹介しているので音声好きなのかなと思われそうだと思ったのですが、音声のみのコンテンツは苦手です。動画は好きです。

どのくらい苦手かというと、2019年に最初から最後まで聞いたPodCastは現時点で以下の3本しかありません。 しがないラジオ*2白金鉱業.FM*3も "Show notes" があって、音声だけのコンテンツが苦手な私のような人にもとっつきやすくなっています。本当にありがたい......!! 白金鉱業.FMの方は、"Episode WordCloud" もあります。

私は利用したことないんですが、Voicy*4 はラジオやPodCastと比べて1つ1つが短いものが多いみたいなので、ちょっと聞いてみたいなーなんて思っています。

Grammarly

Grammarlyはスペルチェックをしてくれるツールです。 私はChrome Extension版を使っています。

chrome.google.com

↑ スペル間違っていますが笑

英語で

  • メールを書くとき
  • ドキュメントを書くとき
  • JIRAチケットを書くとき
  • pull-request にコメントを書くとき

本当に毎日お世話になっています。

どこでも翻訳 Translate Anywhere

こちらもChrome Extensionです。

f:id:kabayan55:20191229223611p:plain:w300

Google翻訳を用いたページダイレクト翻訳もできますし、自分の書いた文を翻訳することもできます。 コピペで一部翻訳もどんとこいです。

codic

codicは、プログラマーのためのネーミング辞書です。変数名や関数名を考えるとき、英語でどの単語を使うべきかを考える必要が出てくると思うのですが、そういった時に便利です。ただ、codicに与える日本語がよくないと良いネーミングはできません。

codic.jp

lyricstraining

lyricstraining.com

これはおまけです。仕事で使うツールではありません。 流行の洋楽の知識を入れて、コミュニケーションを円滑にするのに最適です。 単純に楽しいので、一時期かなり夢中でやっていました。

Mouse Dictionary

qiita.com

KaggleでもMouse Dictionaryを使えるようにする - Qiita

英語辞書ツールのChrome Extensionです。Firefox版もあります。つい最近入れて、まだそんなに使っておらずあまりわからないのですが、評判はかなり良さそうです。 複数単語から成る熟語やイディオムの意味も自動的に表示してくれるところと、camelCaseとかsnake_caseみたいな表現も単語にバラして個々の意味を表示ところが特に良さそうです。

まとめ

私が使っている英語ツールの紹介をしました!どのツールもいろいろと使ってみた上で選んでいるので、ぜひ参考にしてみてください。

「自然言語処理の勉強をしたい人」を対象に登壇した話

はじめに

この記事は、自然言語処理 Advent Calendar 2019 - Qiita の3日目の記事 兼 サポーターズCoLab Advent Calendar 2019 - Adventar 3日目の記事です。

qiita.com

自然言語処理 Advent Calendarは、自然言語処理に関するテーマであれば何でもOKとあったので、このタイトルで記事を書くことにしたのですが、クオリティの高い技術系の記事ばかり出て来そうな雰囲気を感じているので、ちょっとドキドキしながら書きました。

本記事では、自然言語処理を勉強したい人向けに、サポーターズCoLabで講師をした際に得た気づきを共有したいと思います。

アドベントカレンダー2つ兼用と欲張りな感じにしてしまいましたが(実は会社の同期アドベントカレンダーとも兼用)、以下のように考えています。

  • サポーターズCoLab講師の方やサポーターズ講師をしてみたいと考えている方、自然言語処理を勉強する人に対してアドバイスをすることに関心ののある方には、知見をお伝えしたい!
  • 自然言語処理界隈のプロの皆様にはオススメの勉強法があれば教えて欲しい!
  • 自然言語処理を勉強したいと考えている方には、発表資料+私のオススメする理由を読んで欲しい!

軽く自己紹介

サポーターズCoLabとは

supporterzcolab.com

supporterz-seminar.connpass.com

ざっくり一言でいうと、株式会社サポーターズが若手エンジニア向けに勉強会やミートアップを開催しているコミュニティです。

私が講師をした勉強会

supporterzcolab.com

「はじめてみよう!自然言語処理」という名前の勉強会で、自然言語処理の概要と勉強方法についてお話しいたしました。 講師と書かれていますが、形式としては登壇の方が近いと感じました。

発表資料

発表当時はうさぎのアイコンを使っていました。デフォルメ似顔絵アイコンに変えたのは最近です。

講師をすることになった背景

  • サポーターズCoLabの方に、「講師やってみない?」と聞かれ、特に話したい内容は決めていなかったが「やってみたいです!」と即答した結果、決まった
  • サポーターズCoLabの方に、「機械学習自然言語処理あたりで何か話せればと考えています〜」と話した結果、「自然言語処理の勉強法とか需要ありそう」とアドバイスをいただいたので、そのままその案を採用

初心者向け勉強会は、機械学習やデータ分析がテーマのものは見聞きしますが、自然言語処理のものはあまり見聞きしない上に単発のものが多い印象です。私が知らないだけである可能性は大いにあるので、ご存じの方はぜひ教えて下さい!

こういった勉強会の需要はあるのか

講師をする前
私「正直な話、自然言語処理の勉強法は、小町先生のページに全てまとまっているし、私に話せることなんて存在するのか?」

cl.sd.tmu.ac.jp

cl.sd.tmu.ac.jp

自然言語処理を勉強した方々、あるいはこれからしようと考えている方々はおそらく一度とは言わず何度も見たことのあるページかと思います。 学び方が多くあって人それぞれである分野は多いと思うのですが、自然言語処理においてはそんなに人によって勉強法に差が無いのかなと感じました。

講師をした後

  • 「検索すれば出てくるような内容しか無かった」という意見と「検索しただけではよくわからなかったので参考になった」という意見があった
  • そもそもこの勉強会の対象者は「検索したけどよくわからない」という人向けのつもりだった
  • 各勉強教材の感想を生で聞きたいという需要はありそうだったので、こういった勉強会の需要はあると感じた

どんな人が勉強会に参加していたか

非エンジニアから自然言語処理エンジニアに、といった方には私の記憶が正しければお会いしませんでした。

本当にこの勉強法が初学者にとっていいのか?

基本的には、私が実際に勉強する際に使用していた教材を紹介しています。登壇の直前に読んで良いと思って紹介したものもあります。自分が使用していないものは紹介することができないので、それは当然かもしれません。「この書籍良いらしいよ」と語っても、自分の言葉では無いので刺さりません。

私自身のスライドではDeep Learningの話はしていないのですが、『ゼロから作るDeep Learning ❷ ―自然言語処理編』をオススメしている方もお見かけしたことがあります。『ゼロから作るDeep Learning ❷ ―自然言語処理編』は、『ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装』を読んだ上で読んだ方がいいと思うので、初学者にオススメして自然言語処理編までたどり着かない場合もありそうだなと思い、スライドでは取り上げませんでした。 取り上げなかった一番の理由は、私自身が読み込めていないからです。

私のスライドは、勉強例のうちの1つくらいに思っていただければと思います。新しい書籍もどんどん出ていますし、私がまだ読めていない書籍もたくさんありますので、正直紹介できてないものも多いです。

オススメした教材と、紹介した背景

言語処理100本ノック

www.cl.ecei.tohoku.ac.jp

学生時代にPython 2.7でやったので、Python 3でコードも綺麗に書くようにしてやり直したいとずっと思いつつ、まだできていません。 自然言語処理に関する基本的な実装がカバーされていて無駄がないこと、他の人のコードと比較できること、取り掛かりやすいこと、がオススメ理由です。

NLP プログラミングチュートリアル

www.phontron.com 3周しました。 研究室のゼミで教わる側として1回、教える側として1回行いました。 社会人になってから、会社の同期勉強会で自然言語処理を勉強したいとの声があったので、本教材を選んで輪講を行いました。 参加者は、エンジニアあるいはCS専攻出身のPDMだったので、擬似コードがあったり演習が付いていたりする本教材は良かったように思います。 プログラミングから理解するタイプの人にはオススメですが、数式から理解する方が好きな人には他の教材の方が良かったかもとは思いました。

長岡技術科学大学 自然言語処理研究室

www.youtube.com

あまりこのチャンネルの話を他の人としたことがないのですが、900人以上いるので、結構人気のあるチャンネルだと感じています。初学者はなかなかこのチャンネルにたどり着けそうだなと思って紹介しました。文献紹介の動画がたくさん上がっていて、素晴らしいチャンネルだと思っています。初学者向きなのは「3年勉強会」だと思ってスライドにはそう書いています。

『言語処理のための機械学習入門』

books.rakuten.co.jp

口頭で紹介しました。研究室ゼミで3周しました。勉強しやすい良書ですが、数式に苦手意識があるとキツいかもと判断した上でスライドには載せていませんでした。

Kaggle

www.kaggle.com

Kaggle は、機械学習コンペティションのプラットフォームです。 Kaggleについては、以下のスライド資料の説明がわかりやすいと思います。

Kaggleは教材としてオススメしたというよりは、勉強を始めてどんどん実装して見たいとなった時に、挑戦する場としては良いと思うという話をしました。ほぼ口頭で話してしまったので、もう少しKaggle自体の説明やどうやって取り組めば良さそうかといったこともスライドに含めた方が良かったかもしれません。私はテーブルコンペにしかsubmitしたことがないNovice*1なので、これは私の経験に基づく提案ではありません。
発表数日前にちょうど目にした以下の転職エントリに感動して、どうしてもKaggleの話を入れたくなって入れました。

kaeru-nantoka.hatenablog.com

今の私から当時の私へ一言「この転職エントリ記事自体を紹介すべきだったと思う」

機械学習エンジニアになりたい人のための本』

books.rakuten.co.jp

実はこの登壇の前に読んだ本です。勉強教材ではなくて、タイトル通りどうやったら機械学習エンジニアになれるかという内容です。

おわりに

登壇した上で一番実感したことは、体験をともなわないアドバイスはできないということです。 また、勉強法はベースは変わらないにしろ、新しい本が出るのでどんどん読んでいかないと、比較した上でアドバイスをするのは難しいと感じました。 登壇駆動で何冊か新たに本を読んだので、良い機会になったと思います。 個人的には、今度はハンズオンをしてみたいなと思っています。まずはネタを考えるところからですけどね!

*1:Kaggleにはランクが5つあり、上からGrand Master, Master, Expert, Contributor, Noviceです。Competitions, Datasets, Kernels, Discussionそれぞれにおいてランクがつきます。