BERT応用勉強会に参加しました - かばやん's だいありー

はじめに

2020/5/15(金)に行われた、「nlpaper.challenge BERT応用勉強会」に参加しました。 nlpaper-challenge.connpass.com

配信動画:

www.youtube.com

当日の様子は、Twitterのハッシュタグ、#xpaperchallenge でもわかります。

イベント概要

近年NLPの領域で発展を遂げているBERTモデル。今回はそのBERTモデルの応用をテーマにした勉強会を開催します。特定のドメインでの活用事例やフロントエンドでの利用例などをLT形式で発表します。（BERT応用勉強会 - connpass より引用）

Cluster*1 + YouTube Live という形でのオンライン開催でした。大人気でCluster枠には入れなかったので、私はYouTube Liveで視聴しました。また、nlpaper.challengeのイベントに参加するのは今回が初めてでした。今までの勉強会、CVとの交流会が多かったイメージを持っていて、「CV何もわからないしな......難しそうだしな......最近NLP周りは論文読んでないしなあ......」との言い訳を続けた結果一度も参加してこなかったので、今回が初参加となりました。BERTは初心者で特に論文を追えている訳ではないのですが、どう応用されているかには興味があったので参加しました。

はじめに
冒頭
- nlpaper.challengeの紹介 yamamotoさん
本編
おわりに
おまけ
本イベントの、他の参加者のブログ記事

冒頭

nlpaper.challengeの紹介 yamamotoさん

cvpaper.challengeと同じようなことをやろうと思って立ち上げた
昨年から活動開始
これまでの勉強会：NLP/CV交流勉強会、NLP/CV最先端勉強会、ACL網羅的サーベイ報告会など
今年は勉強会だけでなく研究にも力を入れていく

本編

医療言語処理へのBERTの応用 --BioBERT, ClinicalBERT, そして-- Yuta Nakamuraさん

資料

私のメモ
各発表に対して「私のメモ」という項目で書きますが、概要ではありません。文字通りメモです。
医療言語処理はAfter BERT

技術的な面ではAfter BERT
医療NLP　要素技術の発展→医療分野でのデータセット→医療文書→現実の医療
より現場に近い研究への流入は始まったばかり
今年に入ってBERT使った論文も少しずつ見られるようになってきた

医療ドメイン特化型BERT

BioBERT, ClinicalBERT, EhrBERT
医療文書は表記揺れが激しい
適用事例：固有値表現抽出+病名正規化、質問応答（Titleが疑問文ならabstractのconclusion推定）、要約+マルチモーダル、文書分類、固有表現抽出+関係抽出、包含関係意識

医療ドメイン特化型BERTのその先

BeHRt: BERTを言語でないものに使う、診断に使う
TAPER: 言語データ+非言語医療データ

日本語では？

東京大学医療AI開発学講座が日本語診療記録で事前学習したBERTを公開している

ai-health.m.u-tokyo.ac.jp

所感
医療の領域でのBERTがどう使われてきているか知ることができて、とても興味深かったです！

Multilingual BERTの二言語領域適応に基づく対訳文同定 siidaさん

資料
現時点（2020年5月16日）では見つけられていません。 NLP2020で発表されたものと同じ内容だそうです。
[Multilingual BERTの二言語領域適応に基づく対訳文同定(https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/D2-1.pdf)]

私のメモ

BERTを用いて、ニューラル機械翻訳に必要な質・量ともに優れた対訳文を獲得する
対訳文収集、20年くらい動的計画法だったけど、LASERの登場によりニューラルネットを使う流れが出てきた
日英対訳特許文書
fine-tuning
セグメント対は多対多もある
マスクされてるとこを当てるのが領域適応
fine-tuningによる対訳分類器作成
Quora Question Pairs(QQP)

所感
対訳文収集、確かに大事ですよね〜と思いながら聞いてました。タスクに対する問題設計、アプローチ、面白く大変興味深い発表でした！

BERTのMulti Modalタスクへの活用 ymym3412さん

資料

Bert for multimodal from Yasuhide Miura

私のメモ

マルチモーダル
今回はVision+Languageだけ
ViLBERT, LXMERT, VL-BERT, Unicode-VL, UNITER
解きたいタスク: Visual Question, Answering（画像とそれに対する質問にYES or NOで答える）, Visual Commonsense Reasoning（画像+アノテーション+状況の説明、テキストでの質問、複数選択肢から答えを選ぶ）, Referring Expression Comprehension（テキスト情報→画像ではどこに該当するか）, Cross-Modal Retrieval（テキスト→画像の検索、画像→テキストの検索）

所感
マルチモーダル領域で使われているモデルについて知ることができて良い機会でした。〇〇BERTっていっぱいあるなあ......と思っても全然追えてなかったので。＞＜
個人的にVL-BERTのImageもTextもENcoder分離せずに同じTransformerで扱ってるというのが、衝撃でした。「一緒に入れられるんだ!?」という。

BERTをブラウザで動かすには ―MobileBERTとTensorFlow.js― Shion Hondaさん

資料

BERTをブラウザで動かしたい！ ―MobileBERTとTensorFlow.js― from Shion Honda

私のメモ

Mobile BERT Q&A
TensorFlow.js Q&A モデル

tfjs-models/qna at master · tensorflow/tfjs-models · GitHub

所感
蒸留の工夫、アーキテクチャの工夫など知れて良かったです！

テキスト生成の評価 × BERT cfikenさん

資料

私のメモ

BERTScore github.com pip install で入れられるらしい。

MoverScore

Word Mover's Distance をBERT出力に適用
BERTScoreは最も類似度の高い単語だけを参照する、MoverScoreはどのように分布を移動させれば採用で済むかを計算する

BLEURT

疑似データペアを大量に作成して活用
BERTを更にpre-trainingおよびfinetuning行う

余談
指標は3つに分類できる
1. ルールベース（BLEU等）
2. 汎用的なモデルの出力を比較（w2v, BERTScore 等）
3. 人手評価をモデリング（RUSE, BLEURT 等）

所感
テキスト生成、昔やっていたのですが、私自身はBLEUしか使ったことがなかったので、勉強になりました！
個人的には仕込んであるネタが全部面白くてツボでした。普通に笑ってたんですが、オンラインだと発表者には伝わらないことを失念していたので、YouTube Liveのコメントとかでちゃんと反応すれば良かったかもと今思っています。