2019-11-27

すぐに試せる日本語BERTのDocker Imageを作ってみた

NLP

はじめに

学習済みBERTを試しに触ってみたいんだけど、日本語使えるBERTの環境整えるの面倒！っていう人向けに、お試しでBERTを使える Docker Image 作ってみました。

BERT はTransformers(旧pytorch-transformers、旧pytorch-pretrained-bert) を使用。
黒橋・河原研究室のWEBサイトに掲載されている、日本語pretrainedモデルのWhole Word Masking版を使ってます。

Transformers — transformers 2.2.0 documentation
BERT日本語Pretrainedモデル - KUROHASHI-KAWAHARA LAB

f:id:YukoIshizaki:20191127014302p:plain

Docker Image

ここに置いてあります。
https://hub.docker.com/r/ishizakiyuko/japanese_bert_trial

(多分、重いです...。全然「すぐに試せる」じゃないかも。)

ファイル一式をGitHubにもあげてます。
https://github.com/yuko-i/japanese_bert_trial_dockerfile

----- 追記 -----
Imageがかなり大きいです。
GitHubからDockerfile一式をcloneしてbuildするのをお勧めします!!

言い訳

1. JUMAN++のv2がcmakeでコケるので、v1にしてます_:(´ཀ`」 ∠):_
~~2. CMDが想定通りに動かないのでdocker runのオプションで対応で _:(´ཀ`」 ∠):_~~
tag 1.0.1から、CMDを使って動きます。runオプションつけなくても大丈夫です。
3. Docker弱者なので、中身が諸々変かもです _:(´ཀ`」 ∠):_

起動

1. pull する

 docker pull ishizakiyuko/japanese_bert_trial:1.0.1

3. run する
~~docker run -p 8888:8888 -itd : /bin/sh /etc/jupyter/start-jupyter-notebook.sh~~

tag 1.0.1 からは sh 指定なしでjupyter動きます

docker run -p 8888:8888 -d ishizakiyuko/japanese_bert_trial:1.0.1

4. log から token 調べる

docker logs <conteiner id>

5. ブラウザからjupyter にアクセスする(http://localhost:8888)
6. 4.で調べた token を入れてログイン
7. コードを書いて BERT を試してみる

コード例

おなじみのMask予測を動かしてみます。
日本語対応はこちらを参考にしました。
pytorch-transformersを触ってみる② - 機械学習・自然言語処理の勉強メモ

import os
import torch
from transformers import BertForMaskedLM, BertConfig, BertTokenizer
from pyknp import Juman

BASE_PATH = './Japanese_L-12_H-768_A-12_E-30_BPE_WWM_transformers'
BERT_CONFIG = 'config.json'
BERT_MODEL = 'pytorch_model.bin'
VOCAVULARY_LIST = 'vocab.txt'

jumanpp = Juman()

# 形態素解析
text = 'どんなに勉強しても全然頭が良くならない'
result = jumanpp.analysis(text)
tokenized_text =[mrph.midasi for mrph in result.mrph_list()]
print(tokenized_text)

　>> ['どんなに', '勉強', 'して', 'も', '全然', '頭', 'が', '良く', 'なら', 'ない']

# Mask 
tokenized_text.insert(0, '[CLS]')
tokenized_text.append('[SEP]')

masked_index = 6 # Maskしたいtextのindex 
tokenized_text[masked_index] = '[MASK]'
print(tokenized_text)

　>> ['[CLS]', 'どんなに', '勉強', 'して', 'も', '全然', '[MASK]', 'が', '良く', 'なら', 'ない', '[SEP]']

# Bert model
config = BertConfig.from_json_file(os.path.join(BASE_PATH, BERT_CONFIG))
model = BertForMaskedLM.from_pretrained(os.path.join(BASE_PATH, BERT_MODEL), config=config)
tokenizer = BertTokenizer(os.path.join(BASE_PATH, VOCAVULARY_LIST), do_lower_case=False, do_basic_tokenize=False)

# token化
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
tokens_tensor = torch.tensor([indexed_tokens])
print(tokens_tensor)

　>> tensor( [ [   2,    1, 6547,   19,   23,    1,    4,   11, 4161,  371,   46,    3 ] ] )

# 予測
model.eval()

tokens_tensor = tokens_tensor.to('cpu')
model.to('cpu')

with torch.no_grad():
    outputs = model(tokens_tensor)
    predictions = outputs[0]

_, predicted_indexes = torch.topk(predictions[0, masked_index], k=5)
predicted_tokens = tokenizer.convert_ids_to_tokens(predicted_indexes.tolist())
print(predicted_tokens)

　>> ['成績', '頭', '気持ち', '方', '態度']

それらしいのが、出力されました。

Multi lingualも試してみる

Multi lingual が存在し、日本語も含まれる 104 の言語対応している学習済みモデルが使えます。
Multi-lingual models — transformers 2.2.0 documentation

黒橋・河原研究室版の方が良いはずですが、一応、どんなものか試してみたいと思います。

上記のコードのtokenizerとmodelの部分を変更。

tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")
model = BertForMaskedLM.from_pretrained('bert-base-multilingual-cased')

形態素解析の結果も違っているので、masked_indexを9にしました。

# 形態素解析
tokenized_text = tokenizer.tokenize(text)
print(tokenized_text)

　>> ['ど', '##んな', '##に', '勉', '強', 'しても', '全', '然', '頭', 'が', '良', 'く', '##な', '##らない']

masked_index = 9
tokenized_text[masked_index] = '[MASK]'
print(tokenized_text)

　>> ['[CLS]', 'ど', '##んな', '##に', '勉', '強', 'しても', '全', '然', '[MASK]', 'が', '良', 'く', '##な', '##らない', '[SEP]']

あとは同じで、

　>> ['愛', '心', '気', '方', '日']

と出てきました。
やっぱり、黒橋・河原研究室版の方が良いですね！

文章埋め込み

BertModelから文章埋め込みベクトルを取得したいと思います。
config, juman++は上と同じ

from transformers import BertModel

text = '今日は朝から犬の鳴き声がうるさい'
result = jumanpp.analysis(text)
tokenized_text =[mrph.midasi for mrph in result.mrph_list()]
print(tokenized_text)

　>> ['今日', 'は', '朝', 'から', '犬', 'の', '鳴き声', 'が', 'うるさい']

# token化
bert_tokenizer = BertTokenizer(os.path.join(BASE_PATH, VOCAVULARY_LIST), do_lower_case=False, do_basic_tokenize=False)
bert_tokens = bert_tokenizer.tokenize(" ".join(tokenized_text))
ids = bert_tokenizer.convert_tokens_to_ids(["[CLS]"] + bert_tokens[:126] + ["[SEP]"])
tokens_tensor = torch.tensor(ids).reshape(1, -1)
print(tokens_tensor)

　>> tensor( [ [ 2, 2281, 9, 599, 27, 2099, 5, 21245, 11, 4274, 8823, 3 ] ] )

# embedding
config = BertConfig.from_json_file(os.path.join(BASE_PATH, BERT_CONFIG))
model = BertModel.from_pretrained(os.path.join(BASE_PATH, BERT_MODEL), config=config)

model.eval()
with torch.no_grad():
    all_encoder_layers, _ = model(tokens_tensor)

embedding = all_encoder_layers.numpy()[0][-1]
primt(embedding)

　>> [ 6.78906918e-01  2.64199853e-01  4.61503953e-01 -3.25612813e-01 .....  -2.42455140e-01 -1.16255842e-02]

最終レイヤーを取る形にしました。

おわり

日本語BERTのImageって既にあるかも？と思いましたが、勉強なので何番煎じでも良いと思い書きました╭( ･ㅂ･)و ̑̑

Dockerfile、ここ直した方がいいよ！みたいなのがあったらコメントいただけたら嬉しいです！

Kaggle Days Tokyo のオフラインコンペがNLP疑惑もあり、Google QUEST Q&A Labeling コンペも面白いという噂ですし、 NLP 機運？

おわり2

こちらのブログ記事、上記の黒橋・河原研究室WEBサイトの「公開モデルを試していただいたサイト」欄に掲載してくださいました！！
ご関係者の方には感謝です！！٩(ˊᗜˋ*)و

f:id:YukoIshizaki:20191129114751p:plain:w400

参考

https://hub.docker.com/r/jupyter/base-notebook/dockerfile
http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-manual-1.01.pdf
pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編 - Out-of-the-box
arxiv.org

2019-11-19

Kaggle 雲コンペ反省録

Kaggle

はじめに

Kaggle で Understanding Clouds from Satellite Images Competition、通称、雲コンペに参加しました。

9月5日の First Sub からコンペ終了11月18日(GMT) までの約3ヶ月、真剣に取り組んだのですが 130位/1553で銅という辛い結果でした。

次に繋げたいと思い、自分に足りなかったことを考えてみました。

この記事では、特に有用なテクニックや解法の記載はありません。ただの反省録です。

コンペ概要

衛星画像から４種類の雲のタイプの領域を予測するコンペです。
雲のタイプは Sugar（砂糖）, Flower（花）, Fish（魚）, Gravel（砂利）の４タイプがあります。
各画像には少なくとも１つのタイプの雲があり、４つとも含まれる場合もあります。

主催者（マックスプランク気象研究所）のモチベーションとしては、「これらの雲の位置を把握する事は、気候変動予測に役立つから」という事だそうです。
f:id:YukoIshizaki:20191113122231p:plain

データ

トレーニングデータは5546枚の衛星写真。
テストデータは3698枚です。

Public LBはテストデータの25％の計算結果の順位。

正解データがバウンディングボックスのように見えるのですが、提出するのはセグメンテーションマスクです。

f:id:YukoIshizaki:20191113013251p:plain

また、Suger データが一番多いですが、極端には偏ってはいないです。

f:id:YukoIshizaki:20191113150829p:plain

評価指標

評価指標はDice係数です。

$\dfrac{2 * |X \cap Y| }{|X| + |Y|}$

$X$ は予測した領域、 $Y$ は正解データの領域です。

鉄コンペや気胸コンペと同じ評価指標です。

雲コンペの特徴

ノイジーなアノテーション

トレーニングデータのアノテーションが、本当に正しいのか疑わしいデータが多かったです。

アノテーターは３人いて、１つの画像に対してそれぞれ違う領域を指定した場合は、それぞれの領域を結合したものを正解データとしたそうです。

つまり、３人いても同じ場所を指定しないこともあり、かなり主観的なアノテーションと言えます。

f:id:YukoIshizaki:20191113122804p:plain

バウンディングボックスなの？セグメンテーションマスクなの？

セグメンテーションマスクを提出する理由は、この雲の領域予測のデータを元にして、さらに分析をしたく、次の分析フェーズの都合上、セグメンテーションデータの方が便利だからだそうです。

しかし、人間が画像をアノテーションをする際には、矩形選択の方が作業負担が少ないために、このような形になったそうです。

少ないデータ

画像コンペとしては、データ数が少ないほうのコンペだったのではないでしょうか(多分)。

学習中も Overfit しやすかったです。また、終始 Public LB と local CV に相関を持たせることができませんでした。
一応、外部データは許可されていたので、データを増やすことも可能でした。しかし、有用な外部データは発見されなかった認識です。

また、NASAが出しているWorldViewという衛星写真が取れるものもあるのですが、あまり使われていないように思いました。
https://worldview.earthdata.nasa.gov/

f:id:YukoIshizaki:20191113155002p:plain

リークなし

全く同じデータがトレーニングデータとテストデータに含まれていることはなかったです。

画像から、地図上のどの場所を写しているかを判別することができるので、その情報を取り入れて精度をあげようとしていた人もいました。しかし、同じ場所でも数時間違うだけで雲のタイプは全く異なり、逆に精度が下がったそうです。

パズル要素もなく、リークなしコンペでした。

最終局面でのハイスコアコードの共有

コンペ終了の10日前ごろに、HengさんによってDiscussion上でハイスコアコードが共有されました。
このコードを使えば、銀メダル圏内(コード公開時のPublic LB)に入れるとのこと。

見かねた Kha さんが「Don't be a hero」という題名の「コードの共有はいいけど、タイミングを間違えないで！」といった内容の Discussion Topic をたててました。

私はなんか後ろめたい気持ちになりそうだな、と思って、そのコードを使うことはしませんでした。(言い訳)

反省点

ここからは個人的な反省文です。

1. 思いつきじゃうまくいかない？

コンペだから人と違うことをしなければ！と思い、オリジナルNNを実装してみたのですが、ことごとく精度は上がりませんでした。

オリジナルNNはほとんど思いつきで実装していて、例えると、レゴブロックを組み立てて自分の好きなようにお城を作っているような感じで、実装中はすごい楽しいです。

しかし、そのように作られたオリジナルNN は Vanilla U-net を超えることすらできなかったです。完全な思いつきのオリジナルNNを作るより、論文で紹介されているネットワーク構造を丁寧に真似した方が良いのかもしれない...と後から気づきました。

2. 試行回数が少ない？

Heng さんが Discussion 内で、「私は 80の実験をした」と言っていました。実験のカウントの仕方も色々ですが、私はオリジナルNN は 4パターンしか作れなかったです(しかも思いつきの変なやつ)。Optimizerは4種類、Lossは2種類です。

過去の塩コンペ優勝者のブログなどを見ても「だいたい 2ヶ月で 100本程度読んで実装してました。」とあり、私は明らかに試行回数が少なすぎました。

単純に試行回数を多くすることで、うまくいくモデル・パイプラインを作り出せる確率も上がるのではないでしょうか。

そして、多くの実験をするにはスピードを伴った実装力が必要ですが、まだ足りない部分だと痛感しました。

3. アイディア不足

Hengさんのハイスコアコードも、現在出ている雲コンペ 3位のソリューションも、私よりずっとアイディアに富んでいます。

こういった有用なアイディアは、知識と経験からくるものでしょうか。

画像認識の基本的な知識と最近の傾向をおさえつつ、いろんな画像コンペに出たり、画像コンペの上位陣の解法から学んで、様々なアイディアが出せるようなベースを作りたいな、と思いました。

まとめ

実装力をあげて沢山の実験が出来るようにする
画像認識の最新の動向を追う
画像コンペに出て経験を積む

こう書くと、恥ずかしくなるぐらい当たり前という...

しかし、多分、これが出来ていても「スタート地点に立てた」ぐらいで、さらに金を取ろうと思ったらもっと飛び抜けた何かが無いとダメな気もします。それが何かは今はわかりませんが、まずはスタート地点に立つことを目標にやっていきたいです。

終わり

反省は色々あるのですが、それでも初めての画像コンペで、学ぶものもあり楽しかったです。

次、良さそうな画像コンペが出たら、頑張ってリベンジしたいです。

www.kaggle.com

2019-11-14

なぜ疑似ラベルが効果的か調べてみた

機械学習

はじめに

なぜ疑似ラベル ( Pseudo-Label ) が効果的かを知るために、「Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks」を読んだので、内容を記載します。

http://deeplearning.net/wp-content/uploads/2013/03/pseudo_label_final.pdf

疑似ラベル ( Pseudo-Label ) とは

疑似ラベルを使った半教師あり学習の方法

1. ラベルづけされているデータで学習済みモデルを作る
2. 1.で作成したモデルを使って、ラベルづけされていないデータで予測値を出す
3. 2.の予測値を疑似的なラベル、疑似ラベルとし、疑似ラベルづきデータをラベルづきデータに混ぜて学習する

なぜうまくいくのか

Abstractを読むと「エントロピー正則化として作用するから」と書かれてました。

これだけだとよく分からなかったので、順を追って読んでみました。
多クラス分類問題を扱っています。

損失関数

損失関数を、ラベル付きデータと未ラベルデータで分けて表現すると、以下のように記載できます。
$n$ がラベル付きデータの個数で、 $n'$ が未ラベルデータの個数で、 $C$ がクラス数です。

$\displaystyle{L = \dfrac{1}{n}\sum_{m=1}^{n}\sum_{i=1}^{C}L(y_{i}^{m}, f_{i}^{m}) + \alpha(t) \dfrac{1}{n'}\sum_{m=1}^{n'}\sum_{i=1}^{C} L(y_{i}^{'m}, f_{i}^{'m})}$

第 1 項目がラベル付きデータのLoss、第 2 項目が未ラベルデータのLossで、その合計が全体のLossです。

ここで、未ラベルデータの疑似ラベルで、以下のように、ネットワークの出力の最大予測確率を持つクラスを選択します。

$y'_i= \begin{cases} 1 & \text{if $i = argmax_{i'} f_{i'}(x)$} \\ 0 & \text{otherwise} \end{cases}$

この損失関数の $\alpha(t)$ はバランスを取るための係数で、徐々に大きくなるようにスケジューリングする必要があるそうです。あまりにも高いと学習を阻害し、低すぎると疑似ラベルの恩恵を受けられなくなるのだそう。

エントロピー 正則化

エントロピー正則化は、エントロピーを最小化することで、クラス間の境界部分を低密度な状態 ( 境界にデータがあまりなくてが分類しやすい状態 ) にしてくれるそうです。
エントロピーは各クラスのデータのオーバーラップに対する評価値となります。

エントロピーは以下のように表されます。
$\displaystyle{H(y|x^{\prime})=-\dfrac{1}{n^{\prime}}\sum_{m=1}^{n^{\prime}} \sum_{i=1}^{C}P(y_{i}^{m} = 1 | x^{\prime m}) logP(y_{i}^{m}=1|x^{\prime m})}$

$n'$ : 未ラベルデータの個数
$C$ : クラスの個数
$x'_{\prime m}$ : 未ラベルデータ
$y_{i}^{m}$ : 未ラベルデータの疑似ラベル

先ほどの損失関数 (各 $L$ : 交差エントロピー誤差) の両辺に負の値をとり、損失関数の最小化問題をMAP推定 ( 事後確率を最大化するようなパラメータを推定する問題 ) に置き換えるため、先ほどのエントロピーの式も合わせて、以下のように書き直して考えます。

$\displaystyle{C(\theta, \lambda) = \sum_{m=1}^{n}logP(y^{m}|x^{m}; \theta) - \lambda H(y|x'; \theta)}$

これを最大化させるので、未ラベルデータのエントロピー（第2項）を最小化して、ラベル付きデータの対数尤度（第1項）を最大化することになり、ラベル付きデータだけの学習よりもパフォーマンスがよくなるそうです。

結果

MNISTのデータを使い、Pseudo-Labelを使ったものと使わなかったものとで、t-SNEにより比較しています。
確かに、Pseudo-Labelを使ったものの方が、各クラス間の境界部分が低密度な状態になっていると言えそうです。
f:id:YukoIshizaki:20191114113855p:plain:w300