PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築

Hydra + MLFlow + Optuna
base on pytorch-lightning

モデル開発の効率化のポイント
• 訓練データの管理
• 元データから訓練データの生成とその特徴の把握を容易
にする
• ハイパーパラメータ探索効率化
• モデルやデータごとに異なるパラメータ群の管理
• 探索手法の導入
• モデル構築のテンプレート化
• モデル実装時間を短くする
• 既存モデルを使いまわせるようにする
• 学習結果の保存・可視化
• 学習結果とハイパーパラメタ、モデルを結び付けられる
• 結果や学習過程の可視化によって把握を容易にする

PyTorchLightning, Hydra, MLFlow, Optunaの導入
特徴分析
訓練データ生成
訓練・評価データ
パラメータ探索
データ
パラメータ
学習済モデル
モデル
訓練
重みデータ訓練過程データ訓練結果
モデル実装
テンプレート
パラメータ管理
モデル保存
保存・可視化
保存・可視化
比較
訓練データ管理
モデル観測
(再学習)
MLFlow
Hydra
Optuna
pytorch-lightning

trial.suggest_hoge()
Model_A_PS
プログラムフォルダ構成
dataset.py
RootDir
config datasrc mlruns
model utils
Model A
modules.py
Model_A
model
module
forward()
training_step()
validation_step()
test_step()
configure_optimizer()
module
module
model
config.yaml
defaults
- model: default
- data: default
- trainer: default
- callbacks: default
data
trainer
callbacks
default.yaml
config.py
dataset.py
Dataset
DataModule
sample_data
train
val
test
other_data
Model B
module
model.py
opruns
study.optimize()
AD_PS.py
Trainer()
callbacks
AD.py
model
model

サンプルコードを以下に公開
https://github.com/k4noinfo/PytorchLightning_Hydra_MLFlow_Optuna.git

概要
• pytorch 用フレームワーク
• tensorflow における Keras のようなもの
• 主な構成
• pl.LightningModule: ネットワーク構成とloss計算等のモ
ジュール
• pl.DataModule: dataloaderを準備するモジュール
• pl.Trainer: model とデータ、callback 処理を管理・実行
• callbacks
• Logger: csv, tensorboard, mlflow などロガー処理
• ModelCheckpoint: モデル保存処理
• EarlyStopping: 早期終了処理
• ProgressBar: 実行状況表示

構成
Model(pl.LightningModule
)
moduleA(torch.nn.Module
)
network
forward()
network
net = moduleA()
main
def __init__():
model = Model()
check = ModelCheckpoint()
logger = Logger()
stopping = EarlyStopping()
trainer =
Trainer(model,
logger,
callbacks=[check, stopping])
def train(dataloader, datamodule):
trainer.fit(model, datamodule)
def train_from(dataloader, datamodule):
trainer =
Trainer(resume_frome_ckpt=ckpt,...)
trainer.fit(model, datamodule)
def test(dataloader, datamodule):
def get_anomaly_detection(dl, dm):
def forward(x):
y = net(x)
def training_step(batch):
x,_ = batch
x_hat = self(x)
loss = F.loss(x_hat,x)
self.log(‘loss’,loss)
return loss
def validation_step(batch):
x, _ = batch
x_hat = self(x)
loss = F.loss(x_hat, x)
self.log(‘val_loss, loss)
def test_step(batch):
def configure_optimizer():
return torch.optim.Adam()
logger に保存
logger に保存
moduleB(torch.nn.Module
)
network
forward()
MLFlow などの学習経過保存Callback
モデル保存Callback
早期終了Callback
def {train|val|test}_step :
batch 単位の処理を記述。
def {train|val|test}_epoch_end:
epoch 終了後にHookされる関数
multi GPU を想定しているぽい
訓練後の処理は、いろいろ考える
とtest_step 関数内で処理しておく
のが pytorch-lightning のメリットも
利用できてよさそう

メモ
• 訓練後の処理をGPUの有無とか考えないでも行う
のであれば、test_step 関数の中で行うのがよさそ
う
• ModelCheckpoint callback で任意のfolderに保存する
には、dir_path などで指定するのがよさそう。
• Trainer.test を実行するとき resume_from_ckpt を使
用して resume したあとだと、なぜか resume して
から実行しようとするため、resume 後に fit を実行
すると best ではない、model で test を実行してし
まうか、ckpt ファイルがないとエラーが出るので
注意

Hydra
pytorch-lightning と Hydra が統合するかもしれないだと...

概要
• フォルダ+yamlファイルで管理
• パラメータの上書きは、コマンドラインのオプション
だけでなく、jupyter などからも可能
• メリット
• フォルダ+yamlファイルで階層的に管理
• model.train.batch_size という定義が可能
• configからインスタンス作成も可能
• 他の設定を参照定義できる
• デメリット
• list や dic 形式は Omegalist や Omegadict という独自形式
• インスタンスは sys.path が通っているところから宣言が必要
• 上書きする際には参照関係を認識する必要がある
model
data
autoencoder.yaml
vea.yaml
eeg.yaml
階層的管理イメージ

実装メモ
• initialize は複数回行うとエラーが起きるため、
GlobalHydra.instance() をクリアする必要がある
from hydra.core.global_hydra import GlobalHydra
GlobalHydra.instance().clear()
• 基本yaml形式での定義なので、ファイル内での階層化は可能
• ただし、統合するときに各ファイルの先頭に # @package _global_ が必要。
そうしないとサブグループとして読み込まれる
• list や dict データを取得には以下の変換が必要
OmegaConf.to_container(cfg.hoge)
• 要素hogeがlistかどうかのチェック
OmegaConf.is_list(cfg.hoge)
• 要素を直接呼び出した場合には、参照は補完されるが、上位要素
からだと補完されないため以下の処理が必要
OmegaConf.to_container(cfg, resolve=True)
• study.optimize の n_jobs を実行する際には MLFlowLogger などで注
意が必要. sqlite3 への保存だけにしたらいいのかな？

概要
• mlflow をインストール
• プログラム中に以下を加える
• pl.logger.MLFlowLogger を作成
• pl.Trainer に logger として渡す。
• あとは、プログラム中の pl.LightningModule.log 関数を実行した
metric が保存される
• model を保存する場合
• callback クラスの ModelCheckpoint の dir_path に logger のフォルダを
わたす。フォルダは logger のインスタンスが生成されていれば、
logger.save_dir, logger.experience_id, logger.run_id などで構成可能
• MLFlowLogger に autolog() があるが、これだと、モデルが最後
に訓練された状態でしか保存されない様子
• 保存データの確認方法
• プロジェクトフォルダに移動 (defaultの保存先: ./mlruns)
% mflow ui --backend-store-uri <logger.save_dir>

その他の実験結果管理ツール
• tensorflowboard
• WandB
• ネットワークの重みの状態の可視化も行えるようす
• 実験終了後にメールを送る機能もあるらしい
• Comet.ml
• 実験コード(jupyter notebookも)保存可能

trial.suggest_hoge()
Model_A_PS
study.optimize()
AD_PS.py
プログラムフォルダ構成
dataset.py
RootDir
config datasrc mlruns
model utils
Model A
modules.py
Model_A
model
module
forward()
training_step()
validation_step()
test_step()
configure_optimizer()
module
module
model
config.yaml
defaults
- model: default
- data: default
- trainer: default
- callbacks: default
data
trainer
callbacks
default.yaml
config.py
dataset.py
Dataset
DataModule
sample_data
train
val
test
other_data
Model B
Trainer()
callbacks
AD.py
module
model.py
opruns
def __init__(self, config, trial):
config.hoge = trial.suggest_int(‘hoge’,1,10)
config.optimizer.lr = trial.suggest_float(‘optimizer.lr’,0.01,0.1,log=True)
super(main.__class__, self).__init__(config)
検討したいパラメータはモデルごとに異なるため元モデルクラスを継承
def __init__(self, config, trial):
pruner = optuna.pruners.MedianPruner()
self.study = optuna.create_study(pruner, ...)
def do_optimize(self):
self.study.optimize(self.objective, ...)
def objective(self, trial):
model = Model()
metrics = MetricCallbacks()
trainer = Trainer(..., callbacks=[metrics, ...])
trainer.fit(model, data)
探索用関数が必要なため、別クラスとして実装
model
model
Sqlite3 形式で経過を保存可能
MLFlow を使わないほうがよさげ

概要
• 定義
• optuna.study で探索手法、データ保存
• optuna.study.optimize で探索を実行
• データ保存は sqlite3 を利用
• optuna.Trial.suggest_hoge で探索空間を定義
• optuna-dashboard をインストールすることで、
保存したDBから経過を確認可能。
• ただ、リアルタイムに更新してくれず、optuna-
dashboard を再起動しないとグラフが更新されない
のはなぜ？

実装上の注意
• Sqlite3 をインストールしてなくても保存できて
いるように見えるが、実際にはインストール後
しかデータが確認できなかった。フォルダの場
所の自由度は少なそう...
• optuna.logging.get_logger("optuna").addHandler(logging.StreamHandler(sys.stdout))
• create_study(pruner, storage=‘sqlite:///<フォルダ名>/hoge.db) ※ パラメータは config に記述
• optuna の保存フォルダを指定した場合に、
フォルダを自動作成してくれないので、自分で
準備すること
• 現時点(2021/01)では、optuna-dashboard よりは、
visualize 以下の関数で表示した内容のほうがわ
かりやすそう

PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Kosuke Shinoda

More from Kosuke Shinoda (6)

PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築