SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
Copyright © TIS Inc. All rights reserved.
モデルではなく、データセットを蒸留する
戦略技術センター
久保隆宏
Dataset Distillation
Copyright © TIS Inc. All rights reserved. 2
◼ 論文のサマリ
◼ 「蒸留」の種別
◼ データセットを蒸留する手順
◼ 評価
◼ 所感
◼ 参考資料
目次
Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 戦略技術センター
◼ 化学系メーカーの業務コンサルタント出身
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動
◼ 現在は会計/投資の現場で使える要約の実現を目指し、まとめる観点を
指定した要約の作成に関する研究を行う。
自己紹介
kintoneアプリ内にたまった
データを簡単に学習・活用
(@Cybozu Days 2016)
チュートリアル講演:深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
Copyright © TIS Inc. All rights reserved. 4
Dataset Distillation
◼ モデル側ではなく、データセット側を蒸留した研究
◼ MNISTでは10件のデータで94%、CIFAR-10では100件で54%の精度
を達成
◼ 転移学習、また敵対的サンプルにも使えることを確認
◼ 転移学習: 蒸留しておいたデータを、数件学習させるだけで転移さ
せる
◼ 敵対的サンプル: モデルを誤らせるデータを蒸留することで、数件
でも破壊的忘却を引き起こすデータを作成する(dataset
poisoning)
◼ ただモデルの初期値に対する依存が若干あるため、汎用的に使えるか
は今後の検証が必要。
論文のサマリ
Copyright © TIS Inc. All rights reserved. 5
「蒸留」の種別 (1/2)
初期の「蒸留」の目的は、モデルのサイズの圧縮だった。「親」となるモ
デルを、より小さいサイズの「子」モデルへと変換するプロセスを「蒸
留」と呼んでいた。
その後、サイズの圧縮が目的でなくとも、「親」から「子」を作る手法が
全般的に「蒸留」と呼ばれるようになった。
◼ 「親」のモデルに手を加えて「子」を作る
◼ 枝刈り(Pruning)など
◼ 「親」を教師に「子」を学習する
◼ 半教師あり学習に近い形(親がつけたラベルで子を学習させる)
◼ 「親」からドメイン特化した「子」を作成する
◼ 転移学習に近い形
◼ 「親」から特定の性質を持つ「子」を作成する
◼ 敵対的サンプルへの抵抗力を上げるなど
Copyright © TIS Inc. All rights reserved. 6
「蒸留」の種別 (2/2)
"Data Distillation: Towards Omni-Supervised Learning"という非常に
タイトルが近い論文があるが、こちらは半教師あり学習に近い話。
本研究には、Active Learningのような学習データを選択する手法が近し
い。ただ、本研究は学習データを「サンプリング」するのではなく、「生
成」するという点で異なる。
生成された学習データ(Figure1 (a)より)
Copyright © TIS Inc. All rights reserved. 7
データセットを蒸留する手順 (1/4)
論文中では、1stepの学習からMulti stepへ拡張するという手順を取って
いる。1stepの手順は以下の通り。
1. 蒸留後データセット෤𝑥を初期化する(randomly)
2. 初期値の分布から、 j個の初期値をサンプリングする𝜃0
𝑗
3. 𝜃0
𝑗
と෤𝑥から勾配を計算し、適用することで学習後の重み𝜃1
𝑗
を作成する
4. 実際の学習データ(ミニバッチ= xt)と𝜃1
𝑗
で、Lossを計算する
5. 4のLossが小さくなるように、 ෤𝑥を学習する(この時の学習率は、Loss
の値から自動調整を行う)
Copyright © TIS Inc. All rights reserved. 8
データセットを蒸留する手順 (2/4)
෤𝑥 𝜃0
𝑗
𝜃1
𝑗
xt
学習は以下のように行われる(メタ学習に近い)。
gradient
gradient
Copyright © TIS Inc. All rights reserved. 9
データセットを蒸留する手順 (3/4)
෤𝑥 𝜃0
𝑗
𝜃1
𝑗
xt
Multi step: 𝜃 𝑗
の更新を複数回行う。
gradient
gradient
Copyright © TIS Inc. All rights reserved. 10
データセットを蒸留する手順 (4/4)
෤𝑥 𝜃0
𝑗
𝜃1
𝑗
xt
Multi epoch: ෤𝑥に対する更新を複数回行う。
gradient
gradient
Copyright © TIS Inc. All rights reserved. 11
評価 (1/3)
基本的にMulti-step、Multi-epochの方が良い。ただ、分散が収束しない
傾向が若干ある。
蒸留後の画像数も多い方が良いが、1stepだけだとほとんど効果が見られ
ない。
Copyright © TIS Inc. All rights reserved. 12
評価 (2/3)
同じ枚数で、ベースラインより高い精度が出せている。
ベースラインは、以下4つの手法。
◼ ランダムに選択した場合
◼ 学習効果の高かったTop20からランダムに選択
◼ k-meansでクラスタリングを行い、各クラスタのcentroidを使用
◼ 各カテゴリの画像の平均を取る
初期値は、ランダムに初期化する場合と、転移学習のようにFixされてい
る場合の2つで検証されている。
Copyright © TIS Inc. All rights reserved. 13
評価 (3/3)
転移学習については、各カテゴリ1枚の蒸留後データを使うだけでフル
セットを使った場合に近い効果が得られている。
敵対的サンプルでは、少ない画像数でMiss classficationを誘うことがで
きている(CIFARで顕著)。
Copyright © TIS Inc. All rights reserved. 14
データセット側を蒸留するのは、学習の効率化という意味でも夢がある。
◼ 蒸留後データを使えば、CPUでも学習できる?
◼ ダウンサイズしたモデルを蒸留後データで学習させるなど
どこまで数を減らせるのかについては興味がある(一応検証はされていた
が、実体とあまりあっていなかった=式8)。
論文中でも述べられていたが、ImageNetのようなより大規模のデータ
セット、また言語や音声といった他ドメインのデータについても検証結果
が見てみたい。
所感
Copyright © TIS Inc. All rights reserved. 15
◼ DeepX AI Blog:蒸留 第1回
参考資料
THANK YOU

Más contenido relacionado

La actualidad más candente

最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」西岡 賢一郎
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 

La actualidad más candente (20)

最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 

Similar a モデルではなく、データセットを蒸留する

ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築Takahiro Kubo
 
自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書Takahiro Kubo
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018Hisashi Nakayama
 
【会社概要資料】STC.pdf
【会社概要資料】STC.pdf【会社概要資料】STC.pdf
【会社概要資料】STC.pdfKosukeWada1
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介Takahiro Kubo
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
IT関連コストの最適化コンサルティング・サービス
IT関連コストの最適化コンサルティング・サービスIT関連コストの最適化コンサルティング・サービス
IT関連コストの最適化コンサルティング・サービスsinrock
 
Machine learningbootstrap For Business
Machine learningbootstrap For BusinessMachine learningbootstrap For Business
Machine learningbootstrap For BusinessTakahiro Kubo
 
情報システム部門の組織開発
 情報システム部門の組織開発 情報システム部門の組織開発
情報システム部門の組織開発Kazutaka Sankai
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋Issei Kurahashi
 
【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSP
【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSP【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSP
【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSPcloudconductor
 
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想scirexcenter
 
110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料kashima yasuyuki
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubJunya Kamura
 
ビフォーアフターで学ぶ データビジュアライゼーションの基本
ビフォーアフターで学ぶ データビジュアライゼーションの基本ビフォーアフターで学ぶ データビジュアライゼーションの基本
ビフォーアフターで学ぶ データビジュアライゼーションの基本Toshikuni Fuji
 
DOCOMO Innovations' investment tactics
DOCOMO Innovations' investment tacticsDOCOMO Innovations' investment tactics
DOCOMO Innovations' investment tacticsOsaka University
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発Takahiro Kubo
 

Similar a モデルではなく、データセットを蒸留する (20)

ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築
 
自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
 
【会社概要資料】STC.pdf
【会社概要資料】STC.pdf【会社概要資料】STC.pdf
【会社概要資料】STC.pdf
 
EMNLP2018 Overview
EMNLP2018 OverviewEMNLP2018 Overview
EMNLP2018 Overview
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイントSQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
 
IT関連コストの最適化コンサルティング・サービス
IT関連コストの最適化コンサルティング・サービスIT関連コストの最適化コンサルティング・サービス
IT関連コストの最適化コンサルティング・サービス
 
Machine learningbootstrap For Business
Machine learningbootstrap For BusinessMachine learningbootstrap For Business
Machine learningbootstrap For Business
 
情報システム部門の組織開発
 情報システム部門の組織開発 情報システム部門の組織開発
情報システム部門の組織開発
 
120620 ciopmo
120620 ciopmo120620 ciopmo
120620 ciopmo
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSP
【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSP【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSP
【オペレーションカンファレンス 2015 Spring】 LT 僕が考えるSIerにとってのMSP
 
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
 
110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料110518_本気で考える! I T人財育成研究部会 討議資料
110518_本気で考える! I T人財育成研究部会 討議資料
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hub
 
ビフォーアフターで学ぶ データビジュアライゼーションの基本
ビフォーアフターで学ぶ データビジュアライゼーションの基本ビフォーアフターで学ぶ データビジュアライゼーションの基本
ビフォーアフターで学ぶ データビジュアライゼーションの基本
 
DOCOMO Innovations' investment tactics
DOCOMO Innovations' investment tacticsDOCOMO Innovations' investment tactics
DOCOMO Innovations' investment tactics
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発
 

Más de Takahiro Kubo

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析Takahiro Kubo
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法Takahiro Kubo
 
自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かうTakahiro Kubo
 
財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けてTakahiro Kubo
 
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るarXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るTakahiro Kubo
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してTakahiro Kubo
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside BusinessTakahiro Kubo
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用Takahiro Kubo
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章Takahiro Kubo
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.Takahiro Kubo
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由Takahiro Kubo
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention NetworkTakahiro Kubo
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方Takahiro Kubo
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018Takahiro Kubo
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析Takahiro Kubo
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理Takahiro Kubo
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...Takahiro Kubo
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>Takahiro Kubo
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017Takahiro Kubo
 

Más de Takahiro Kubo (20)

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法
 
自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう
 
財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて
 
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るarXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside Business
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017
 

モデルではなく、データセットを蒸留する

  • 1. Copyright © TIS Inc. All rights reserved. モデルではなく、データセットを蒸留する 戦略技術センター 久保隆宏 Dataset Distillation
  • 2. Copyright © TIS Inc. All rights reserved. 2 ◼ 論文のサマリ ◼ 「蒸留」の種別 ◼ データセットを蒸留する手順 ◼ 評価 ◼ 所感 ◼ 参考資料 目次
  • 3. Copyright © TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 戦略技術センター ◼ 化学系メーカーの業務コンサルタント出身 ◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦 略技術センターへと異動 ◼ 現在は会計/投資の現場で使える要約の実現を目指し、まとめる観点を 指定した要約の作成に関する研究を行う。 自己紹介 kintoneアプリ内にたまった データを簡単に学習・活用 (@Cybozu Days 2016) チュートリアル講演:深層学習 の判断根拠を理解するための研 究とその意義(@PRMU 2017) 機械学習をシステムに組み込む 際の依存性管理について (@MANABIYA 2018)
  • 4. Copyright © TIS Inc. All rights reserved. 4 Dataset Distillation ◼ モデル側ではなく、データセット側を蒸留した研究 ◼ MNISTでは10件のデータで94%、CIFAR-10では100件で54%の精度 を達成 ◼ 転移学習、また敵対的サンプルにも使えることを確認 ◼ 転移学習: 蒸留しておいたデータを、数件学習させるだけで転移さ せる ◼ 敵対的サンプル: モデルを誤らせるデータを蒸留することで、数件 でも破壊的忘却を引き起こすデータを作成する(dataset poisoning) ◼ ただモデルの初期値に対する依存が若干あるため、汎用的に使えるか は今後の検証が必要。 論文のサマリ
  • 5. Copyright © TIS Inc. All rights reserved. 5 「蒸留」の種別 (1/2) 初期の「蒸留」の目的は、モデルのサイズの圧縮だった。「親」となるモ デルを、より小さいサイズの「子」モデルへと変換するプロセスを「蒸 留」と呼んでいた。 その後、サイズの圧縮が目的でなくとも、「親」から「子」を作る手法が 全般的に「蒸留」と呼ばれるようになった。 ◼ 「親」のモデルに手を加えて「子」を作る ◼ 枝刈り(Pruning)など ◼ 「親」を教師に「子」を学習する ◼ 半教師あり学習に近い形(親がつけたラベルで子を学習させる) ◼ 「親」からドメイン特化した「子」を作成する ◼ 転移学習に近い形 ◼ 「親」から特定の性質を持つ「子」を作成する ◼ 敵対的サンプルへの抵抗力を上げるなど
  • 6. Copyright © TIS Inc. All rights reserved. 6 「蒸留」の種別 (2/2) "Data Distillation: Towards Omni-Supervised Learning"という非常に タイトルが近い論文があるが、こちらは半教師あり学習に近い話。 本研究には、Active Learningのような学習データを選択する手法が近し い。ただ、本研究は学習データを「サンプリング」するのではなく、「生 成」するという点で異なる。 生成された学習データ(Figure1 (a)より)
  • 7. Copyright © TIS Inc. All rights reserved. 7 データセットを蒸留する手順 (1/4) 論文中では、1stepの学習からMulti stepへ拡張するという手順を取って いる。1stepの手順は以下の通り。 1. 蒸留後データセット෤𝑥を初期化する(randomly) 2. 初期値の分布から、 j個の初期値をサンプリングする𝜃0 𝑗 3. 𝜃0 𝑗 と෤𝑥から勾配を計算し、適用することで学習後の重み𝜃1 𝑗 を作成する 4. 実際の学習データ(ミニバッチ= xt)と𝜃1 𝑗 で、Lossを計算する 5. 4のLossが小さくなるように、 ෤𝑥を学習する(この時の学習率は、Loss の値から自動調整を行う)
  • 8. Copyright © TIS Inc. All rights reserved. 8 データセットを蒸留する手順 (2/4) ෤𝑥 𝜃0 𝑗 𝜃1 𝑗 xt 学習は以下のように行われる(メタ学習に近い)。 gradient gradient
  • 9. Copyright © TIS Inc. All rights reserved. 9 データセットを蒸留する手順 (3/4) ෤𝑥 𝜃0 𝑗 𝜃1 𝑗 xt Multi step: 𝜃 𝑗 の更新を複数回行う。 gradient gradient
  • 10. Copyright © TIS Inc. All rights reserved. 10 データセットを蒸留する手順 (4/4) ෤𝑥 𝜃0 𝑗 𝜃1 𝑗 xt Multi epoch: ෤𝑥に対する更新を複数回行う。 gradient gradient
  • 11. Copyright © TIS Inc. All rights reserved. 11 評価 (1/3) 基本的にMulti-step、Multi-epochの方が良い。ただ、分散が収束しない 傾向が若干ある。 蒸留後の画像数も多い方が良いが、1stepだけだとほとんど効果が見られ ない。
  • 12. Copyright © TIS Inc. All rights reserved. 12 評価 (2/3) 同じ枚数で、ベースラインより高い精度が出せている。 ベースラインは、以下4つの手法。 ◼ ランダムに選択した場合 ◼ 学習効果の高かったTop20からランダムに選択 ◼ k-meansでクラスタリングを行い、各クラスタのcentroidを使用 ◼ 各カテゴリの画像の平均を取る 初期値は、ランダムに初期化する場合と、転移学習のようにFixされてい る場合の2つで検証されている。
  • 13. Copyright © TIS Inc. All rights reserved. 13 評価 (3/3) 転移学習については、各カテゴリ1枚の蒸留後データを使うだけでフル セットを使った場合に近い効果が得られている。 敵対的サンプルでは、少ない画像数でMiss classficationを誘うことがで きている(CIFARで顕著)。
  • 14. Copyright © TIS Inc. All rights reserved. 14 データセット側を蒸留するのは、学習の効率化という意味でも夢がある。 ◼ 蒸留後データを使えば、CPUでも学習できる? ◼ ダウンサイズしたモデルを蒸留後データで学習させるなど どこまで数を減らせるのかについては興味がある(一応検証はされていた が、実体とあまりあっていなかった=式8)。 論文中でも述べられていたが、ImageNetのようなより大規模のデータ セット、また言語や音声といった他ドメインのデータについても検証結果 が見てみたい。 所感
  • 15. Copyright © TIS Inc. All rights reserved. 15 ◼ DeepX AI Blog:蒸留 第1回 参考資料