SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Mobility Technologies Co., Ltd.
MLP-Mixer: An all-MLP Architecture for Vision
2021/05/14
宮澤 一之
Mobility Technologies Co., Ltd.
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
論文情報
3
arXiv: https://arxiv.org/abs/2105.01601
■ Google Research
■ 2021年5月4日arXiv投稿
■ 著者の多くがViT論文と重複(赤下線)
Mobility Technologies Co., Ltd.
概要
4
convolutionもattentionも使わずMLPのみで画像分類のSoTAに匹敵する精度を達成
https://youtu.be/7K4Z8RqjWIk
Mobility Technologies Co., Ltd.
アーキテクチャ
5
Mobility Technologies Co., Ltd.
アーキテクチャ
6
ViTと同様に画像をパッチ
(e.g. 16x16)に分割
Mobility Technologies Co., Ltd.
アーキテクチャ
7
パッチごとのlinear
embeddings(token)
Mobility Technologies Co., Ltd.
アーキテクチャ
8
Mixer Layer(後述)の
繰り返し
Mobility Technologies Co., Ltd.
アーキテクチャ
9
クラス分類
Mobility Technologies Co., Ltd.
Mixer Layer
10
各パッチのembeddingを縦方向に並べたテーブル
Mobility Technologies Co., Ltd.
Mixer Layer
11
token-mixing MLP block
■ 入力テーブルの各列(チャネル)に独立にMLPを適用
■ 全てのチャネルに対してMLPの重みは共通
■ 異なる空間位置の間で特徴量を混合する役目
■ toxen-mixing MLPは入力tokenの順序にセンシティブなため、ViTのようなposition
embeddingsがなくても位置情報を学習できる
Mobility Technologies Co., Ltd.
Mixer Layer
12
channel-mixing MLP block
■ 入力テーブルの各行(パッチ)に独立にMLPを適用
■ 全てのパッチに対してMLPの重みは共通
■ 異なるチャネルの間で特徴量を混合する役目
Mobility Technologies Co., Ltd.
convolutionとの関係
13
1 x 1 convolutionと同等
single-channel depth-wise convolutionと同等
■ MixerはCNNの特殊ケースとみなすことができる
■ channel-mixing MLPでのweight sharingにより位置不変性を獲得
■ token-mixing MLPでチャネル間でweight sharingするのはCNNではあまり一般的でな
いが*モデルが大きくなった際のメモリ使用量削減に大きな効果を発揮
* separable convolutionでは各チャネルに独立にconvolutionを適用するが、カーネルが各チャネルで異なる
token-mixing MLP block channel-mixing MLP block
Mobility Technologies Co., Ltd.
■ 中〜大規模なデータセットでpre-trainingを行い、小〜中規模なデータセットに
finetuningして画像分類の性能を評価
■ 性能評価尺度
■ 画像分類の精度
■ pre-trainingに要する時間
■ 推論のスループット
■ 実装スペック
実験
14
参考:ViTのスペック
Mobility Technologies Co., Ltd.
実験結果
15
MLP-Mixer
convolution-based models
attention-based models
SoTAには及ばないが、SoTAに匹敵する精度を低い計算コストで実現している
Mobility Technologies Co., Ltd.
pre-trainingに要する時間 vs 精度
16
他のSoTAモデルと並び、Mixerは
Pareto frontier上にある
Mobility Technologies Co., Ltd.
pre-trainingのデータセットサイズ vs 精度
17
■ ResNetやViTと比較してMixerはデータセッ
トサイズを大きくすることによる精度向上
が顕著
■ データセットサイズを大きくすることでViT
との性能差も小さくなっていく
■ MixerはViTよりもpre-trainingのデータセッ
トサイズの恩恵を受けやすい
■ inductive biaseの違い?(ViTの
self-attentionで獲得される特性の方
が真の分布に対するcompatibilityが
低い)
Mobility Technologies Co., Ltd.
モデルサイズ vs 精度/スループット
18
モデルサイズを大きくすればMixer
はPareto frontierに乗る
Mobility Technologies Co., Ltd.
token-mixing MLPのweightの可視化
19
1st layer 2nd layer 3rd layer
Mobility Technologies Co., Ltd.
■ ViTを踏襲し、convolutionもattentionも使わずMLP-onlyなシンプルなアーキテクチャで
SoTAに匹敵する画像分類性能を達成
■ 精度のみではSoTAに及ばないが、精度 vs 計算コストを考えるとPareto frontier上に
ある
■ attentionを使うViTは入力パッチ数の2乗に比例して演算量が増えるが、Mixerは線形
に抑えられる
■ pre-trainingのデータセットサイズに対するスケーラビリティが高い
まとめ
20
Mobility Technologies Co., Ltd.
■ 公式 https://github.com/google-research/vision_transformer
■ timm https://github.com/rwightman/pytorch-image-models
実装
21
Mobility Technologies Co., Ltd.
なぜか同時多発的に類似論文がarXivに登場
■ 5/4
MLP-Mixer: An all-MLP Architecture for Vision
■ 5/6
Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well
on ImageNet
■ 5/7
ResMLP: Feedforward networks for image classification with data-efficient training
おまけ
22
Mobility Technologies Co., Ltd.
23
Mobility Technologies Co., Ltd.
24
Mobility Technologies Co., Ltd.
We're Hiring!
25
https://hrmos.co/pages/mo-t/jobs
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
26

Más contenido relacionado

La actualidad más candente

近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical ReportDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces UnderfittingDeep Learning JP
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...Deep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural RepresentationsDeep Learning JP
 

La actualidad más candente (20)

近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report【DL輪読会】GPT-4Technical Report
【DL輪読会】GPT-4Technical Report
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
CVPR 2019 速報
CVPR 2019 速報CVPR 2019 速報
CVPR 2019 速報
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autono...
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 

Similar a MLP-Mixer: An all-MLP Architecture for Vision

Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021Ryo Kabutan
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility TechnologiesKazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Kazuyuki Miyazawa
 
MLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考えるMLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考えるTakashi Suzuki
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場からKohei Kojima
 
05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料wagatuma
 
LLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfAkira Shibata
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際Tetsutaro Watanabe
 
IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1Koyo Takenoshita
 
API ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリAPI ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリYoshitaka Seo
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出Tetsutaro Watanabe
 
Swift for pose-estimation
Swift for pose-estimationSwift for pose-estimation
Swift for pose-estimationmana o2
 
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!Arata Fujimura
 
それは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower Automateそれは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower AutomateTomoyuki Obi
 

Similar a MLP-Mixer: An all-MLP Architecture for Vision (20)

Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021
 
UnityとROSの連携について
UnityとROSの連携についてUnityとROSの連携について
UnityとROSの連携について
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
MLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考えるMLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考える
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
 
Smfl20201001
Smfl20201001Smfl20201001
Smfl20201001
 
拡散する画像生成.pdf
拡散する画像生成.pdf拡散する画像生成.pdf
拡散する画像生成.pdf
 
05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料
 
LLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdf
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
 
IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1
 
最弱オセロ
最弱オセロ最弱オセロ
最弱オセロ
 
最弱オセロ
最弱オセロ最弱オセロ
最弱オセロ
 
API ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリAPI ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリ
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
 
Swift for pose-estimation
Swift for pose-estimationSwift for pose-estimation
Swift for pose-estimation
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
 
それは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower Automateそれは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower Automate
 

Más de Kazuyuki Miyazawa

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...Kazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact DetectionKazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 

Más de Kazuyuki Miyazawa (11)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

MLP-Mixer: An all-MLP Architecture for Vision

  • 1. Mobility Technologies Co., Ltd. MLP-Mixer: An all-MLP Architecture for Vision 2021/05/14 宮澤 一之
  • 2. Mobility Technologies Co., Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. 論文情報 3 arXiv: https://arxiv.org/abs/2105.01601 ■ Google Research ■ 2021年5月4日arXiv投稿 ■ 著者の多くがViT論文と重複(赤下線)
  • 4. Mobility Technologies Co., Ltd. 概要 4 convolutionもattentionも使わずMLPのみで画像分類のSoTAに匹敵する精度を達成 https://youtu.be/7K4Z8RqjWIk
  • 5. Mobility Technologies Co., Ltd. アーキテクチャ 5
  • 6. Mobility Technologies Co., Ltd. アーキテクチャ 6 ViTと同様に画像をパッチ (e.g. 16x16)に分割
  • 7. Mobility Technologies Co., Ltd. アーキテクチャ 7 パッチごとのlinear embeddings(token)
  • 8. Mobility Technologies Co., Ltd. アーキテクチャ 8 Mixer Layer(後述)の 繰り返し
  • 9. Mobility Technologies Co., Ltd. アーキテクチャ 9 クラス分類
  • 10. Mobility Technologies Co., Ltd. Mixer Layer 10 各パッチのembeddingを縦方向に並べたテーブル
  • 11. Mobility Technologies Co., Ltd. Mixer Layer 11 token-mixing MLP block ■ 入力テーブルの各列(チャネル)に独立にMLPを適用 ■ 全てのチャネルに対してMLPの重みは共通 ■ 異なる空間位置の間で特徴量を混合する役目 ■ toxen-mixing MLPは入力tokenの順序にセンシティブなため、ViTのようなposition embeddingsがなくても位置情報を学習できる
  • 12. Mobility Technologies Co., Ltd. Mixer Layer 12 channel-mixing MLP block ■ 入力テーブルの各行(パッチ)に独立にMLPを適用 ■ 全てのパッチに対してMLPの重みは共通 ■ 異なるチャネルの間で特徴量を混合する役目
  • 13. Mobility Technologies Co., Ltd. convolutionとの関係 13 1 x 1 convolutionと同等 single-channel depth-wise convolutionと同等 ■ MixerはCNNの特殊ケースとみなすことができる ■ channel-mixing MLPでのweight sharingにより位置不変性を獲得 ■ token-mixing MLPでチャネル間でweight sharingするのはCNNではあまり一般的でな いが*モデルが大きくなった際のメモリ使用量削減に大きな効果を発揮 * separable convolutionでは各チャネルに独立にconvolutionを適用するが、カーネルが各チャネルで異なる token-mixing MLP block channel-mixing MLP block
  • 14. Mobility Technologies Co., Ltd. ■ 中〜大規模なデータセットでpre-trainingを行い、小〜中規模なデータセットに finetuningして画像分類の性能を評価 ■ 性能評価尺度 ■ 画像分類の精度 ■ pre-trainingに要する時間 ■ 推論のスループット ■ 実装スペック 実験 14 参考:ViTのスペック
  • 15. Mobility Technologies Co., Ltd. 実験結果 15 MLP-Mixer convolution-based models attention-based models SoTAには及ばないが、SoTAに匹敵する精度を低い計算コストで実現している
  • 16. Mobility Technologies Co., Ltd. pre-trainingに要する時間 vs 精度 16 他のSoTAモデルと並び、Mixerは Pareto frontier上にある
  • 17. Mobility Technologies Co., Ltd. pre-trainingのデータセットサイズ vs 精度 17 ■ ResNetやViTと比較してMixerはデータセッ トサイズを大きくすることによる精度向上 が顕著 ■ データセットサイズを大きくすることでViT との性能差も小さくなっていく ■ MixerはViTよりもpre-trainingのデータセッ トサイズの恩恵を受けやすい ■ inductive biaseの違い?(ViTの self-attentionで獲得される特性の方 が真の分布に対するcompatibilityが 低い)
  • 18. Mobility Technologies Co., Ltd. モデルサイズ vs 精度/スループット 18 モデルサイズを大きくすればMixer はPareto frontierに乗る
  • 19. Mobility Technologies Co., Ltd. token-mixing MLPのweightの可視化 19 1st layer 2nd layer 3rd layer
  • 20. Mobility Technologies Co., Ltd. ■ ViTを踏襲し、convolutionもattentionも使わずMLP-onlyなシンプルなアーキテクチャで SoTAに匹敵する画像分類性能を達成 ■ 精度のみではSoTAに及ばないが、精度 vs 計算コストを考えるとPareto frontier上に ある ■ attentionを使うViTは入力パッチ数の2乗に比例して演算量が増えるが、Mixerは線形 に抑えられる ■ pre-trainingのデータセットサイズに対するスケーラビリティが高い まとめ 20
  • 21. Mobility Technologies Co., Ltd. ■ 公式 https://github.com/google-research/vision_transformer ■ timm https://github.com/rwightman/pytorch-image-models 実装 21
  • 22. Mobility Technologies Co., Ltd. なぜか同時多発的に類似論文がarXivに登場 ■ 5/4 MLP-Mixer: An all-MLP Architecture for Vision ■ 5/6 Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet ■ 5/7 ResMLP: Feedforward networks for image classification with data-efficient training おまけ 22
  • 25. Mobility Technologies Co., Ltd. We're Hiring! 25 https://hrmos.co/pages/mo-t/jobs