SlideShare una empresa de Scribd logo
1 de 24
DEEP LEARNING JP
[DL Papers]
Ego-Exo: Transferring Visual Representations
from Third-person to First-person Videos
(CVPR 2021) Yoshifumi Seki
http://deeplearning.jp/
書誌情報
● 投稿先
○ CVPR 2021
● 投稿者
○ Facebook Research
● 選定理由
○ 現職がウェアラブルデバイスの会社
○ 1人称視点の映像をどう扱うかという
背景・目的
● Egocentric Video (一人称視点の動画)のタスクいい感じに処理するための分
散表現を作りたい
● Egocentric Videoのデータセットの規模は小さいし多様ではない
● Exocentric Video (三人称視点の動画)はデータの規模が大きく多様
● Exocentric Videoの規模の大きいデータセットを活用してEgocentric Videoに
役立つ特徴量を作りたい
Key Idea
● Third-personな動画セットにも
first-personっぽい映像の要素が
あるはず
○ それをいい感じに取り出していい感
じにしたい
● 複数のfirst-personタスクで蒸留
する
Framework Overview
Framework Overview
Traditional Pre-Training
● 大規模なThird Person VideoからPre-train Modelを作る
● データセットV_exo中のビデオvはT個のフレームf_1,...,f_Tをもつ
● フレームはN個のspatiotemporal clip feature x1,...,x_Nにencodeされる
● xはvideo encoder backbone (3D CNN)によってencodeされたモデル
○ c × t × h × w次元
● 各ビデオにはaction label y_actが与えられており、ビデオのx_*を平均化した
ものを入力して、y^_actを出力し、クロスエントロピーLossによって訓練す
る
○ ここのpool+fc層をheadと呼ぶ
Framework Overview
Ego-Exo pre-training
● V_egoとV_exo両方を用いる
● 過去のegocentric under standingタスクにおけるモデルを用いる
● タスクτのモデルM_τにビデオを入力してラベルy_τを出力する
○ V_exoのビデオに各タスクに対してもこれで擬似ラベルを与える
● 各モデルに対するhead H^τに対してH^τ(v)とy_τとのauxilirary lossを計算し、
H^τを訓練する
Ego-task: Ego-Score
● Egocentricかそうでないかを判断するモデル
● Charades Egoという室内での物体とのインタラクションを行うデータセット
を用いて訓練してモデルを生成
○ このデータセットにはego, exo両方のデータが含まれる
○ 本来、同じ動きをego, exo両面から撮影したものであるが、こちらではそのペア情報は使わ
ない
● Third-personのデータセットに対してもモデルを通して擬似ラベルを出力す
る
○ 大規模なThird person videoデータセットの中にはegocentricなものも一定含まれている
Ego-task: Ego-Score
Ego-task: Object-Score
● 操作しているオブジェクトを特定するタスク
● Egocentric Videoにおける最も一般的なタスク
● シンプルにフレームごとにImageNetを使って予測
Ego-Task: Interaction-Map
● 物体を操作しているregionを特定する
● 既存研究のhand object detectorを用いる
○ 各フレームに対してbounding box bとconfidence score sのセットを出力する
● β_i,j: i, jのgrid cellに対してまたがっているbounding box
Ego-Task: Interaction-Map
● 各領域i, jに対してy^h, y^oを出力する
Ego-Task: Interaction-Map
● なぜ通常の既存研究で用いられているbounding boxではなく、Interaction
Mapを生成したのか?
○ 既存研究のnetworkはstandardなvideo backboneと可換性がない
■ 既存研究は特化したnetworkで構築されていて、高解像度なデータでのみ利用可能
○ mapにおけるscoreを出力によって学習する方が、representationを学習するためには良
い
■ 多分学習しやすい、みたいな意図かなぁと推測
Ego-Exo training and evaluation
● Third-personのビデオで手が映ってなかったり物体とのインタラクションが
ないものがあるが、それも学習に寄与する
データセット
● Kinetics-400
○ popular third-person dataset
○ ~300k video, 400 human action classes
● Charades-Ego
○ ~68k instances
○ 157 activity class
○ 第三者映像と主観映像のペアがあるが本研究では用いない
● EPIC-Kitchens
○ キッチンでの主観映像
○ 55時間のビデオ、39k action segmentets
○ 352 objectで125の動作がアノテーションされている
● EPIC-Kitchens-100
○ 100時間で90kのアクションに拡張
比較手法
● Scrach: pre-trainをせず、ランダムな初期化によって直接fine-tuneをする
● Third-Only: pre-trainをKinetics 400で行う。
● First-Only: pre-trainをKitchen-100で行う
● Domain-adapt: first-personとthird-personでdomain adaptationを行った既存研
究
● Joint-embed: Kinetic-400でpre-trainした後、Charades-Egoでviewpoint-
invariant video modelを学習する
● Ego-Exo: pre-trainをKinetics400でやった後3つのタスクを学習する
Ablation Study
● SOTAのモデルはもっとたくさんの特徴量を使っている(audio, flow)
まとめ
● 第三者視点映像を使って主観視点映像のスコアを向上させるための汎用的な
分散表現を獲得しようという試み
● first-person view周りの取り組みについてちゃんとよんだのは初めてだったの
で勉強になった
● 精度が上がったことはわかったけど、これが汎用的な表現なのか?という点
については疑問が残る

Más contenido relacionado

La actualidad más candente

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 

La actualidad más candente (20)

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
[DL輪読会]SoftTriple Loss: Deep Metric Learning Without Triplet Sampling (ICCV2019)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Similar a 【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos

勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
Atsushi Suzuki
 

Similar a 【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos (15)

【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
 
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
 
【 #Unity会 】このUnityがすごい2015年版
【 #Unity会 】このUnityがすごい2015年版【 #Unity会 】このUnityがすごい2015年版
【 #Unity会 】このUnityがすごい2015年版
 
勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
 
【Unity道場 建築スペシャル】はじめてのUnity
【Unity道場 建築スペシャル】はじめてのUnity【Unity道場 建築スペシャル】はじめてのUnity
【Unity道場 建築スペシャル】はじめてのUnity
 
初めてのVR/AR開発をUnityで
初めてのVR/AR開発をUnityで初めてのVR/AR開発をUnityで
初めてのVR/AR開発をUnityで
 
201010 evolving losses_for_unsupervised_video_representation_learning
201010 evolving losses_for_unsupervised_video_representation_learning201010 evolving losses_for_unsupervised_video_representation_learning
201010 evolving losses_for_unsupervised_video_representation_learning
 
可視化法学(Found it project#9)
可視化法学(Found it project#9)可視化法学(Found it project#9)
可視化法学(Found it project#9)
 
How to inspect complete scenes with Unity?
How to inspect complete scenes with Unity?How to inspect complete scenes with Unity?
How to inspect complete scenes with Unity?
 
Obaa chan in the cloud
Obaa chan in the cloud Obaa chan in the cloud
Obaa chan in the cloud
 
Xtextハンズオン(仮)
Xtextハンズオン(仮)Xtextハンズオン(仮)
Xtextハンズオン(仮)
 
UniteJapan2013「プレイアブルプランニングのススメ」
UniteJapan2013「プレイアブルプランニングのススメ」UniteJapan2013「プレイアブルプランニングのススメ」
UniteJapan2013「プレイアブルプランニングのススメ」
 
HoloLensでImage-Based Lightingを試してみた話
HoloLensでImage-Based Lightingを試してみた話HoloLensでImage-Based Lightingを試してみた話
HoloLensでImage-Based Lightingを試してみた話
 
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
[db analytics showcase Sapporo 2018] A33 AI社内実装の試み~ソニーNNCを非技術者に使わせてみる~
 
チラ見せ♡ナイト@20150410 LT公開用
チラ見せ♡ナイト@20150410 LT公開用チラ見せ♡ナイト@20150410 LT公開用
チラ見せ♡ナイト@20150410 LT公開用
 

Más de Deep Learning JP

Más de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos