Más contenido relacionado
La actualidad más candente (20)
Similar a 【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos (15)
Más de Deep Learning JP (20)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos
- 1. DEEP LEARNING JP
[DL Papers]
Ego-Exo: Transferring Visual Representations
from Third-person to First-person Videos
(CVPR 2021) Yoshifumi Seki
http://deeplearning.jp/
- 2. 書誌情報
● 投稿先
○ CVPR 2021
● 投稿者
○ Facebook Research
● 選定理由
○ 現職がウェアラブルデバイスの会社
○ 1人称視点の映像をどう扱うかという
- 3. 背景・目的
● Egocentric Video (一人称視点の動画)のタスクいい感じに処理するための分
散表現を作りたい
● Egocentric Videoのデータセットの規模は小さいし多様ではない
● Exocentric Video (三人称視点の動画)はデータの規模が大きく多様
● Exocentric Videoの規模の大きいデータセットを活用してEgocentric Videoに
役立つ特徴量を作りたい
- 7. Traditional Pre-Training
● 大規模なThird Person VideoからPre-train Modelを作る
● データセットV_exo中のビデオvはT個のフレームf_1,...,f_Tをもつ
● フレームはN個のspatiotemporal clip feature x1,...,x_Nにencodeされる
● xはvideo encoder backbone (3D CNN)によってencodeされたモデル
○ c × t × h × w次元
● 各ビデオにはaction label y_actが与えられており、ビデオのx_*を平均化した
ものを入力して、y^_actを出力し、クロスエントロピーLossによって訓練す
る
○ ここのpool+fc層をheadと呼ぶ
- 9. Ego-Exo pre-training
● V_egoとV_exo両方を用いる
● 過去のegocentric under standingタスクにおけるモデルを用いる
● タスクτのモデルM_τにビデオを入力してラベルy_τを出力する
○ V_exoのビデオに各タスクに対してもこれで擬似ラベルを与える
● 各モデルに対するhead H^τに対してH^τ(v)とy_τとのauxilirary lossを計算し、
H^τを訓練する
- 10. Ego-task: Ego-Score
● Egocentricかそうでないかを判断するモデル
● Charades Egoという室内での物体とのインタラクションを行うデータセット
を用いて訓練してモデルを生成
○ このデータセットにはego, exo両方のデータが含まれる
○ 本来、同じ動きをego, exo両面から撮影したものであるが、こちらではそのペア情報は使わ
ない
● Third-personのデータセットに対してもモデルを通して擬似ラベルを出力す
る
○ 大規模なThird person videoデータセットの中にはegocentricなものも一定含まれている
- 17. データセット
● Kinetics-400
○ popular third-person dataset
○ ~300k video, 400 human action classes
● Charades-Ego
○ ~68k instances
○ 157 activity class
○ 第三者映像と主観映像のペアがあるが本研究では用いない
● EPIC-Kitchens
○ キッチンでの主観映像
○ 55時間のビデオ、39k action segmentets
○ 352 objectで125の動作がアノテーションされている
● EPIC-Kitchens-100
○ 100時間で90kのアクションに拡張
- 18. 比較手法
● Scrach: pre-trainをせず、ランダムな初期化によって直接fine-tuneをする
● Third-Only: pre-trainをKinetics 400で行う。
● First-Only: pre-trainをKitchen-100で行う
● Domain-adapt: first-personとthird-personでdomain adaptationを行った既存研
究
● Joint-embed: Kinetic-400でpre-trainした後、Charades-Egoでviewpoint-
invariant video modelを学習する
● Ego-Exo: pre-trainをKinetics400でやった後3つのタスクを学習する