【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos

DEEP LEARNING JP
[DL Papers]
Ego-Exo: Transferring Visual Representations
from Third-person to First-person Videos
(CVPR 2021) Yoshifumi Seki
http://deeplearning.jp/

書誌情報
● 投稿先
○ CVPR 2021
● 投稿者
○ Facebook Research
● 選定理由
○ 現職がウェアラブルデバイスの会社
○ 1人称視点の映像をどう扱うかという

背景・目的
● Egocentric Video (一人称視点の動画)のタスクいい感じに処理するための分
散表現を作りたい
● Egocentric Videoのデータセットの規模は小さいし多様ではない
● Exocentric Video (三人称視点の動画)はデータの規模が大きく多様
● Exocentric Videoの規模の大きいデータセットを活用してEgocentric Videoに
役立つ特徴量を作りたい

Key Idea
● Third-personな動画セットにも
first-personっぽい映像の要素が
あるはず
○ それをいい感じに取り出していい感
じにしたい
● 複数のfirst-personタスクで蒸留
する

Traditional Pre-Training
● 大規模なThird Person VideoからPre-train Modelを作る
● データセットV_exo中のビデオvはT個のフレームf_1,...,f_Tをもつ
● フレームはN個のspatiotemporal clip feature x1,...,x_Nにencodeされる
● xはvideo encoder backbone (3D CNN)によってencodeされたモデル
○ c × t × h × w次元
● 各ビデオにはaction label y_actが与えられており、ビデオのx_*を平均化した
ものを入力して、y^_actを出力し、クロスエントロピーLossによって訓練す
る
○ ここのpool+fc層をheadと呼ぶ

Ego-Exo pre-training
● V_egoとV_exo両方を用いる
● 過去のegocentric under standingタスクにおけるモデルを用いる
● タスクτのモデルM_τにビデオを入力してラベルy_τを出力する
○ V_exoのビデオに各タスクに対してもこれで擬似ラベルを与える
● 各モデルに対するhead H^τに対してH^τ(v)とy_τとのauxilirary lossを計算し、
H^τを訓練する

Ego-task: Ego-Score
● Egocentricかそうでないかを判断するモデル
● Charades Egoという室内での物体とのインタラクションを行うデータセット
を用いて訓練してモデルを生成
○ このデータセットにはego, exo両方のデータが含まれる
○ 本来、同じ動きをego, exo両面から撮影したものであるが、こちらではそのペア情報は使わ
ない
● Third-personのデータセットに対してもモデルを通して擬似ラベルを出力す
る
○ 大規模なThird person videoデータセットの中にはegocentricなものも一定含まれている

Ego-task: Object-Score
● 操作しているオブジェクトを特定するタスク
● Egocentric Videoにおける最も一般的なタスク
● シンプルにフレームごとにImageNetを使って予測

Ego-Task: Interaction-Map
● 物体を操作しているregionを特定する
● 既存研究のhand object detectorを用いる
○ 各フレームに対してbounding box bとconfidence score sのセットを出力する
● β_i,j: i, jのgrid cellに対してまたがっているbounding box

● 各領域i, jに対してy^h, y^oを出力する

● なぜ通常の既存研究で用いられているbounding boxではなく、Interaction
Mapを生成したのか？
○ 既存研究のnetworkはstandardなvideo backboneと可換性がない
■ 既存研究は特化したnetworkで構築されていて、高解像度なデータでのみ利用可能
○ mapにおけるscoreを出力によって学習する方が、representationを学習するためには良
い
■ 多分学習しやすい、みたいな意図かなぁと推測

Ego-Exo training and evaluation
● Third-personのビデオで手が映ってなかったり物体とのインタラクションが
ないものがあるが、それも学習に寄与する

データセット
● Kinetics-400
○ popular third-person dataset
○ ~300k video, 400 human action classes
● Charades-Ego
○ ~68k instances
○ 157 activity class
○ 第三者映像と主観映像のペアがあるが本研究では用いない
● EPIC-Kitchens
○ キッチンでの主観映像
○ 55時間のビデオ、39k action segmentets
○ 352 objectで125の動作がアノテーションされている
● EPIC-Kitchens-100
○ 100時間で90kのアクションに拡張

比較手法
● Scrach: pre-trainをせず、ランダムな初期化によって直接fine-tuneをする
● Third-Only: pre-trainをKinetics 400で行う。
● First-Only: pre-trainをKitchen-100で行う
● Domain-adapt: first-personとthird-personでdomain adaptationを行った既存研
究
● Joint-embed: Kinetic-400でpre-trainした後、Charades-Egoでviewpoint-
invariant video modelを学習する
● Ego-Exo: pre-trainをKinetics400でやった後3つのタスクを学習する

● SOTAのモデルはもっとたくさんの特徴量を使っている（audio, flow)

まとめ
● 第三者視点映像を使って主観視点映像のスコアを向上させるための汎用的な
分散表現を獲得しようという試み
● first-person view周りの取り組みについてちゃんとよんだのは初めてだったの
で勉強になった
● 精度が上がったことはわかったけど、これが汎用的な表現なのか？という点
については疑問が残る

【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos

Similar a 【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos (15)

Más de Deep Learning JP

Más de Deep Learning JP (20)

【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos