SlideShare una empresa de Scribd logo
1 de 14
Descargar para leer sin conexión
!"#$%&'()*+,%(-$(&
.$/0%(1
!"#$%&'(%$)"*+,'-)*$ ."*,'/"0"'123"*,'!24"# 566%&)"##,'
"*7$89:9;'
橋口凌大(名工大玉木研)
英語論文紹介 9:9;<;;<;=
概要
n>*"#6?2*)%*ベースの動画認識フレームワークの提案
• 任意の9!空間ネットワーク上に構築可能
n新しい推論方法の?@&&A8$B%2を提案
n学習速度と推論速度の高速化
推論の妥当性
nC$#%4$D6E::
• ;:秒の動画
n推論には9秒の短い動画として処理される
n;分,;時間の動画に対して同じように適用できない
• 数秒の断片的なクリップで判断ができない
n従来手法では動画全体の情報を共有できるものが存在しない
Facebook AI Research (FAIR)
Abstract
We present SlowFast networks for video recognition. Our
model involves (i) a Slow pathway, operating at low frame
rate, to capture spatial semantics, and (ii) a Fast path-
way, operating at high frame rate, to capture motion at
fine temporal resolution. The Fast pathway can be made
very lightweight by reducing its channel capacity, yet can
learn useful temporal information for video recognition.
Our models achieve strong performance for both action
classification and detection in video, and large improve-
ments are pin-pointed as contributions by our SlowFast con-
cept. We report state-of-the-art accuracy on major video
recognition benchmarks, Kinetics, Charades and AVA. Code
has been made available at: https://github.com/
facebookresearch/SlowFast.
1. Introduction
It is customary in the recognition of images I(x, y) to
treat the two spatial dimensions x and y symmetrically. This
is justified by the statistics of natural images, which are to
a first approximation isotropic—all orientations are equally
likely—and shift-invariant [41, 26]. But what about video
signals I(x, y, t)? Motion is the spatiotemporal counterpart
of orientation [2], but all spatiotemporal orientations are
T
C
H,W
prediction
High frame rate
C
αT
C
C
αT
αT βC
βC
βC
T
T
T
Low frame rate
Figure 1. A SlowFast network has a low frame rate, low temporal
resolution Slow pathway and a high frame rate, ↵⇥ higher temporal
resolution Fast pathway. The Fast pathway is lightweight by using
a fraction ( , e.g., 1/8) of channels. Lateral connections fuse them.
For example, waving hands do not change their identity as
“hands” over the span of the waving action, and a person
is always in the “person” category even though he/she can
transit from walking to running. So the recognition of the cat-
egorical semantics (as well as their colors, textures, lighting
etc.) can be refreshed relatively slowly. On the other hand,
the motion being performed can evolve much faster than
their subject identities, such as clapping, waving, shaking,
walking, or jumping. It can be desired to use fast refreshing
1812.03982v3
[cs.CV]
29
Oct
2019
FChristoph+, ICCV2019G
提案手法
nHつの部分から構成
• 空間特徴を抽出する I任意の9!モデルJ
• 時間注意に基づくエンコーダ
• 4%)K2*"&'"44%#4$2#AL"6%B'%#D2B%*
• 分類/MN
n4%)K2*"&'"44%#4$2#AL"6%B'%#D2B%*
• 計算量が-I#O9J
• 処理できるトークン数に限りがある
• M2#P?2*)%*を用いて一括で
処理できるようにする
Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann
Theator
{danieln, omri, maya, dotan}@theator.io
Abstract
This paper presents VTN, a transformer-based frame-
work for video recognition. Inspired by recent developments
in vision transformers, we ditch the standard approach in
video action recognition that relies on 3D ConvNets and
introduce a method that classifies actions by attending
to the entire video sequence information. Our approach
is generic and builds on top of any given 2D spatial
network. In terms of wall runtime, it trains 16.1⇥ faster
and runs 5.1⇥ faster during inference while maintaining
competitive accuracy compared to other state-of-the-art
methods. It enables whole video analysis, via a single
end-to-end pass, while requiring 1.5⇥ fewer GFLOPs. We
report competitive results on Kinetics-400 and Moments
in Time benchmarks and present an ablation study of
VTN properties and the trade-off between accuracy and
inference speed. We hope our approach will serve as a
new baseline and start a fresh line of research in the video
Figure 1. Video Transformer Network architecture. Connecting
three modules: A 2D spatial backbone (f(x)), used for feature ex-
traction. Followed by a temporal attention-based encoder (Long-
19v3
[cs.CV]
17
Aug
2021
関連研究
nM2#P?2*)%* F.%&4"P0Q,'9:9:G
• 544%#4$2#の計算量を改善
• -I#O9J'R'-I#J
• 時間方向の"44%#4$2#で使用
(a) Full n2
attention (b) Sliding window attention (c) Dilated sliding window (d) Global+sliding window
Figure 2: Comparing the full self-attention pattern and the configuration of attention patterns in our Longformer.
translation (MT), but didn’t explore the pretrain- beddings (which we only used for the Autoregres-
推論方法
n動画全体から;Sフレームを均一に取り出す
n短いクリップを複数個取り出す方法
• ラベルと関係ないクリップが生成される可能性あり
• 正確な予測ができない
n全体を見ることで動画のコンテキストを把握
Figure 2. Extracting 16 frames evenly from a video of the abseiling category in the Kinetics-400 dataset [20]. Analyzing the video’s full
context and attending to the relevant parts is much more intuitive than analyzing several clips built around specific frames, as many of these
frames might lead to false predictions.
ラベル:懸垂下降
実験設定
n訓練
n空間認識モデル
• T)"P%(%4'IUV:,'U;:;,'!%$>J
• T)"P%(%49;+'IW$>Jで事前学習
nM2#P?2*)%*,'/MN
• 平均:,標準偏差:X:9の正規分布から
ランダムにサンプリングで初期化
nクリップの取得
• ランダムな開始点
• 9XVS秒 2*'VX;9秒サンプリング
• フレーム数
• ;SまたはH9
n推論
n/@&4$8$%Y
• 均等に;:クリップをサンプリング
• 短辺を9VSにリサイズ
• 99E'Z'99Eにクロップ
• [%#4%*D*2K
• U$P34D*2K
• M%?4D*2K
n@&&'8$B%2
• バッチ処理を行うために全てのビデオ
を9V:フレームにサンプリング
• 短辺を9VSにリサイズ
• 99E'Z'99EのD%#4%*D*2K
空間認識モデルが与える!"#への影響
n精度が高い空間認識モデルほどW>(の認識も高くなる
model
pretrain
(ImageNet accuracy (%))
top-1 top-5
R50-VTN ImageNet (76.2 [25]) 71.2 90.0
R101-VTN ImageNet (77.4 [25]) 72.1 90.3
DeiT-B-VTN ImageNet (81.8 [33]) 75.5 92.2
DeiT-BD-VTN ImageNet (83.4 [33]) 75.6 92.4
ViT-B-VTN ImageNet-21K (84.0 [10]) 78.6 93.7
ViT-B-VTN† ImageNet-21K (84.0 [10]) 79.8 94.2
Table 1. VTN performance on Kinetics-400 validation set for dif-
ferent backbone variations. A full video inference is used. We
show top-1 and top-5 accuracy. We report what pre-training was
our archite
VTN i
ence, and
Due to me
ference m
to-end ma
extracting
poral atte
features in
coder.
実験結果
n>%)K2*"&'"44%#4$2#'&"0%*数が与える影響
• 深ければ深いほどいいという結果では
ない
• C$#%4$D6は動画が;:秒程度
• 層が深くなくても十分に時間特徴を
獲得できている可能性が考えられる
# layers top-1 top-5
1 78.6 93.4
3 78.6 93.7
6 78.5 93.6
12 78.3 93.3
PE shuffle top-1 top-5
learned - 78.4 93.5
learned X 78.8 93.6
fixed - 78.3 93.7
fixed X 78.5 93.7
no - 78.6 93.7
tem
n位置埋め込みの影響
• 位置情報を埋め込まないバージョンが
;番良い性能を示した
• C$#%4$D6は動作によらず外観に基づい
た分類をしていることを示唆する
# layers top-1 top-5
1 78.6 93.4
3 78.6 93.7
6 78.5 93.6
12 78.3 93.3
(a) Depth: Comparing
PE shuffle top-1 top-5
learned - 78.4 93.5
learned X 78.8 93.6
fixed - 78.3 93.7
fixed X 78.5 93.7
no - 78.6 93.7
no X 78.9 93.7
(b) Positional embedding: Evaluating the im-
temp
(c) Tem
クリップのフレーム数による影響
nW$>A.AW>(
nM2#P?2*)%*の層は;
nどの設定でも大きな変化が見られない
5
5
6
7
7
7
7
im-
temporal footprint # frames top-1 top-5
2.56 16 78.2 93.4
2.56 32 78.2 93.6
5.12 16 78.6 93.4
5.12 32 78.5 93.5
10.0 16 78.0 93.3
(c) Temporal footprint: Comparing the im-
finetune top-1 top-5
- 71.6 90.3
X 78.6 93.7
(d) Finetune: Training
1 top-5
4 93.5
8 93.6
3 93.7
5 93.7
6 93.7
temporal footprint # frames top-1 top-5
2.56 16 78.2 93.4
2.56 32 78.2 93.6
5.12 16 78.6 93.4
5.12 32 78.5 93.5
10.0 16 78.0 93.3
finetune top-1 top-5
- 71.6 90.3
X 78.6 93.7
n空間認識モデルを学習させる
• ]%の精度向上
"$%&'()*+),,$-,.'-の重要性
nM"0%*数がHつのモデル
n"44%#4$2#')"4*$Zを一様分布に固定
n学習は同じようなカーブを描く
n推論は精度が著しく低下
n一般化が不可能になる
Figure 3. Illustrating all the single-head first attention layer weight
weight values are represented by a warm color (yellow) while low v
category properties are shown (e.g., shackle, rope) exhibit higher w
appears (e.g., shoes, people). The model prediction is abseiling for
学習と推論
nパラメータ数が多い
• 実際は収束が速い
n推論は;8$%Yで行われるため高速
model
training wall
runtime (minutes)
# training
epochs
validation wall
runtime (minutes)
inference
approach
params
(M)
top-1 top-5
I3D* 30 - 84 multi-view 28 73.5 [11] 90.8 [11]
NL I3D (our impl.) 68 50 150 multi-view 54 74.1 91.7
NL I3D (our impl.) 68 50 31 full-video 54 72.1 90.5
SlowFast-8X8-R50* 70 196 [13] 140 multi-view 35 77.0 [11] 92.6 [11]
SlowFast-8X8-R50* 70 196 [13] 26 full-video 35 68.4 87.1
SlowFast-16X8-R101* 220 196 [13] 244 multi-view 60 78.9 [11] 93.5 [11]
R50-VTN 62 40 32 full-video 168 71.2 90.0
R101-VTN 110 40 32 full-video 187 72.1 90.3
DeiT-Ti-VTN (3 layers) 52 60 30 full-video 10 67.8 87.5
ViT-B-VTN (1 layer) 107 25 48 full-video 96 78.6 93.4
ViT-B-VTN (3 layers) 130 25 52 full-video 114 78.6 93.7
ViT-B-VTN (3 layers)† 130 35 52 full-video 114 79.8 94.2
Table 3. To measure the overall time needed to train each model, we observe how long it takes to train a single epoch and how many epochs
are required to achieve the best performance. We compare these numbers to the validation top-1 and top-5 accuracy on Kinetics-400 and the
推論時の計算量の比較
n^&2Y"64
• ビデオ全体で推論する方法では_`の低下
n従来の手法とほぼ同等の性能で計算量削減
model
inference
approach
# frames per
inference view
# of views
test crop
size
inference
GFLOPs
top-1
NL I3D (our impl.) multi-view 32 30 224 2,625 74.1
NL I3D (our impl.) full-video 250 1 224 1,266 72.2
SlowFast-8X8-R50* multi-view 32 30 256 1,971 77.0 [11]
SlowFast-8X8-R50* full-video 250 1 256 517 68.4
SlowFast-16X8-R101* multi-view 64 30 256 6,390 78.9 [11]
SlowFast-16X8-R101* full-video 250 1 256 838 -
R50-VTN (3 layers) multi-view 16 30 224 2,106 70.9
R50-VTN (3 layers) full-video 250 1 224 1,059 71.2
R101-VTN (3 layers) multi-view 16 30 224 3,895 72.0
R101-VTN (3 layers) full-video 250 1 224 1,989 72.1
ViT-B-VTN (1 layer) multi-view 16 30 224 8,095 78.5
ViT-B-VTN (1 layer) full-video 250 1 224 4,214 78.6
ViT-B-VTN (3 layers) multi-view 16 30 224 8,113 78.6
ViT-B-VTN (3 layers) full-video 250 1 224 4,218 78.6
まとめ
n動画認識のための4*"#6?2*)%*フレームワークの提案
n長い動画を処理できる
• より長い時間コンテキストを考慮
nより長時間のデータセットに有効であると考えられる
• 現在は短い時間の動画データセット
• H! D2#8と違い疎なフレームに適用可能

Más contenido relacionado

Similar a 文献紹介:Video Transformer Network

Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理
Takeshi Arabiki
 
Shadow gunのサンプルから学べるモバイル最適化
Shadow gunのサンプルから学べるモバイル最適化Shadow gunのサンプルから学べるモバイル最適化
Shadow gunのサンプルから学べるモバイル最適化
Katsutoshi Makino
 
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
Takeshi Yamamuro
 

Similar a 文献紹介:Video Transformer Network (20)

文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
 
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
文献紹介:TinyVIRAT: Low-resolution Video Action Recognition
 
文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition文献紹介:SlowFast Networks for Video Recognition
文献紹介:SlowFast Networks for Video Recognition
 
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
文献紹介:Extreme Low-Resolution Activity Recognition Using a Super-Resolution-Ori...
 
文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition文献紹介:Gate-Shift Networks for Video Action Recognition
文献紹介:Gate-Shift Networks for Video Action Recognition
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 
文献紹介:Video Description: A Survey of Methods, Datasets, and Evaluation Metrics
文献紹介:Video Description: A Survey of Methods, Datasets, and Evaluation Metrics文献紹介:Video Description: A Survey of Methods, Datasets, and Evaluation Metrics
文献紹介:Video Description: A Survey of Methods, Datasets, and Evaluation Metrics
 
文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic Inpainting文献紹介:Prior Guided GAN Based Semantic Inpainting
文献紹介:Prior Guided GAN Based Semantic Inpainting
 
文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow文献紹介:Learning Video Stabilization Using Optical Flow
文献紹介:Learning Video Stabilization Using Optical Flow
 
文献紹介:Length-Controllable Image Captioning
文献紹介:Length-Controllable Image Captioning文献紹介:Length-Controllable Image Captioning
文献紹介:Length-Controllable Image Captioning
 
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理Rのデータ構造とメモリ管理
Rのデータ構造とメモリ管理
 
Shadow gunのサンプルから学べるモバイル最適化
Shadow gunのサンプルから学べるモバイル最適化Shadow gunのサンプルから学べるモバイル最適化
Shadow gunのサンプルから学べるモバイル最適化
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
TVM の紹介
TVM の紹介TVM の紹介
TVM の紹介
 
[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks
 
OpenCVの拡張ユーティリティ関数群
OpenCVの拡張ユーティリティ関数群OpenCVの拡張ユーティリティ関数群
OpenCVの拡張ユーティリティ関数群
 
プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610プロファイラGuiを用いたコード分析 20160610
プロファイラGuiを用いたコード分析 20160610
 
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
浮動小数点(IEEE754)を圧縮したい@dsirnlp#4
 

Más de Toru Tamaki

Más de Toru Tamaki (20)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 

Último

Último (9)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

文献紹介:Video Transformer Network