Enviar búsqueda
Cargar
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
•
1 recomendación
•
627 vistas
Deep Learning JP
Seguir
2023/5/26 Deep Learning JP http://deeplearning.jp/seminar-2/
Leer menos
Leer más
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 36
Descargar ahora
Descargar para leer sin conexión
Recomendados
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
Recomendados
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
Deep Learning JP
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
harmonylab
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
Más contenido relacionado
La actualidad más candente
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
Deep Learning JP
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
harmonylab
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
La actualidad más candente
(20)
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
全力解説!Transformer
全力解説!Transformer
ドメイン適応の原理と応用
ドメイン適応の原理と応用
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
【DL輪読会】Segment Anything
【DL輪読会】Segment Anything
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Similar a 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
Deep Learning JP
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
Start rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agents
infinite_loop
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
NTT DATA Technology & Innovation
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
株式会社スカイアーチネットワークス
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Yasunori Ozaki
Xtextハンズオン(仮)
Xtextハンズオン(仮)
You&I
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
ソフトウェア品質シンポジウム
一口で何度もおいしい?DSL
一口で何度もおいしい?DSL
You&I
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
NTT DATA Technology & Innovation
TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003
Dan Imagineer
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
Deep Learning JP
大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術
RyuichiKanoh
勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
Atsushi Suzuki
Similar a 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
(17)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Start rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agents
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Xtextハンズオン(仮)
Xtextハンズオン(仮)
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
一口で何度もおいしい?DSL
一口で何度もおいしい?DSL
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術
勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
Más de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Más de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Último
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Último
(10)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
1.
DEEP LEARNING JP [DL
Papers] EgocentricVideoTaskTranslation (CVPR 2023 Highlight) Yoshifumi Seki http://deeplearning.jp/
2.
書誌情報 ● 投稿先 ○ CVPR
2023 Highlight ● 投稿者 ○ テキサス大、Meta ■ First AuthorのMetaでのインターン成果 ● 選定理由 ○ ウェラブルデバイスの会社に務めています ○ 一人称動画からの動作解析系に最近取り組ん でいます https://vision.cs.utexas.edu/projects/egot2/ Codeのリンクはなかった、、、
3.
背景・目的 ● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合に なっているが、それ以外の情報が少なくなる ● ウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相 互作用が記録される ○
タスク間にも相互作用がありので予測の助けにもある ● 一方で特定のタスク向けの特化したモデルができてしまう危険性がある ● 個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用して さまざまなタスクに対する統合的な枠組みを作りたい ● Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1 位、NR keyframe localizationで3位
4.
一つの動画の中にたくさんのタスクが存在する
5.
タスクの関連性を学ぶことで汎用的なモデルを作る
6.
実現に向けた転移学習/マルチタスク学習の課題 ● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要である が、それは現実的ではない ● 一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統 合モデルを作るのが難しく、特化モデルを作ることを助長している ○
モード(音声、視覚、運動) ○ ラベルの多様性(空間的・時間的・意味的) ○ 時間の粒度(短い時間で完結する行動と、長い時間を見ないといけない行動) ● 一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用 していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高 い ○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させること があることが指摘されている
7.
提案手法: Ego Task
Translation (EgoT2) ● 多様な一人称動画に対する統合的な学習フレームワーク ● 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが できる ● タスクが強く関連していない場合の影響を軽減する ● 2つの仕組みを持つ ○ タスク専門モデル: EgoT2-s: 特定のモデルに対して学習されたモデル ○ タスク汎用モデル: EgoT2-g: 異なるタスクへの変換を支援するためのモデル
8.
9.
個別のBackboneを持つ利点 ● それぞれのタスクの特異性(例えば時間の扱いなど)をBackboneが吸収できる ● その上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間 の類似性が低い場合の影響も軽減ができる ●
過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask translatorは不要なパラメータを選択的に非活性にすることができるので、重要な 特徴だけを活用するように学習できる ● さらにその選択を分析することで、タスク間の関連についての解釈を得ることもでき る
10.
EgoT2-s ●
11.
EgoT2-s ● Stage1: Individual Task
Training
12.
Stage1: Individual Task
Training ● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う ● 学習方法に制限はない ● K個のタスクに対して、K個のモデルf_k (k=1…K)を得る
13.
EgoT2-s ● Stage2: Task Specific
Translation
14.
Stage2: Task Specific
Translation
15.
Stage2: Task Specific
Translation 1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う
16.
Stage2: Task Specific
Translation 2: 特徴ベクトルの射影を行う (Projection Layer)
17.
Stage2: Task Specific
Translation 3: 各タスク特化モデルからの出力 (射影したもの)を結合
18.
Stage2: Task Specific
Translation 4: Translationのための共通Encoderに結合ベクトルを入力
19.
Stage2: Task Specific
Translation 5: タスク固有のDecoderによってタスクの出力を得る このEncoder-Decoderは抽象化されていてなんでも良い 実験の中ではEncoderは1層のTransformerを使っている
20.
EgoT2-g
21.
EgoT2-g ● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応で きるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が 必要になる ● EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うこ とを目指す ●
22.
EgoT2-gでの変更点 ● Stage1はEgoT2-sと同じ ● 1)
デコーダーを汎用的な物に置き換える ● 2) 全てのデータセットを使って学習をする
23.
EgoT2-g: デコーダの置き換え ● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いる ●
それぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換 える ● タスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにす る ● wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない ● 出力された文字列からarg samplingによってタスクのラベルを復元する
24.
EgoT2-g
25.
EgoT2-g: 全てのデータセットを使った学習 ● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの 学習をしなければならない ●
各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの 更新を行う
26.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した
27.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した AR (Action Recognition)だけ存在が確認できていない。 Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ るのはShort Team Anticipationなので、それの別名?
28.
Human-Object InteractionなタスクでのEgoT2-sの結果
29.
Human-Human InteractionなタスクでのEgoT2-sの結果
30.
EgoT2-sのablation study
31.
EgoT2-gの結果
32.
SOTAなモデルとの比較 (1/2) Ego4D
Challengeの4つのカテゴリでSOTA タスクのサイトで現在の LeadersBoardを見ることが できる https://eval.ai/web/challenges/challenge-page/1622/o verview https://eval.ai/web/challenges/challenge-page/1625/l eaderboard/3911
33.
SOTAなモデルとの比較 (2/2) https://eval.ai/web/challenges/challenge-pa ge/1598/leaderboard/3881 https://eval.ai/web/challenges/challenge-p age/1627/leaderboard/3914 Ego4D Challengeの4つのカテゴリでSOTA タスクのサイトで現在の
LeadersBoardを見ることが できる
34.
EgoT2-sでの結果の解釈 AR(STA) は短時間での行動予測、 LTAは(比較的)長時間での行動予測。 上の例は大きくシーンが変わるので、 LTAが早いうちに活性化していて、 AR は直前に活性化している。 下の例はあまり急激に変わらないの で、ARも早いうちから活性化している
35.
EgoT2-gでの結果解釈 出力結果に対して各種タスクプロンプ トを設定した時の結果の比較。
36.
まとめ・感想 ● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研 究 ● Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タ スクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。 ○
アンサンブル学習の考え方に近い物を感じる ● データセット中にあるものしか反映できないものの、Ego4Dという大きなデータセッ トができたことの強みをよく生かしている良い研究だと感じた
Descargar ahora