Enviar búsqueda
Cargar
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
•
Descargar como PPTX, PDF
•
0 recomendaciones
•
436 vistas
Deep Learning JP
Seguir
2022/9/30 Deep Learning JP http://deeplearning.jp/seminar-2/
Leer menos
Leer más
Tecnología
Denunciar
Compartir
Denunciar
Compartir
1 de 17
Descargar ahora
Recomendados
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
Recomendados
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations
【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations
Deep Learning JP
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
Más contenido relacionado
La actualidad más candente
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations
【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations
Deep Learning JP
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
La actualidad más candente
(20)
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Transformer メタサーベイ
Transformer メタサーベイ
Deeplearning輪読会
Deeplearning輪読会
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations
【DL輪読会】BlobGAN: Spatially Disentangled Scene Representations
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Similar a 【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4
HiroyukiTerada4
深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)
ssuser441cb9
レポート深層学習Day4
レポート深層学習Day4
ssuser9d95b3
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4
Naoki Nishikawa
20130223 google apps+能動的教育とコミュニケーション-open
20130223 google apps+能動的教育とコミュニケーション-open
Norio Toyama
Dl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_events
shima o
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Yosuke Shinya
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open
Norio Toyama
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
Deep Learning JP
Similar a 【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
(20)
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
ラビットチャレンジレポート 深層学習Day4
ラビットチャレンジレポート 深層学習Day4
深層学習Day4レポート(小川成)
深層学習Day4レポート(小川成)
レポート深層学習Day4
レポート深層学習Day4
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
生成モデルの Deep Learning
生成モデルの Deep Learning
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4
20130223 google apps+能動的教育とコミュニケーション-open
20130223 google apps+能動的教育とコミュニケーション-open
Dl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_events
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
Más de Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
Más de Deep Learning JP
(20)
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Último
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
Último
(9)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ 論文解説:Prompting Decision Transformer for Few-Shot Policy Generalization Ryoichi Takase
2.
書誌情報 2 ※注釈無しの図は本論文から抜粋 採録:ICML2022 概要: オフラインメタ強化学習において、ゼロ・少数ショット学習で未知のタスクに適応する手法を提案 Decision Transformerの枠組みへの軌跡プロンプトの導入により、 パラメータ更新を行うことなく未知のタスクへ適応し、高性能を発揮することを示した
3.
オフライン強化学習 3 (オンライン)強化学習: 現在の方策を用いて環境と相互作用し、経験データを収集して方策を学習 オフライン強化学習: 環境と相互作用せずに、過去の経験データのみを用いて最適な方策を学習 → 環境との相互作用が難しい分野(例、医療・ヘルスケア)への応用が期待されている 方策 環境 状態・報酬 行動 オフラインデータセット 方策 状態・行動・報酬
4.
オフラインメタ強化学習 4 課題解決のために、オフラインメタ強化学習が提案されている [1] Mitchell, Eric,
et al. "Offline meta-reinforcement learning with advantage weighting." International Conference on Machine Learning. PMLR, 2021. 図は文献[1]より抜粋 オフラインメタ強化学習 [1]: 各タスクの経験データのみを用いる問題設定であり、 未知のタスクに対して少数データで適応できる方策を学習する オフライン強化学習の課題: 経験データに含まれるタスクのみから学習 → 未知のタスクに対する性能向上が課題
5.
研究目的 5 研究目的: 自然言語処理のプロンプトのフレームワークを応用し、オフライン強化学習の未知タスクに対して、 パラメータ更新のないゼロ・少数ショット学習を実現したい 本研究では、オフラインメタ強化学習の問題設定に自然言語処理の観点からアプローチする タスクの説明といくつかの例を入力の接頭辞として付加することで、 大規模言語モデルのパラメータを更新せずに新しいタスクに適応させる 関連研究:Decision Transformer [3] Transformerモデルが自然言語処理の枠組みを超えて、オフライン強化学習で高性能を発揮 [3]
Chen, Lili, et al. "Decision transformer: Reinforcement learning via sequence modeling." Advances in neural information processing systems 34 (2021): 15084-15097. 関連研究:プロンプト [2] ゼロ・少数ショット学習で新しいタスクに適応するために、 プロンプトを用いたフレームワークが提案されている [2] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
6.
問題設定 6 𝒟𝑖:学習データセット 各学習タスク𝒯 𝑖に対応する経験データ(オフライン強化学習のデータセット) 学習タスク 𝒯𝑡𝑟𝑎𝑖𝑛 テストタスク 𝒯𝑡𝑒𝑠𝑡 𝒫𝑖:少数のデモンストレーション 学習タスク𝒯𝑡𝑟𝑎𝑖𝑛に対しては、𝒟𝑖の一部分をサンプリング テストタスク𝒯𝑡𝑒𝑠𝑡に対しては、人間やエキスパート方策によって取得 互いに素 𝒯:タスクの集合 添え字𝑖は各タスク𝒯 𝑖
∈ 𝒯を意味 𝒯𝑡𝑟𝑎𝑖𝑛 の経験データで学習後、少数のデモンストレーションで𝒯𝑡𝑒𝑠𝑡 のタスクに適応する 𝒯𝑡𝑒𝑠𝑡のタスクに適応する際はパラメータ更新を行わない やりたいこと: 記号の説明: 𝒟𝑖 𝒫𝑖 𝒫𝑖
7.
軌跡プロンプト 7 ⋆:プロンプトであることを明記 𝑟: reward-to-go(現在のステップからエピソード終了までの累積報酬) 𝑠:状態 𝑎:行動 𝐾⋆:ステップ長 軌跡プロンプト: 少数のデモンストレーション𝒫𝑖からサンプリング 学習の安定性向上と過学習防止のため、確率的な軌跡プロンプトを導入 注)ステップ長が短い(実験では2~40ステップ)ため、模倣学習には使用不可 エピソード1:(𝑟1, 𝑠1,
𝑎1, 𝑟2, 𝑠2, 𝑎2, … , ) エピソード2:(𝑟1, 𝑠1, 𝑎1, 𝑟2, 𝑠2, 𝑎2, … , ) エピソード3:(𝑟1, 𝑠1, 𝑎1, 𝑟2, 𝑠2, 𝑎2, … , ) ⋮ 𝐽エピソード 𝐻ステップ → ステップ長 𝐾⋆ = 𝐽𝐻
8.
ネットワーク構造 8 モデル構造: Decision Transformerと類似 - 大規模言語モデルGPTの縮小版 入力データ: 𝜏𝑖 ⋆ :𝐾⋆ステップの軌跡プロンプト(𝒫𝑖から取得) 𝜏𝑖:直近𝐾ステップの軌跡の履歴(𝒟𝑖から取得) 1ステップのデータは(𝑠,
𝑎, 𝑟)で1セットなので入力データ長は3(𝐾⋆ + 𝐾) 𝜏𝑖𝑛𝑝𝑢𝑡 = (𝜏𝑖 ⋆ , 𝜏𝑖)
9.
学習手順 9 ③学習の安定化のために、 バッチデータℬには全ての学習タスクのデータを含める 環境と相互作用せずに、オフラインデータから方策を学習 ①履歴𝜏をサンプリング ④行動予測誤差を最小化するように勾配降下法を用いて学習 軌跡プロンプトからタスクの情報を把握し、 履歴と組み合わせて次の行動を予測するように学習する ① → ② → ②プロンプトをサンプリングして𝜏⋆取得 →
入力データ:𝜏𝑖𝑛𝑝𝑢𝑡 = [< 𝑝𝑟𝑜𝑚𝑝𝑡 >, 𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑎2, 𝑟2, … ] ③ → ④ →
10.
テスト手順 10 環境と相互作用するオンライン環境で評価 ④データを集めながら𝜏をアップデート 入力データ: 𝜏𝑖𝑛𝑝𝑢𝑡 = [< 𝑝𝑟𝑜𝑚𝑝𝑡
>, 𝑠1, 𝑎1, 𝑟1 ] 𝜏𝑖𝑛𝑝𝑢𝑡 = [< 𝑝𝑟𝑜𝑚𝑝𝑡 >, 𝑠1, 𝑎1, 𝑟1, 𝑠2, 𝑎2, 𝑟2 ] ⋮ 軌跡プロンプトからタスクの情報を把握できるため、 未知のタスクでも適切な行動を決定する ① → ② → ③ → ④ → ①各エピソードの最初に履歴𝜏を初期化 ②学習手順と同様にプロンプトをサンプリング ③プロンプトと直近の履歴を入力として受け取り行動を生成
11.
環境とデータセット 11 データセット: Cheetah-dir、Cheetah-vel、Ant-dir: → 文献[1]のデータセットを使用 DialとMeta-World reach-v2: →
熟練方策によってデータを収集 環境: Cheetah-dir(タスク数2個): 目標方向(前後)に進むタスク Cheetah-vel(学習タスク35個、テストタスク5個): 目標速度(一様分布により決まる)で進むタスク Dial(学習タスク6個、テストタスク4個): 6-DOFのロボットを制御するタスク Ant-dir(学習タスク45個、テストタスク5個): 目標方向(一様分布により決まる)に進むタスク Meta-World reach-v2(学習タスク15個、テストタスク5個): 3次元空間でロボットを目標位置に制御するタスク [1] Mitchell, Eric, et al. "Offline meta-reinforcement learning with advantage weighting." International Conference on Machine Learning. PMLR, 2021.
12.
ベースラインアルゴリズム 12 Multi-task Behavior Cloning
(MT-BC-Finetune): プロンプトとreward-to-goトークンの両方を除外し、目標タスクのデータを用いてファインチューニング → プロンプトとreward-to-goトークンの効果を確認するために使用 Multi-task Offline RL (MT-ORL): トレーニングセットのマルチタスクで学習 Prompt-based Behavior Cloning (Prompt-MT-BC): トレーニングとテスト時にreward-to-goトークンを除外 → reward-to-goトークンの効果を確認するために使用 Meta-Actor Critic with Advantage Weighting (MACAW): オフラインメタ強化学習の手法で、サンプル効率が高いアルゴリズム Prompt-DT(提案手法)を以下4つのベースラインと比較
13.
Prompt-DTの性能評価 13 Reward-to-goトークンの効果: Prompt-DTとPrompt-MT-BCは、Dialタスク以外では同程度の性能 → プロンプトにはタスク特定に十分な情報が含まれているが、 Dialタスクのようにプロンプト自体が不十分な場合はreward-to-goトークンが学習を助ける プロンプトとreward-to-goトークンの効果を比較: Prompt-MT-BCの方がMT-ORLより高性能を発揮 → reward-to-goトークンよりもプロンプトの方がタスクを特定するのに有効 実験結果: Prompt-DT(提案手法)はベースラインよりも高性能を発揮
14.
軌跡プロンプトの量に関する結果 14 エピソード数𝐽とステップ数𝐻を変化させ、プロンプト長𝐾⋆の影響を考察 実験結果: Prompt-DTは、プロンプトの量に依存しない → 少ないステップ数でもタスク固有の情報を特定することが可能
15.
軌跡プロンプトの質に関する結果 15 学習データセット𝒟𝑖と少数デモンストレーション𝒫𝑖のデータの質を変えた場合を検証 𝒟𝑖がexpert・medium・randomの3通り 𝒫𝑖がexpert・medium・randomの3通り → 3×3=9通りを検証 実験結果: プロンプトがexpert・mediumであれば、学習データセットの質がmediumであっても最適な方策が得られる プロンプトがrandomの場合は学習データセットがexpertでも最適な方策は得られない
16.
分布外のタスクに関する結果 16 実験結果: Prompt-DTは他手法と比較して高性能を発揮 → 軌跡プロンプトが分布外のタスクに対して有効であることを示唆 Ant-dir(学習タスク8個、テストタスク3個): 3個中2個のテストタスクで目標値が学習タスクの範囲外 テストタスクの目標値を学習タスクの目標値の範囲内ではなく、 範囲外のタスク(分布外タスク)に設定して性能を検証する
17.
まとめ 17 Prompt-DT: オフラインメタ強化学習の問題設定において、 Decision Transformerの枠組みに軌跡プロンプトを導入 → パラメータ更新を行うことなく未知のタスクへの適応を可能とした 実験結果: ベースラインアルゴリズムと比較して高性能を発揮 分布外のタスクに対しても高性能を発揮
Descargar ahora