Enviar búsqueda
Cargar
【DL輪読会】Scaling laws for single-agent reinforcement learning
•
1 recomendación
•
500 vistas
Deep Learning JP
Seguir
2023/2/10 Deep Learning JP http://deeplearning.jp/seminar-2/
Leer menos
Leer más
Tecnología
Vista de diapositivas
Denunciar
Compartir
Vista de diapositivas
Denunciar
Compartir
1 de 14
Descargar ahora
Descargar para leer sin conexión
Recomendados
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
Recomendados
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
Deep Learning JP
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計
Ichigaku Takigawa
Más contenido relacionado
La actualidad más candente
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
La actualidad más candente
(20)
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
Similar a 【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
Deep Learning JP
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計
Ichigaku Takigawa
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
harmonylab
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
Shintaro Fukushima
第3回NIPS読み会・関西発表資料
第3回NIPS読み会・関西発表資料
Takato Horii
Elastic ML Introduction
Elastic ML Introduction
Hiroshi Yoshioka
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤
ICT_CONNECT_21
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
Koichi Hamada
IVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AI
Toshiaki Enami
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
禎晃 山崎
統計学勉強会#2
統計学勉強会#2
Hidehisa Arai
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
Shunsuke Kikuchi
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
cvpaper. challenge
学習・教育分野で今後生まれる新たなビジネス
学習・教育分野で今後生まれる新たなビジネス
miraikenkyu
LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望
Kouji Kozaki
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
横幹連合サービス科学
横幹連合サービス科学
Yuriko Sawatani
Similar a 【DL輪読会】Scaling laws for single-agent reinforcement learning
(20)
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
第3回NIPS読み会・関西発表資料
第3回NIPS読み会・関西発表資料
Elastic ML Introduction
Elastic ML Introduction
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
IVS CTO Night & Day 2016 Tech Talk - AI
IVS CTO Night & Day 2016 Tech Talk - AI
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
統計学勉強会#2
統計学勉強会#2
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
学習・教育分野で今後生まれる新たなビジネス
学習・教育分野で今後生まれる新たなビジネス
LOD (Linked Open Data) の動向と今後の展望
LOD (Linked Open Data) の動向と今後の展望
トピックモデルの基礎と応用
トピックモデルの基礎と応用
横幹連合サービス科学
横幹連合サービス科学
Más de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
Más de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】Scaling laws for single-agent reinforcement learning
1.
http://deeplearning.jp/ “Scaling laws for
single-agent reinforcement learning” 東京大学工学系研究科 稲富翔伍 DEEP LEARNING JP [DL Papers] 1
2.
2023/02/10 2 書誌情報 1.Intro 論文名 Scaling laws
for single-agent reinforcement learning 著者 Jacob Hilton, Jie Tang, John Schulman (Open AI) 投稿 arXiv 31st Jan. 2023 概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見 られた • 計算予算と最適なモデルサイズの関係もべき乗則に従う
3.
2023/02/10 3 べき乗則 1.Intro Test Loss Scaling Laws for
Neural Language Models - Kaplanら(2020) べき乗則(Scaling Laws) Okimuraさん輪読資料より https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l anguage-models OpenAIの大規模モデル Scaling Laws RL分野でのブレイクスルーが接 深層学習でのべき乗 則 モデルサイズや計算コストをかければ性能がべき乗則に従い 増える。
4.
2023/02/10 4 生成モデルとRLのべき乗則 1.Intro 生成モデル(ここではGPTのような自己回帰型の言語生成モデル) Loss:クロスエントロピー誤差が用いられる。 モデルサイズ・計算コストに対して、テスト時の滑らかなLoss減少が見られた(Smooth power laws)。 RLではクロスエントロピー誤差は用いられないため別の性能指標が必要。 -
サッカーなどの対戦型ゲームで用いられるイロレーティングは、計算量に対するべき乗則に従い滑らかに変化する指 標。 一方、すべてのRLにおいて滑らかに変化する“自然な”指標があるわけではない。 例:物を集めるゲームでは、ある一定の能力を獲得すると、急激にポイントが増加する。 そこで、性能指標“Intrinsic performance”を導入。 - 計算量に基づいた指標 これを用いて、モデルサイズや環境とのインタラクション量が性能に対してどのような関係か調べる。 結論:べき乗則に従い性能増加する! 強化学習 アナロジー:生成モデルでの、“自然な“指標以外のべき乗 則 「計算予算が一定のときのテスト時ロスが最小となる最適モ デルサイズは、計算予算のべき乗則に従う。」 =計算予算を倍に増やすなら、モデルサイズも倍にすれば よい。
5.
2023/02/10 5 Intrinsic performance -
RLでべき乗則を示すには 2.Scaling laws without cross-entropy loss “自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。 スコア5-10の間(下図黄枠)で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増 加。 Star pilot 性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。 定義:「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に 到達するように学習させるために必要な最小の計算量」 → 定義が難解であるため学習曲線のグラフで理解
6.
2023/02/10 6 Intrinsic performanceのグラフの読み方(輪読者の解釈) 2.Scaling laws
without cross-entropy loss ・ (b)では(a)の縦軸をIntrinsic performanceに変えた。 ・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。(定義の読み替え) ・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。 → Efficeint Frontierに接する点が重要 ・ Power law asymptote(漸近線)は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている ・ モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている
7.
2023/02/10 7 Intrinsic performanceに対するべき乗則 ・
計算量に対する最適なモデルサイズ 2.Scaling laws without cross-entropy loss Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。 十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。 十分なモデルサイズである場合、IはEのべき乗則に従う。 I:Intrinsic performance, N:モデルサイズ(パラメタ数), E:環境とのインタラクション, その他は正の定数 ※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。 ある一定の計算予算(計算量)の制限における最適なモデルサイズは、計算予算のべき乗則に 従う。 計算量に対する最適なモデルサイズ:(1)から導出される補題 1 べき乗則:式(1)の解釈
8.
2023/02/10 8 実験環境・アルゴリズム等の条件 3.Experimental Setup Star pilot 1.
Procgen Benchmark Coin Run 2. Dota2 3. MNIST 各ゲームにEasy, Hard の2種のモード PPG-EWMA CNNのサイズを様々変 更 1vs1のMOVAゲーム PPO LSTMのサイズを様々変 更 数字を当てられたらreward1が得られる。 GAE(Generalized Advantage Estimation) のパラメータを変更することで、Horizon length (未来のどこまでを考慮するか)の影響を調べる PPO-EWMA CNNのサイズを様々変更 強化学習でなくても解けるが、強化学習の枠組みに落とし込 んで学習させる。 Fruit Bot
9.
2023/02/10 9 べき乗則の成立 ・ 2つの指数の関係 4.Results 式(1)
は学習初期を除いて、様々な環境・モデルサイズに対して成 立。 “Main Result” 2つの指数の関係
10.
2023/02/10 10 計算量と最適なモデルサイズの関係 4.Results ・理論的には、最適なハイパーパラメタと十分なランダムシード値を用いることで、指数(傾き)は0.5に近 づく。 - 今回の実験だけでは結論が出ない。 ・係数(グラフの切片に相当)については環境によって大きく違うことが分かる。 ・MNISTを除き、ある計算コストに対するRLの最適モデルサイズは生成モデルに比べ小さい。 - RLタスクの方が、horizonの長いこと、パラメータ当たりのForwardのFLOPsが多いことが影響 ※ここでは環境の実行コストは考慮しない
→後で考 慮 補題1(再掲) Procgen 0.40~0.65 MNIST 0.66~0.80 Dota 2 0.76 指数 の値
11.
2023/02/10 11 Forward pass のモデルサイズと計算量 4.Results Forward
pass を指標に用いることでスケーリングの関係が類似す る。 パラメタ毎のFLOPs(層の深さ)を考慮できるため。
12.
2023/02/10 12 サンプル効率の外挿 ・ 環境の実行を考慮した最適モデルサイズ 5.Discussion モデルサイズを無限大にすると、10^7.0モデル の最大性能まで、半分のインタラクションで到 達 サンプル効率について議論するなら、環境の実行 コストを考慮する必要がある。 計算費用をかける際、モデルサイズが環境サイズ より小さい場合、非効率である。 サンプル効率の外 挿 環境の実行を考量した最適モデルサイ ズ
13.
2023/02/10 13 計算量の予測のために 5.Discussion ・べき乗則の指数は生成モデルと同程度 - 今回の実験ではばらつきがあったが、およそ0.5になるものと考えられる。 ・べき乗則の係数は数桁の差がある - Horizon
lengthにより説明できる ・演算強度の違い(モデルのパラメタ毎のFLOPs)を考慮するためにはForward passのFLOPsを使用する ・サンプル効率はHorizon lengthのアフィン関数である。 ・べき乗則の指数の正確な予測は困難 Transformative AI(破壊的・強力なAI)を作るためには? - 人間の脳の理解によるパラメタ数決定と、学習を行うためのべき乗則が必要
14.
• 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance
を導入 • 計算量に基づく指標 • 定義は難解であるので、今回は学習曲線を用いた解釈を紹介 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見られた • 実験により、経験則の成立を確認 • 計算予算と最適なモデルサイズの関係もべき乗則に従う • べき乗則に影響を与える条件の整理 感想 • MNISTの実験を深く理解できず… • RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。 2023/02/10 14 まとめ
Descargar ahora