Imagination-Augmented Agents for Deep Reinforcement Learning

Imagination-Augmented Agents
for Deep Reinforcement Learning
Theophane Weber, Sebastien Racaniere, David P. Reichert, Lars Buesing et al.
DeepMind
Presented by Choi Seong Jae
Introduction
• Reinforcement Learning은 Markov Decision Process(MDP) Problem을
해결하기 위한 방법
• 𝑆: a set of states
• 𝐴: a set of actions
• 𝑇(𝑠’|𝑠, 𝑎): the transition function maps
• 𝑅(𝑠, 𝑎, 𝑠’) -> r: the reinforcement function mapping state-action-successor state
triples to a scalar return
𝜋∗(𝑠) ← 𝑎𝑟𝑔𝑚𝑎𝑥
𝑎 ∈ 𝐴
𝑄(𝑠, 𝑎)
𝑄(𝑠, 𝑎)= 𝔼 𝑡=0
∞
𝑟𝑡|𝑠, 𝑎
Introduction
• Model-Free RL
• Raw observation을 직접적으로 values 혹은 actions에 mapping 하는 함수를 찾음
(Neural Network 이용)
• 대량의 training data 필요, 같은 환경에서 novel task로 일반화 할 수 없음
• DQN, A3C, Policy Gradient ETC.
• Model-Based RL
• Transition matrix 𝑇, reward function 𝑅, state-action space인 𝑆, 𝐴를 알고 있다고 가정
• 𝑆, 𝐴가 커지면 계산 불가
• Model-Free RL의 단점을 해결 가능
Overview: I2A
• Model-Free Model에 Model-Based의 개념을 추가
• 미래의 상황을 미리 simulation 해 보고, simulation에서 나온
정보를 현재에 적용해 적절한 action을 선택
• https://www.youtube.com/watch?v=iUowxivGfv0
Overview: I2A Architecture
I2A: Environment Model
• ResNet으로 만들어졌고, Recurrent한 구성
• 𝑂𝑡 or 𝑂𝑡와 action을 Input으로 받고, Trajectory 𝑇
를 Output으로 함
• 𝑇는 next observation 𝑂𝑡+𝑖과 next reward 𝑟𝑡+𝑖를 포함
• Environment Model의 경우 Standard Model-Free
Agent에서 생성된 데이터를 이용해 Pre-train 된
Model
• Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖은 완벽하지 않지만, 𝑂𝑡+𝑖와
𝑟𝑡+𝑖 을 넘어서는 정보를 갖고 있다고 가정
I2A: Rollout Encoder
• 각 action 별로 Rollout Encoder가 존재
• Rollout Encoder의 각 Encoder는 LSTM cell
로 구성
• Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖이 완벽하지 않으므로
Encoder를 통해 추가적인 정보를 추출
• Aggregator에서 각 Rollout Encoder에서 나
온 Encoded values를 단순 concatenate
Experiments
• I2A가 다른 방법들 보다 월등한 성능을 보임
• Copy-Model IAA의 경우 standard와 유사한 성
능을 보임
• No reward IAA의 경우 3e9 steps를 학습할 경
우 I2A 만큼의 성능이 나옴
• Predicted rewards가 도움은 될 수 있지만, Predicted
Observations만으로 충분히 Informative 함
• 5 이상의 rolling step에서는 더 이상의 성능 향
상은 없음
Experiments
• Noisy Environment Model에서 I2A의 성능
상 차이는 없음
• 그러나 poor model의 경우 3 rolling step과 5
rolling step에서 성능 차이를 확인할 수 없음
• Rollout Encoder가 Env. Model에서 불필요한 정보
를 Ignoring 하는 것을 알 수 있음
• Rollout Encoder-free agent의 경우 Env.
Model의 정확도가 성능 상 큰 영향을 미침
• Accurate Env. Model에서는 standard와 유사한 성
능을 보임
Experiments
• AlphaGo에 쓰인 MCTS의 경우 최대 95%의
성능을 보임(Perfect Model)
• 하지만 유사한 성능을 낼 때, computation
cost가 18배 정도 차이 남
• 4 boxes 상태에서 학습을 하고, box 개수를
늘려보았으나, 여전히 4 boxes standard와
유사한 성능을 냄
Conclusion
• 단순 과거의 데이터만 이용해 현재 유용한 action을 취하는 것이 아닌, 미래의 상황을 추론하여 정보로 받아들
이고 성능을 향상시킴
• Model-Free RL에 Model-Based RL 개념을 추가
• 기존의 Model-Based Planning Method인 Monte Carlo Tree Search(MCTS)와 병합할 경우 낮은 computation
cost로 동일한 성능을 확보
• 의문
• 실험에서 나온 Sokoban 환경의 경우, 하나의 action을 취했을 때 다음 상황은 항상 중요한 정보를 지니는데, 프레임 별로
진행되는 실시간 환경의 경우 다음 상황이 크게 의미 없는 상황일 수 있음. 이러한 환경에서는 어떠한 성능을 보이는지?
• 본 논문에서는 Pre-trained Environment Model을 이용해, predicted observation과 reward를 얻어 여기서 정보를 추출했
지만, predicted가 아닌 시뮬레이션을 할 수 있는 환경이라면 좀 더 좋은 성능을 내지는 않을지?
Appendix
• Standard model-free baseline agent
• For Sokoban: 3 layers CNN, kernel sizes 8x8, 4x4, 3x3, strides of 4, 2, 1 and
number of output channels 32, 64, 64; following FC has 512 units
• Rollout Encoder LSTM has 512(for Sokoban) hidden units.
And all rollouts are concatenated into a single vector 𝑐𝑖𝑎 of
length 2560(a rollout encoder per action).
Appendix
• Sokoban environment
• Every time step, a penalty of -0.1 is applied to the agent
• Whenever the agent pushes a box on target, it receives a reward of +1
• Whenever the agent pushes a box off target, it receives a penalty of -1
• Finishing the level gives the agent a reward of +10 and the level terminates.
1 de 13

Recomendados

"Learning transferable architectures for scalable image recognition" Paper Re... por
"Learning transferable architectures for scalable image recognition" Paper Re..."Learning transferable architectures for scalable image recognition" Paper Re...
"Learning transferable architectures for scalable image recognition" Paper Re...LEE HOSEONG
498 vistas17 diapositivas
"Dataset and metrics for predicting local visible differences" Paper Review por
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper ReviewLEE HOSEONG
168 vistas28 diapositivas
"From image level to pixel-level labeling with convolutional networks" Paper ... por
"From image level to pixel-level labeling with convolutional networks" Paper ..."From image level to pixel-level labeling with convolutional networks" Paper ...
"From image level to pixel-level labeling with convolutional networks" Paper ...LEE HOSEONG
279 vistas16 diapositivas
DL from scratch(4~5) por
DL from scratch(4~5)DL from scratch(4~5)
DL from scratch(4~5)Park Seong Hyeon
3.7K vistas33 diapositivas
Image net classification with deep convolutional neural networks por
Image net classification with deep convolutional neural networks Image net classification with deep convolutional neural networks
Image net classification with deep convolutional neural networks Korea, Sejong University.
244 vistas16 diapositivas
DL from scratch(6) por
DL from scratch(6)DL from scratch(6)
DL from scratch(6)Park Seong Hyeon
3.8K vistas80 diapositivas

Más contenido relacionado

La actualidad más candente

DL from scratch(1~3) por
DL from scratch(1~3)DL from scratch(1~3)
DL from scratch(1~3)Park Seong Hyeon
3.9K vistas27 diapositivas
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand... por
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...Sunghoon Joo
267 vistas19 diapositivas
"simple does it weakly supervised instance and semantic segmentation" Paper r... por
"simple does it weakly supervised instance and semantic segmentation" Paper r..."simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r...LEE HOSEONG
353 vistas21 diapositivas
Lecture 4: Neural Networks I por
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks ISang Jun Lee
239 vistas37 diapositivas
네이버 NLP Challenge 후기 por
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기Jangwon Park
334 vistas23 diapositivas
neural network 기초 por
neural network 기초neural network 기초
neural network 기초Dea-hwan Ki
255 vistas67 diapositivas

La actualidad más candente(11)

PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand... por Sunghoon Joo
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
Sunghoon Joo267 vistas
"simple does it weakly supervised instance and semantic segmentation" Paper r... por LEE HOSEONG
"simple does it weakly supervised instance and semantic segmentation" Paper r..."simple does it weakly supervised instance and semantic segmentation" Paper r...
"simple does it weakly supervised instance and semantic segmentation" Paper r...
LEE HOSEONG353 vistas
Lecture 4: Neural Networks I por Sang Jun Lee
Lecture 4: Neural Networks ILecture 4: Neural Networks I
Lecture 4: Neural Networks I
Sang Jun Lee239 vistas
네이버 NLP Challenge 후기 por Jangwon Park
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기
Jangwon Park334 vistas
neural network 기초 por Dea-hwan Ki
neural network 기초neural network 기초
neural network 기초
Dea-hwan Ki255 vistas
AlexNet, VGG, GoogleNet, Resnet por Jungwon Kim
AlexNet, VGG, GoogleNet, ResnetAlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, Resnet
Jungwon Kim874 vistas
[한국어] Neural Architecture Search with Reinforcement Learning por Kiho Suh
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
Kiho Suh6.8K vistas
"How does batch normalization help optimization" Paper Review por LEE HOSEONG
"How does batch normalization help optimization" Paper Review"How does batch normalization help optimization" Paper Review
"How does batch normalization help optimization" Paper Review
LEE HOSEONG839 vistas
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review por LEE HOSEONG
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
LEE HOSEONG203 vistas
PR-203: Class-Balanced Loss Based on Effective Number of Samples por Sunghoon Joo
PR-203: Class-Balanced Loss Based on Effective Number of SamplesPR-203: Class-Balanced Loss Based on Effective Number of Samples
PR-203: Class-Balanced Loss Based on Effective Number of Samples
Sunghoon Joo456 vistas

Similar a Imagination-Augmented Agents for Deep Reinforcement Learning

Progressive Growing of GANs for Improved Quality, Stability, and Variation Re... por
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...태엽 김
879 vistas39 diapositivas
Nationality recognition por
Nationality recognitionNationality recognition
Nationality recognition준영 박
174 vistas25 diapositivas
Coursera Machine Learning (by Andrew Ng)_강의정리 por
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리SANG WON PARK
7.4K vistas139 diapositivas
SQL performance and UDF por
SQL performance and UDFSQL performance and UDF
SQL performance and UDFJAEGEUN YU
149 vistas161 diapositivas
인공지능, 기계학습 그리고 딥러닝 por
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
38.5K vistas85 diapositivas
Review MLP Mixer por
Review MLP MixerReview MLP Mixer
Review MLP MixerWoojin Jeong
136 vistas17 diapositivas

Similar a Imagination-Augmented Agents for Deep Reinforcement Learning(20)

Progressive Growing of GANs for Improved Quality, Stability, and Variation Re... por 태엽 김
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
Progressive Growing of GANs for Improved Quality, Stability, and Variation Re...
태엽 김879 vistas
Nationality recognition por 준영 박
Nationality recognitionNationality recognition
Nationality recognition
준영 박174 vistas
Coursera Machine Learning (by Andrew Ng)_강의정리 por SANG WON PARK
Coursera Machine Learning (by Andrew Ng)_강의정리Coursera Machine Learning (by Andrew Ng)_강의정리
Coursera Machine Learning (by Andrew Ng)_강의정리
SANG WON PARK7.4K vistas
SQL performance and UDF por JAEGEUN YU
SQL performance and UDFSQL performance and UDF
SQL performance and UDF
JAEGEUN YU149 vistas
인공지능, 기계학습 그리고 딥러닝 por Jinwon Lee
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
Jinwon Lee38.5K vistas
VC를 위한 인공지능 세미나 por JD Yang
VC를 위한 인공지능 세미나VC를 위한 인공지능 세미나
VC를 위한 인공지능 세미나
JD Yang5.8K vistas
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작 por DACON AI 데이콘
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
DACON AI 데이콘1.3K vistas
파이썬과 케라스로 배우는 강화학습 저자특강 por Woong won Lee
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강
Woong won Lee18.6K vistas
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ... por Gyubin Son
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
[paper review] 손규빈 - Eye in the sky & 3D human pose estimation in video with ...
Gyubin Son591 vistas
Introduction toDQN por Curt Park
Introduction toDQNIntroduction toDQN
Introduction toDQN
Curt Park50 vistas
네트워크 경량화 이모저모 @ 2020 DLD por Kim Junghoon
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
Kim Junghoon1.1K vistas
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN) por Curt Park
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
Curt Park36K vistas
Image data augmentatiion por Subin An
Image data augmentatiionImage data augmentatiion
Image data augmentatiion
Subin An159 vistas
03.12 cnn backpropagation por Dea-hwan Ki
03.12 cnn backpropagation03.12 cnn backpropagation
03.12 cnn backpropagation
Dea-hwan Ki787 vistas
파이콘 한국 2019 튜토리얼 - LRP (Part 2) por XAIC
파이콘 한국 2019 튜토리얼 - LRP (Part 2)파이콘 한국 2019 튜토리얼 - LRP (Part 2)
파이콘 한국 2019 튜토리얼 - LRP (Part 2)
XAIC2.5K vistas
Image Deep Learning 실무적용 por Youngjae Kim
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
Youngjae Kim4.5K vistas
한국인공지능연구소 강화학습랩 결과보고서 por Euijin Jeong
한국인공지능연구소 강화학습랩 결과보고서한국인공지능연구소 강화학습랩 결과보고서
한국인공지능연구소 강화학습랩 결과보고서
Euijin Jeong481 vistas
딥뉴럴넷 클러스터링 실패기 por Myeongju Kim
딥뉴럴넷 클러스터링 실패기딥뉴럴넷 클러스터링 실패기
딥뉴럴넷 클러스터링 실패기
Myeongju Kim284 vistas

Imagination-Augmented Agents for Deep Reinforcement Learning

  • 1. Imagination-Augmented Agents for Deep Reinforcement Learning Theophane Weber, Sebastien Racaniere, David P. Reichert, Lars Buesing et al. DeepMind Presented by Choi Seong Jae
  • 2. Introduction • Reinforcement Learning은 Markov Decision Process(MDP) Problem을 해결하기 위한 방법 • 𝑆: a set of states • 𝐴: a set of actions • 𝑇(𝑠’|𝑠, 𝑎): the transition function maps • 𝑅(𝑠, 𝑎, 𝑠’) -> r: the reinforcement function mapping state-action-successor state triples to a scalar return 𝜋∗(𝑠) ← 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎 ∈ 𝐴 𝑄(𝑠, 𝑎) 𝑄(𝑠, 𝑎)= 𝔼 𝑡=0 ∞ 𝑟𝑡|𝑠, 𝑎
  • 3. Introduction • Model-Free RL • Raw observation을 직접적으로 values 혹은 actions에 mapping 하는 함수를 찾음 (Neural Network 이용) • 대량의 training data 필요, 같은 환경에서 novel task로 일반화 할 수 없음 • DQN, A3C, Policy Gradient ETC. • Model-Based RL • Transition matrix 𝑇, reward function 𝑅, state-action space인 𝑆, 𝐴를 알고 있다고 가정 • 𝑆, 𝐴가 커지면 계산 불가 • Model-Free RL의 단점을 해결 가능
  • 4. Overview: I2A • Model-Free Model에 Model-Based의 개념을 추가 • 미래의 상황을 미리 simulation 해 보고, simulation에서 나온 정보를 현재에 적용해 적절한 action을 선택 • https://www.youtube.com/watch?v=iUowxivGfv0
  • 6. I2A: Environment Model • ResNet으로 만들어졌고, Recurrent한 구성 • 𝑂𝑡 or 𝑂𝑡와 action을 Input으로 받고, Trajectory 𝑇 를 Output으로 함 • 𝑇는 next observation 𝑂𝑡+𝑖과 next reward 𝑟𝑡+𝑖를 포함 • Environment Model의 경우 Standard Model-Free Agent에서 생성된 데이터를 이용해 Pre-train 된 Model • Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖은 완벽하지 않지만, 𝑂𝑡+𝑖와 𝑟𝑡+𝑖 을 넘어서는 정보를 갖고 있다고 가정
  • 7. I2A: Rollout Encoder • 각 action 별로 Rollout Encoder가 존재 • Rollout Encoder의 각 Encoder는 LSTM cell 로 구성 • Predicted 𝑂𝑡+𝑖와 𝑟𝑡+𝑖이 완벽하지 않으므로 Encoder를 통해 추가적인 정보를 추출 • Aggregator에서 각 Rollout Encoder에서 나 온 Encoded values를 단순 concatenate
  • 8. Experiments • I2A가 다른 방법들 보다 월등한 성능을 보임 • Copy-Model IAA의 경우 standard와 유사한 성 능을 보임 • No reward IAA의 경우 3e9 steps를 학습할 경 우 I2A 만큼의 성능이 나옴 • Predicted rewards가 도움은 될 수 있지만, Predicted Observations만으로 충분히 Informative 함 • 5 이상의 rolling step에서는 더 이상의 성능 향 상은 없음
  • 9. Experiments • Noisy Environment Model에서 I2A의 성능 상 차이는 없음 • 그러나 poor model의 경우 3 rolling step과 5 rolling step에서 성능 차이를 확인할 수 없음 • Rollout Encoder가 Env. Model에서 불필요한 정보 를 Ignoring 하는 것을 알 수 있음 • Rollout Encoder-free agent의 경우 Env. Model의 정확도가 성능 상 큰 영향을 미침 • Accurate Env. Model에서는 standard와 유사한 성 능을 보임
  • 10. Experiments • AlphaGo에 쓰인 MCTS의 경우 최대 95%의 성능을 보임(Perfect Model) • 하지만 유사한 성능을 낼 때, computation cost가 18배 정도 차이 남 • 4 boxes 상태에서 학습을 하고, box 개수를 늘려보았으나, 여전히 4 boxes standard와 유사한 성능을 냄
  • 11. Conclusion • 단순 과거의 데이터만 이용해 현재 유용한 action을 취하는 것이 아닌, 미래의 상황을 추론하여 정보로 받아들 이고 성능을 향상시킴 • Model-Free RL에 Model-Based RL 개념을 추가 • 기존의 Model-Based Planning Method인 Monte Carlo Tree Search(MCTS)와 병합할 경우 낮은 computation cost로 동일한 성능을 확보 • 의문 • 실험에서 나온 Sokoban 환경의 경우, 하나의 action을 취했을 때 다음 상황은 항상 중요한 정보를 지니는데, 프레임 별로 진행되는 실시간 환경의 경우 다음 상황이 크게 의미 없는 상황일 수 있음. 이러한 환경에서는 어떠한 성능을 보이는지? • 본 논문에서는 Pre-trained Environment Model을 이용해, predicted observation과 reward를 얻어 여기서 정보를 추출했 지만, predicted가 아닌 시뮬레이션을 할 수 있는 환경이라면 좀 더 좋은 성능을 내지는 않을지?
  • 12. Appendix • Standard model-free baseline agent • For Sokoban: 3 layers CNN, kernel sizes 8x8, 4x4, 3x3, strides of 4, 2, 1 and number of output channels 32, 64, 64; following FC has 512 units • Rollout Encoder LSTM has 512(for Sokoban) hidden units. And all rollouts are concatenated into a single vector 𝑐𝑖𝑎 of length 2560(a rollout encoder per action).
  • 13. Appendix • Sokoban environment • Every time step, a penalty of -0.1 is applied to the agent • Whenever the agent pushes a box on target, it receives a reward of +1 • Whenever the agent pushes a box off target, it receives a penalty of -1 • Finishing the level gives the agent a reward of +10 and the level terminates.