SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
DeepMimic: Example-Guided
Deep Reinforcement Learning of
Physics-Based Character Skills
XUE BIN PENG,
UC Berkeley
PIETER ABBEEL,
UC Berkeley
SERGEY LEVINE,
UC Berkeley
MICHIEL VAN DE
PANNE,
University of British
Columbia
arXiv:1804.02717
SIGGRAPH 2018
シミュレーション問題
受動現象の物理ベースシミュレーション(ex. 流体、布 etc)
ほぼ普及
⼈間や動物の動きをモデル化したシミュレーション
依然として困難
永続的な課題として⼀般化と指向性がある
1
背景
⼀般化と指向性とは
⼀般化…⼈間が⼿動で設計したコントローラでは指定の状況下ではうまく
機能するが、新しいスキルや状況を⼀般化することは設計により制限
⼈間は幅広いスキルを⾝につけることを熟知しているが、その能⼒の
下にある内部戦略(the internal strategies)を明確に表現(設計)できない
2
背景
⼀般化と指向性とは
指向性…キャラクターシミュレーションを困難にするもう⼀つの障害
シミュレートされた3D環境下での、キャラクターに所望のモーションを
⾃動⽣成するのは現在のインターフェースでは困難
3
背景
Yin	et	al.	2007
Coros et	al.	2010
Wang	et	al.	2009
Kwon	et	al.	2010
Mordatch et	al.	2010
Sok et	al.	2007
Lee	et	al.	2010
Related Work - ⼆⾜歩⾏
Lasa et	al.	2010
Wu	et	al.	2010
Muico et	al.	2009
Liu	et	al.	2012
Brown	et	al.	2013
Al	Borno et	al.	2013
背景
コンピュターグラフィックによる歩⾏制御は数⼗年に渡り研究されてきた
4
Yin	et	al.	2007
Lasa et	al.	2010
Wu	et	al.	2010
Coros et	al.	2010
Wang	et	al.	2009
Kwon	et	al.	2010
Mordatch et	al.	2010
Sok et	al.	2007
Muico et	al.	2009
Lee	et	al.	2010
Motion	Capture	Data
FSM	/	Simple	Models
Optimization
Liu	et	al.	2012
Al	Borno et	al.	2013
Brown	et	al.	2013
有限ステートマシン(FSM)/
倒⽴振り⼦モデル(Simple)
Related Work - ⼆⾜歩⾏
背景 5
6
深層強化学習の応⽤
Duan et al. 2016 :Benchmarking Deep Reinforcement Learning for Continuous Control
Heess et al. 2016 :Continuous control with deep reinforcement learning
深層強化学習によりスキルを習得し,⼀連のモーション⽣成に成功したが,
最先端のkinematic(運動学的)⼿法や⼿動で設計されたモーションには品質が劣る
Heess et al. 2017 :Emergence of Locomotion Behaviours in Rich Environments
深層強化学習の場合、体部運動や特殊な歩⾏状況では不⾃然なモーションをとる
7
深層強化学習の応⽤
Da Silva et al. 2008 :Simulation of Human Motion Data using Short-Horizon
Model-Predictive Control
Lee et al. 2010a :Data-driven Biped Control
従来はKinematic⼿法で、システム上に物理ベースのトラッキングコントローラを
重ねて設計
実際の動きをデータ(Motion Capture Data)に取り込むことで品質を改善できた
深層強化学習エージェントに、モーションキャプチャまたは⼿作業による
アニメーションデータを組み込むことで学習の品質を改善したい
8
提案型深層強化学習⼿法
モーションキャプチャデータなどを報酬デザインに取り⼊れることで
⾃然な動きでかつタスクを達成できる強化学習⼿法を提案
従来の⼿法では困難だった不⾃然な動きを排除しつつダイナミックな
動作(回し蹴りなど)の⽣成を強化学習で達成
深層強化学習エージェントに、モーションキャプチャまたは⼿作業による
アニメーションデータを組み込むことで学習の品質を改善したい
実験に使われたキャラクターモデル
9
提案型深層強化学習⼿法
本フレームワークを使⽤すると、⾏動を細かく計画するのではなく、
⽬的の⾏動を与えることでキャラクタに練習を通して熟達させることが
できる
また、スキルを別のキャラクタ、別の環境、別のタスクにリターゲットする
ことも可能。さらに、組み合わせて複数のスキルを実⾏することも可能
深層強化学習エージェントに、モーションキャプチャまたは⼿作業による
アニメーションデータを組み込むことで学習の品質を改善したい
10
提案型深層強化学習⼿法
⽅策 ⽅策の⽬的はシミュレートされた環境で所望のモーションを
再現することであり、追加のタスク⽬標も満たす
⽅策勾配法(PPO:Proximal Policy Optimization)で⽅策パラメータ θ* を最適化する
基準動作によって運動学的情報を提供し、⽅策は所望の軌道を実現するために
各タイムステップでどの動作を適⽤すべきかを決定する
dθ(st) :⽅策の元での状態分布
πθ.:⽅策
At :状態stで⾏動at をとることで得られる得点
11
提案型深層強化学習⼿法
状態
・相対座標情報、関節⾓度・関節速度情報
・位相変数φ∈[0,1]:ϕは歩⾏などの周期的なタスクを1周期ごとに区切る
・ゴール :複数あるタスクのうちのどのタスクを実⾏しているかを表すベクトル
⾏動
各関節のPDコントローラ(⽐例微分調節器)の⽬標⽅向を指定する
12
提案型深層強化学習⼿法
⽅策Network
⽅策と価値の推定に別々のニューラルネットワークを⽤いる
⽅策はPPOを使⽤して更新され、価値関数はTD(λ)を使⽤して更新される
Actor-Criticで連続空間の⾏動を扱い、⾏動の⽣成には
proximal policy optimization algorithm(PPO)⽤いる
⾼さマップHは、Height Map(地⾯の⾼さをグリッドに区切って表現したもの)を
⼊⼒するものでタスクに画像⼊⼒のような情報が必要かどうかにより有無が決まる
すべての隠れ層にReLUが使⽤される
状態
⽬標
⾼さマップ
⽅策⽤のニューラルネット
報酬
各ステップtでの報酬関数
r I
t:模倣⽬的(関節⾓度,関節速度,重⼼位置が基準動作にどれくらいうまく従うか)
r G
t:タスク⽬標(どのくらいうまくそのタスクを完了するか)
ω I, ω G:重み(スカラー)
報酬は事前に⽤意した基準動作とエージェントによって制御されたキャラクター
動作とのズレの少なさと,タスクの達成度
模倣⽬的r I
tは、さらに以下のように分解できる:
姿勢報酬r p
t:関節姿勢が基準動作とどれほど⼀致するか
速度報酬r v
t:キャラクタと基準運動の関節速度の差
エンドエフェクタ報酬r e
t:キャラクタの⼿⾜の位置が基準動作に対してどれほど⼀致するか
r c
t:キャラクタの重⼼質量の偏差を基準動作の質量から出⼒
13
提案型深層強化学習⼿法
報酬
模倣⽬的r I
tは、さらに以下のように分解できる
姿勢報酬r p
t:関節姿勢が基準動作とどれほど⼀致するか
速度報酬r v
t:キャラクタと基準運動の関節速度の差
エンドエフェクタ報酬r e
t:キャラクタの⼿⾜の位置が基準動作に対してどれほど⼀致するか
r c
t:キャラクタの重⼼質量の偏差を基準動作の質量から出⼒
14
提案型深層強化学習⼿法
学習
本論⽂では2つの重要な学習ポイントがある
Reference State Initialization (RSI)/ Early Termination (ET)
Reference State Initialization (RSI): 初期状態の与え⽅
エピソードごとの初期状態は、基準動作のいずれかからランダムに選ぶ
既存⼿法では初期姿勢が固定だったが、提案⼿法では模倣対象となるデータからラ
ンダムに取り出して初期姿勢として使う
例えば、バックフリップなら空中で回転している状態や、着地する直前の状態を初
期状態として与えることもある
バックフリップは、回転した”後に”着地をうまくすることがタスクの報酬に⼤きく関
わってくるが、毎回初期姿勢から始めると、動作の後半に到達できないまま学習が
収束してしまう
15
提案型深層強化学習⼿法
学習
Early Termination (ET):早期打切り
不⾃然な動きを学習させないために、胴体や頭などのいずれかの部位が
地⾯に着いたり、胴体の⾼さが⼀定より低くなったりしたときに、
報酬を0のままそのエピソードでの学習は打ち切る
16
提案型深層強化学習⼿法
左:RSI + ET Middle:RSIなし 右:ETなし
結果
17
提案型深層強化学習⼿法
結論
RSIは幅広いタスクに適⽤され、特にエピソードの最後に1つの最終的な
報酬しか得られない問題に役⽴つ
ETはすでに普及しており、本論⽂で有効性が確かめられた
1つのポリシーでどのくらい多くの動作を学習できるかは不明
模倣報酬は、異なる動きの間で共有されるパラメータを有するため、特定の
⾏動に対する特定の価値は各⾏動で相関関係があるかもしれない
18
提案型深層強化学習⼿法
模擬ライオン

Más contenido relacionado

La actualidad más candente

Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Yusuke Nakata
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 

La actualidad más candente (20)

[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 

Más de Tomoyuki Hioki

Analysis of cancer by structural equation
Analysis of cancer by structural equationAnalysis of cancer by structural equation
Analysis of cancer by structural equationTomoyuki Hioki
 
Analysis of cancer and health in each prefecture
 Analysis of cancer and health in each prefecture Analysis of cancer and health in each prefecture
Analysis of cancer and health in each prefectureTomoyuki Hioki
 
Marketing Strategy by American Express
Marketing Strategy by American ExpressMarketing Strategy by American Express
Marketing Strategy by American ExpressTomoyuki Hioki
 
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーションTomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Tomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Tomoyuki Hioki
 
【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at ScaleTomoyuki Hioki
 
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Tomoyuki Hioki
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)Tomoyuki Hioki
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)Tomoyuki Hioki
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
Tomoyuki Hioki
 

Más de Tomoyuki Hioki (18)

Analysis of cancer by structural equation
Analysis of cancer by structural equationAnalysis of cancer by structural equation
Analysis of cancer by structural equation
 
Analysis of cancer and health in each prefecture
 Analysis of cancer and health in each prefecture Analysis of cancer and health in each prefecture
Analysis of cancer and health in each prefecture
 
Marketing Strategy by American Express
Marketing Strategy by American ExpressMarketing Strategy by American Express
Marketing Strategy by American Express
 
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション製品改良と満足度との関係:多属性モデルに基づくシミュレーション
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
 
Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...Power energy system optimization research by reinforcement learning extended ...
Power energy system optimization research by reinforcement learning extended ...
 
【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale【論文紹介】Understanding Back-Translation at Scale
【論文紹介】Understanding Back-Translation at Scale
 
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
 
【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)【論文紹介】Seq2Seq (NIPS 2014)
【論文紹介】Seq2Seq (NIPS 2014)
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

 
Prml1.2.5~1.2.6
Prml1.2.5~1.2.6Prml1.2.5~1.2.6
Prml1.2.5~1.2.6
 
Prml1.2.4
Prml1.2.4Prml1.2.4
Prml1.2.4
 
Prml1.2.3
Prml1.2.3Prml1.2.3
Prml1.2.3
 
Prml1.2.1~1.2.2
Prml1.2.1~1.2.2Prml1.2.1~1.2.2
Prml1.2.1~1.2.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 
PRML1.2
PRML1.2PRML1.2
PRML1.2
 
PRML1.1
PRML1.1PRML1.1
PRML1.1
 

【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills