SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
ディープラーニングの最新動向
強化学習とのコラボ編⑥ A3C	
2017/1/11
株式会社ウェブファーマー
大政孝充
今回取り上げるのはこれ	
[1] Volodymyr Mnih, Adria` Puigdome`nech Badia, Mehdi
Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David
Silver, and Koray Kavukcuoglu. Asynchronous methods for
deep reinforcement learning. In Proceedings of the 33rd
International Conference on Machine Learning (ICML), pp.
1928–1937, 2016.
Asynchronousな手法によりreplay memoryを廃し、DQNより
高速かつ高精度な学習を達成した!
DQNからA3Cまでのイメージ	
DQN
2013NIPs	
並列処理のしくみ
DQN
2015Nature
UNREAL
Q学習な手法
A3C
psedoな報酬
DistBrief Gorila
actore-criticな手法
Asynchronous
なDQN
強化学習の基本①	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
actor-criticにおける
目的関数の勾配	
1-step Sarsaの損失関数	 Li θi( )= E r +γQ s',a';θi−1( )−Q s,a;θi( )( )
2
n-step Q学習の損失関数	 Li θi( )= E γk
rt+k
k=0
n
∑ + maxγ
a'
n
Q s',a';θi−1( )−Q s,a;θi( )
⎛
⎝
⎜
⎞
⎠
⎟
2
∇θ J θ( )= E ∇θ logπ at | st;θ( ) Rt −Vπ
st( )( )⎡
⎣
⎤
⎦
r
γ Q s,a;θi( )
Vπ
st( )
:割引率	
:報酬	
:状態 s で行動 a を取る場合の行動価値関数	
:状態 s の価値関数
強化学習の基本②	
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数	
これがDQNの場合	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
DQNの損失関数	
:experience replay memory	
:ターゲット・ネットワーク	
D
θ−
強化学習の基本③
actor-critic法のシステム	
Value
Function	
Policy
Critic
Environment
Sutton, Berto. “Reinforcement Learning –an introduction.” 1998.	
state
reward
Actor
TD
error action
DQN(NIPs 2013)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DQN(nature 2015)のしくみ	
Nair, et. al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
DistBeliefのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
ここでcomputer間
のやりとり
Downpour SGDのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.	
最新のparameterを
保持するmaster	
replicaから要求があったら、
その時点の最新parameterを
返す → replicaによってある
時点で使ってるparameterが
違う → asyncronous
SGDの計算が終
わったら勾配を返
す	
DistBeliefで勾配計
算	
ミニバッチをreplicaご
とに分割
Sandblaster L-BFGSのしくみ	
J. Dean, et al “Large Scale Distributed Deep Networks.”
NIPS. 2012.
Gorilaのしくみ	
A. Nair, et al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
Gorilaのしくみ ver.1
共有のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryは1
つを共有する	
Replay
Memory
Gorilaのしくみ ver.2(bundled mode)
個別のreplay memoryを使用	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
ActorのcomputerとLearnerの
computer1つずつで1セットとする	
Actor	 Learner	
全部でNセット	
replay memoryはそれぞれ
のcomputerに配置
Gorila(bundled mode)から
asynchronousなDQNへの変更点①	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Replay
Memory	
・
・
・	
CPU上の1つのスレッドに対応	
Actor	 Learner	
replay memoryを廃止
Gorila(bundled mode)から
asynchronousなDQNへの変更点②	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
代わりに勾配を溜め込む	
gradients	
gradients
Gorila(bundled mode)から
asynchronousなDQNへの変更点③	
Environment	 Q Network	
Shard 1	 Shard 2	 Shard K	
Q Network	
Target
Q Network	
DQN Loss	
Parameter Server for Q-Network	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
gradients	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
Target Q-Network用のserverを作る
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ①	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
θをコピー	   をコピー	
gradients	
gradients	
θ−
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ②	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
状態 s で行動 a をとり、s’ や r を観測	
gradients
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ③	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
Lossを計算
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ④	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
勾配を溜め込む	 dθ ← dθ +
∂L θ( )
∂θ
Shard 1	 Shard 2	 Shard K	
Parameter Server for Q-Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Target Q-Network	
AsynchronousなDQNの流れ⑤	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	gradients	
Environment	 Q Network	
Q Network	
Target
Q Network	
DQN Loss	
・
・
・	
Actor	 Learner	
gradients	
定期的に勾配の積算値  を送り学習する	dθ
A3Cのしくみ	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
A3Cの流れ①	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θをコピー	   をコピー	θv
θ '
θ '
A3Cの流れ②	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
   ステップ間、状態   で方策        
に従い行動   をとる。
tmax π at | st;θ '( )
at
st
V st,θv '( ) を計算する
θ '
θ '
A3Cの流れ③	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
とそれぞれの勾
配を計算する	
R = γi−1
rt−i
i=1
tmax
∑ +V st,θv '( )
dθ = ∇θ ' logπ ai | si;θ '( ) R −V si;θv '( )( )
dθv = dθv +
∂ R −V si;θv '( )( )
2
∂θv '
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
それぞれの勾配を溜め込む
A3Cの流れ④	
Environment	 Network	 Network	
gradients	
Environment	
・
・
・	
gradients	
Actor	 Critic	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θ
θv '
Network	
Shard 1	 Shard 2	 Shard K	
Parameter Server for Network	θv
gradients	
dθ
dθv
θ '
θ '
ごとに勾配の積算値  を送り学習	dθtmax ごとに勾配の積算値  を送り学習	tmax dθv
速度の比較	
DQNとasynchronousな4つの手法との速度に関する比較
asynchronousな手法は概ねDQNより学習速度が早いが、特
にA3Cが早い
速度の比較	
asynchronousな4つの手法において、CPUのスレッドを増や
した場合の速度の増加率
1-step Q学習や 1-step SARSAは増加率が高い
性能の比較	
DQNとasynchronousな4つの手法との得点に関する比較
asynchronousな手法は概ねDQNを上回る
結論	
l  asynchronousな4つの手法はDQNよりも学習速度が早い。
特にA3Cが早い。
l  asynchronousな4つの手法はDQNよりも概ね得点が高い

Más contenido relacionado

La actualidad más candente

方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較gree_tech
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列Kenjiro Sugimoto
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that MattersDeep Learning JP
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Yusuke Fujimoto
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷Eiji Sekiya
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 

La actualidad más candente (20)

方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較OSS強化学習フレームワークの比較
OSS強化学習フレームワークの比較
 
【解説】 一般逆行列
【解説】 一般逆行列【解説】 一般逆行列
【解説】 一般逆行列
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters[DL輪読会]Deep Reinforcement Learning that Matters
[DL輪読会]Deep Reinforcement Learning that Matters
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 

Destacado

A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Taehoon Kim
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介mooopan
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...John Liu
 
強化学習その4
強化学習その4強化学習その4
強化学習その4nishio
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについてTakamasa Mitsuji
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)徹 上野山
 

Destacado (8)

A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
 
ChainerRLの紹介
ChainerRLの紹介ChainerRLの紹介
ChainerRLの紹介
 
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
アクターモデルについて
アクターモデルについてアクターモデルについて
アクターモデルについて
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 

Similar a Introduction to A3C model

2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectComputedasyprocta
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは株式会社クライム
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめNVIDIA Japan
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門NVIDIA Japan
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)tak9029
 
Implementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICImplementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICKazuhiro Hishinuma
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.jsYoshiiro Ueno
 
Kobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルKobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルtnoda
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lispmasayukitakagi
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也Preferred Networks
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望Kohei KaiGai
 

Similar a Introduction to A3C model (20)

2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
KDDCUP2020 ML Track2
KDDCUP2020 ML Track2KDDCUP2020 ML Track2
KDDCUP2020 ML Track2
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
Hello, DirectCompute
Hello, DirectComputeHello, DirectCompute
Hello, DirectCompute
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
 
1070: CUDA プログラミング入門
1070: CUDA プログラミング入門1070: CUDA プログラミング入門
1070: CUDA プログラミング入門
 
Tf勉強会(4)
Tf勉強会(4)Tf勉強会(4)
Tf勉強会(4)
 
Implementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASICImplementation of Counters in ScopedBASIC
Implementation of Counters in ScopedBASIC
 
ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要ADVENTURE_Thermalの概要
ADVENTURE_Thermalの概要
 
並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js並列対決 Elixir × Go × C# x Scala , Node.js
並列対決 Elixir × Go × C# x Scala , Node.js
 
Math works gdlc2019
Math works gdlc2019Math works gdlc2019
Math works gdlc2019
 
Kobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテルKobe.R #15 - Incanter チョットシッテル
Kobe.R #15 - Incanter チョットシッテル
 
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common LispLisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
Lisp Meet Up #19, cl-cuda: a library to use NVIDIA CUDA in Common Lisp
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
 
Wssit slide
Wssit slideWssit slide
Wssit slide
 
Fusion4dIntroduction
Fusion4dIntroductionFusion4dIntroduction
Fusion4dIntroduction
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望TPC-DSから学ぶPostgreSQLの弱点と今後の展望
TPC-DSから学ぶPostgreSQLの弱点と今後の展望
 

Más de WEBFARMER. ltd.

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデルWEBFARMER. ltd.
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaWEBFARMER. ltd.
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELWEBFARMER. ltd.
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfWEBFARMER. ltd.
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)WEBFARMER. ltd.
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料WEBFARMER. ltd.
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdWEBFARMER. ltd.
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーWEBFARMER. ltd.
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-CriticWEBFARMER. ltd.
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)WEBFARMER. ltd.
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN modelWEBFARMER. ltd.
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection modelWEBFARMER. ltd.
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep CompressionWEBFARMER. ltd.
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229WEBFARMER. ltd.
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning MachineWEBFARMER. ltd.
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)WEBFARMER. ltd.
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressenWEBFARMER. ltd.
 

Más de WEBFARMER. ltd. (20)

論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル論文読み会 発表資料 SPMモデル
論文読み会 発表資料 SPMモデル
 
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu OmasaThe 53th Computer Vision Study@ kantou by Takamitsu Omasa
The 53th Computer Vision Study@ kantou by Takamitsu Omasa
 
SPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXELSPIGAN理論と実装について at 論文LT会 in LPIXEL
SPIGAN理論と実装について at 論文LT会 in LPIXEL
 
Nips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdfNips2018 study only_pu_net_pdf
Nips2018 study only_pu_net_pdf
 
第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)第46回コンピュータ・ビジョン勉強会@関東(前編)
第46回コンピュータ・ビジョン勉強会@関東(前編)
 
Chainer Meetup 発表資料
Chainer Meetup 発表資料Chainer Meetup 発表資料
Chainer Meetup 発表資料
 
SLAM_study_document
SLAM_study_documentSLAM_study_document
SLAM_study_document
 
Study Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltdStudy Group of NIPS2017 presented by webfarmer.ltd
Study Group of NIPS2017 presented by webfarmer.ltd
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
 
Machine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマーMachine Learning 15minutes 発表資料(株)ウェブファーマー
Machine Learning 15minutes 発表資料(株)ウェブファーマー
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
 
Connect_GANs_Actor-Critic
Connect_GANs_Actor-CriticConnect_GANs_Actor-Critic
Connect_GANs_Actor-Critic
 
Ml15min発表資料(提出用)
Ml15min発表資料(提出用)Ml15min発表資料(提出用)
Ml15min発表資料(提出用)
 
Introduction to GAN model
Introduction to GAN modelIntroduction to GAN model
Introduction to GAN model
 
Introduction to YOLO detection model
Introduction to YOLO detection modelIntroduction to YOLO detection model
Introduction to YOLO detection model
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
 
ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229ディープラーニング・ハンズオン勉強会161229
ディープラーニング・ハンズオン勉強会161229
 
Introduction to Neural Turning Machine
Introduction to Neural Turning MachineIntroduction to Neural Turning Machine
Introduction to Neural Turning Machine
 
人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)人工知能ハッカソン用プレゼン資料(161217)
人工知能ハッカソン用プレゼン資料(161217)
 
Hackathon 161010 pressen
Hackathon 161010 pressenHackathon 161010 pressen
Hackathon 161010 pressen
 

Introduction to A3C model