Enviar búsqueda
Cargar
強化学習その5
•
6 recomendaciones
•
3,691 vistas
N
nishio
Seguir
モンテカルロ計画法
Leer menos
Leer más
Educación
Denunciar
Compartir
Denunciar
Compartir
1 de 57
Descargar ahora
Descargar para leer sin conexión
Recomendados
強化学習その4
強化学習その4
nishio
強化学習その2
強化学習その2
nishio
強化学習その3
強化学習その3
nishio
強化学習その1
強化学習その1
nishio
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization
Deep Learning JP
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
Recomendados
強化学習その4
強化学習その4
nishio
強化学習その2
強化学習その2
nishio
強化学習その3
強化学習その3
nishio
強化学習その1
強化学習その1
nishio
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
Deep Learning JP
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization
Deep Learning JP
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
semantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
研究の呪い
研究の呪い
Hitoshi Nishikawa
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Koichiro Gibo
Imputation of Missing Values using Random Forest
Imputation of Missing Values using Random Forest
Satoshi Kato
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Kazuyuki Miyazawa
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
夏プロ報告
夏プロ報告
nishio
Más contenido relacionado
La actualidad más candente
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
semantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
研究の呪い
研究の呪い
Hitoshi Nishikawa
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Koichiro Gibo
Imputation of Missing Values using Random Forest
Imputation of Missing Values using Random Forest
Satoshi Kato
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
Deep Learning JP
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Kazuyuki Miyazawa
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
La actualidad más candente
(20)
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
semantic segmentation サーベイ
semantic segmentation サーベイ
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
研究の呪い
研究の呪い
深層生成モデルと世界モデル
深層生成モデルと世界モデル
グラフィカルモデル入門
グラフィカルモデル入門
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
「世界モデル」と関連研究について
「世界モデル」と関連研究について
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
Imputation of Missing Values using Random Forest
Imputation of Missing Values using Random Forest
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Más de nishio
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
夏プロ報告
夏プロ報告
nishio
ITと経営
ITと経営
nishio
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
nishio
交渉力について
交渉力について
nishio
If文から機械学習への道
If文から機械学習への道
nishio
組織横断型研究室構想
組織横断型研究室構想
nishio
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
nishio
良いアイデアを出すための方法
良いアイデアを出すための方法
nishio
線形?非線形?
線形?非線形?
nishio
機械学習キャンバス0.1
機械学習キャンバス0.1
nishio
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
nishio
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
Wifiで位置推定
Wifiで位置推定
nishio
ESP8266EXで位置推定
ESP8266EXで位置推定
nishio
Raspberry PiでWifiルータを作る
Raspberry PiでWifiルータを作る
nishio
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
nishio
「ネットワークを作る」ってどういうこと?
「ネットワークを作る」ってどういうこと?
nishio
「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?
nishio
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
nishio
Más de nishio
(20)
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
夏プロ報告
夏プロ報告
ITと経営
ITと経営
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
交渉力について
交渉力について
If文から機械学習への道
If文から機械学習への道
組織横断型研究室構想
組織横断型研究室構想
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
良いアイデアを出すための方法
良いアイデアを出すための方法
線形?非線形?
線形?非線形?
機械学習キャンバス0.1
機械学習キャンバス0.1
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
Wifiで位置推定
Wifiで位置推定
ESP8266EXで位置推定
ESP8266EXで位置推定
Raspberry PiでWifiルータを作る
Raspberry PiでWifiルータを作る
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
「ネットワークを作る」ってどういうこと?
「ネットワークを作る」ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
Último
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024 「孤独は敵なのか?」
inspirehighstaff03
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
inspirehighstaff03
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
inspirehighstaff03
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
inspirehighstaff03
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
Ken Fukui
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
inspirehighstaff03
What I did before opening my business..pdf
What I did before opening my business..pdf
oganekyokoi
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
ssusere0a682
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
inspirehighstaff03
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
inspirehighstaff03
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
Ken Fukui
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
oganekyokoi
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
inspirehighstaff03
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
inspirehighstaff03
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
oganekyokoi
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
inspirehighstaff03
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
Ken Fukui
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
Ken Fukui
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
inspirehighstaff03
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
Ken Fukui
Último
(20)
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
What I did before opening my business..pdf
What I did before opening my business..pdf
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
強化学習その5
1.
強化学習 その5 部分観測モンテカルロ計画法 (部分観測マルコフ決定過程2) 2017-08-07 @
機械学習勉強会 サイボウズ・ラボ 西尾泰和 過去の資料: https://github.com/nishio/reinforcement_learning
2.
このスライドの目的 大規模なデータを占有してない企業にとって 強化学習の考え方が有用なので 基礎からきちんと理解したい。 そのために機械学習勉強会の何回かに分けて 強化学習の話を連載する。 2
3.
参考文献 2016年10月に左の本が出た。 これを読んでいく。 右下の本が長らくバイブル だったが2000年(原著1998年) 発行。 3 http://amzn.to/2josIJ1 http://amzn.to/2jCnYQg言及する時 [こ] と呼ぶことにする(著者多いので)
4.
今後の予定 第4回(前回): 1章5節 部分観測マルコフ決定過程 第5回:
1章5節 部分観測マルコフ決定過程であま り触れられていないモデルフリーのPOMCP 4
5.
今後の予定 第6回 2.1 統計学習の観点から見たTD学習 2.1.1 強化学習と教師付き学習の学習則 2.1.2~3
関数近似を(する/しない)価値関数推定 (ここまで28ページ) 第7回 2.1.4 セミパラメトリック統計学習に基づく定式 化(10ページ) 2.2 理論性能解析とベイズ (理論薄めでやる。13ページ) 5
6.
今後の予定 第8回 2.3 逆強化学習 第9回
2.4 経験強化型学習 2.5 群強化学習(飛ばします) 第10回 2.6 リスク考慮型強化学習 2.7 複利型強化学習(飛ばします) 第11回 3 強化学習の工学応用 3.3 対話処理における強化学習 6
7.
今後の予定 第12回 3.5 自然言語処理における逆強化学習と模 倣学習 第13回
3.7 深層学習を用いたQ関数の学習 第14回 4 知能のモデルとしての強化学習 7
8.
前回のおさらい 部分観測マルコフ決定過程について学んだ。 2状態の小さい例について実験した。 8
9.
前回のおさらい 部分観測マルコフ決定過程(POMDP) 普通のマルコフ過程と違って 状態の一部が観測不可能 そこで「きっとこうに違いない」という 「信念状態」を導入して新たなMDP (belief MDP)を構築する 9
10.
前回のおさらい 元のMDPがD次元ならbelief MDPの信念状態bは 𝑏 ∈
ℝ 𝐷 になって大変 幸いbelief MDP上の価値関数Vは区分線形で下に 凸なので、D次元ベクトルの集合で効率的に表現 できる しかし厳密に計算するとベクトルの数が指数的 オーダーで増える。そこで定数個のベクトルで近 似するのがPoint Based Value Iteration この両者を実装して2状態3行動で実験した。 10
11.
PBVIの問題点 1. 状態遷移確率を人間が記述して与える 2. (どこまでの状態数でできるか実験してないが) 大規模な問題を解くことが困難(かも) 11
12.
POMCP “Monte-Carlo Planning in
Large POMDPs”* 状態遷移確率を人間が陽に与えるのではなく ブラックボックスのシミュレータを与えて 繰り返し実験によって確率を計算していく 12 * David Silver and Joel Veness(2010)
13.
POMCPの仕組み • 信念状態の推定にパーティクルフィルタ (またの名を逐次的モンテカルロ)を使う • 価値関数の表現にモンテカルロ木探索を使う 13
14.
具体例を先に出そう 今までの勉強会では数式を追ってから実験をする 流れだったが、今回の件に関しては先に具体例を 紹介して具体的に考えて行った方が良さそう。 14
15.
ガイスター 15 • 2人対戦型ゲーム、盤面は6x6 • 各プレイヤーは赤のコマ4つ 青のコマ4つを持つ。上下左右に動く •
対戦プレイヤーのコマの色は そのコマを取るまでわからない
16.
ガイスターの勝利条件 下記3つのいずれかの条件を満たす • 相手の青コマをすべて取る • 自分の赤コマをすべて取られる •
自分の青コマがゴールから脱出する 16 初期配置
17.
部分観測性 “対戦プレイヤーのコマの色は そのコマを取るまでわからない” なので、初期状態で相手の8つのコマのうち どの4つが赤であるのか 8C4 = 70通りの可能性がある 17 注:
2^8 = 256通りと考えると、コマが取られて色が確定したことによる 他のコマの信念の更新が表現できなくなる
18.
Tiny版 人間が問題を理解しやすくするために 4x4盤面に赤と青が1コマずつのバージョンを考 える この場合、勝利条件は • 相手の青コマを取る • 自分の赤コマを取られる •
自分の青コマがゴールから脱出する となる 18
19.
人間が考えてみる Q1: 自分の手番であるコマを進めると、相手のコ マに接触し、次の手番で相手にそのコマを取られ る恐れがある。進めるか? 19
20.
人間が考えてみる A1: そのコマが青である場合、取られると敗北。 そのコマが赤である場合、取られると勝利。 取られずに継続した場合の盤面評価に大きな差が ないなら、赤の場合は進むべき、青の場合は進ま ないべき。 20
21.
人間が考えてみる Q2: (A1をふまえて) 相手のコマが進んで自分のコマに接触した。 取るべき? 21
22.
人間が考えてみる A2: A1をふまえると、取られる位置に進んできた そのコマは赤であるので、取ると敗北。取っては いけない。 22
23.
人間が考えてみる Q3: (A2をふまえて) 最初に青のコマと赤のコマ、 どちらを動かすべき? 23
24.
人間が考えてみる A3: A2をふまえると相手はコマを取らないので 取られることを恐れずに青でゴールまでの最短経 路を進むべき 24
25.
人間が考えてみる Q4: (A3をふまえて) 相手のコマが進んで自分のコマに接触した。 取るべき? 25
26.
人間が考えてみる A4: A3をふまえると相手は青コマを、取られると 思わずに進めてくるので、もちろん取るべき。 26
27.
矛盾 Q2=Q4: 相手のコマが進んで自分のコマに接触した。 取るべき? A2: A1をふまえると、取られる位置に進んできた そのコマは赤であるので、取ると敗北。取っては いけない。 A4: A3をふまえると相手は青コマを、取られると 思わずに進めてくるので、もちろん取るべき。 →矛盾! 27
28.
何がいけなかったか? 質問に対してTrue or Falseの二値論理で答えよう としている。 True100%もFalse100%も最適解ではなく、 確率的に混合されたものが最適。 28
29.
おさらい:方策(policy) 方策 𝜋 𝑎,
𝑠 = 𝑃 𝑎 𝑠 方策はある状態で取る手の確率分布。 最適な方策を見つけるのが強化学習。 29
30.
信念状態の更新 • 接触してきたから赤の可能性が高いだろう • 最初に動いたコマだから青の可能性が高いだ ろう •
など、観測を元に信念状態を更新する 30
31.
パーティクルフィルタ 相手がコマを接触させてきた!これは赤か?青 か? 隠れ状態には70通りの可能性がある。まずこの 70通りの「パーティクル」の集合を考える ここから1個サンプリングする。隠れ状態がその 状態だと仮定してシミュレータに次の一手を打た せる。その次の一手が、実際に観測された相手の 手に一致するものを残す。 これを十分な回数繰り返す。 31
32.
実験に必要なもの • シミュレータ • 外から「今の状態はこれだとせよ」と指定できる ものでなければならない •
行動を選択して返す • つまり𝑃(𝑎|𝑠) • agentはsを直接観測できない=ガイスターのプレ イヤーは相手の色を観測できない • 見せていい情報だけ選んでagentに渡す 32
33.
agentの実装 ようは方策をどうするか 手軽なベースラインは 「ランダムにプレイする」だが 今回のケースでそれをやると 「行動を見ても色の推定に役立たない」 という結果になってしまってイマイチ 33
34.
モンテカルロ 各手ごとに10回ランダムに終局までプレイしそ の勝率が最も高かった手を返す 実装したが、1対戦に4分掛かる(改善の余地あり) 34
35.
素朴な実装 青コマで最短経路でゴールを目指すFastest 人間でもわかる「これ青だろうな」 35 .vvvv. ..vvv. v..... ...... .xoox. .xoo.x 1: 44.30% 2: 38.99% 3:
44.30% 4: 24.67% 8: 42.71% 9: 64.19% 10: 40.85% 12: 100.00%
36.
しばらく進んで 進んできたコマを取った直後、相手の動きを見て 青のコマが全部わかったと判断(間違い) 36 .vvvv. ..v.v. ...v.. ...o.. x.oox. .xo..x 2: 100.00% 10: 100.00% 15:
100.00% .vvvv. ..v.v. ...v.. ...o.. x.oox. .xo..x これが正解 現状の実装では観測結果と信念が矛盾した時には信念を全部廃棄してやり直し
37.
対戦勝率 FastestはRandomに対しては強い {‘WIN’: 979, ‘LOSE’:
21}: 勝率98% Randomにたまに取られることがあっても 無策なRandomよりはだいぶマシだから。 一方FastestとPOMCPだと {‘LOSE’: 95, ‘WIN’: 5}: 勝率5% Fastestは行動から色がバレバレだから。 37 後者の実験に24分掛かる
38.
詳しい実験の前に 詳しい実験に進む前にPOMCPの中身を解説 38
39.
POMCP要素解説 パーティクルフィルタ(逐次モンテカルロ)と モンテカルロ木探索の組み合わせ、と説明したが 実装上は不可分に合体している。 モンテカルロ木探索は部分観測では実行できない ので、まず信念から状態をサンプリング、その状 態を仮定して探索する。 39
40.
モンテカルロ木探索 強化学習の言葉でいえば2つの方策の組み合わせ で探索して、行動価値関数Q(s, a)を推定する手法 2つの方策: ・Tree Policy ・Rollout
Policy 40
41.
Rollout Policy 現在の状態がTreeに含まれていない時に使う方策 具体的には:着手可能手からランダムに手を選ぶ 41 Rollout Policyで手を決め、盤面を更新、新しいs’をシミュレータに渡して 対戦相手の手a’を得る、盤面を更新、新しいs’’に対してRPで手を決め…
42.
注意点 • 今実装しているエージェント(A1)がRollout Policyを使っていることと、シミュレータの中 のエージェント(A2)がどういうポリシーで動く かとは無関係 42 そもそも、たまたまシミュレータ も僕が実装しているからA1とA2を 混同しそうになるだけであって、 シミュレータはブラックボックス で他からgivenでもよい。その場合 中に何が入っているかは知りえな いし、POMCPはそれを知らなくて もよいアルゴリズム。 モンテカルロ木探索の解説で「互 いにランダムに行動して終局まで プレイ」と言われることがあるが、 これはたまたま両方のエージェン トがランダムに手を選ぶ方策なだ けで、必要条件ではない。
43.
注意点 • モンテカルロ木探索はよく「ランダムに手を 選んで終局までプレイ、勝率で評価」と説明 されるが、これは強化学習の言葉でいえば 時間幅T→∞での報酬を収益とすること。 • これは必要条件ではない。 •
POMCPの論文では収益の定義として 割引報酬和を使っている。 • また割り引いた結果が十分小さくなるところ で打ち切るため、実質的に「木の深さに上限 を設けている」という形になる。 43
44.
Tree Policy 現在の状態がTreeに含まれているときに使う方策 Treeの各ノードは ・各actionことの収益の平均 V(h,
a) ・各actionの選択回数 N(h, a) ・信念 B(h) を持っている。 原始的なgreedy方策:「Vが最大になるaを選ぶ」 よく使われるUCB1は選択回数が少ない選択肢を 高めに評価することで利用と探索のトレードオフ 44
45.
注意点 「現在の状態が~」と説明してたけど、 ツリーのノードは状態ではなく 履歴(history)に対応づいている。 Q: stateに対応付けてはダメなのか? A: 隠れ状態は観測できないのでエージェントが どのノードを選んだらいいかがわからない Q:
じゃあ今の観測可能状態に対応付けたら? A: 観測可能な盤面状況が同じでも過去に通った 経路によって信念が異なるからダメ 45
46.
履歴 履歴は以下のような型 • 初期状態: empty •
もしくは以下の組み合わせ • 直前までの履歴 h • 自分が取った行動 a • その結果得られた観測 o a, o, a, o, …という不定長の列になる 46
47.
ツリーはこんな形 47
48.
ツリーはこんな形(圧縮) hの時、hはツリーに含まれているので Tree Policyがつかわれる。 手a0を選び行動した結果、o2を観測したとする (h, a0,
o2)はツリーにないのでノードを生成し、 Rollout Policyで続きを実行する。 48
49.
49
50.
実験結果 想定するエージェントA2がFastestのまま、 対戦相手エージェントA0を 0.1の確率でランダムに行動するFastestP(0.1) →{'LOSE': 98, 'WIN':
2} 50
51.
確率を変えて実験 Fastest→ {‘LOSE’: 95,
‘WIN’: 5} FastestP(0.1)→ {'LOSE': 98, 'WIN': 2} FastestP(0.3)→ {‘LOSE’: 95, ‘WIN’: 5} FastestP(0.5)→ {'LOSE': 92, 'WIN': 8} FastestP(0.7)→ {'LOSE': 95, 'WIN': 5} FastestP(0.9)→ {'LOSE': 90, 'WIN': 10} Random→ {'LOSE': 88, 'WIN': 12} ランダム戦略とFastest戦略のどんな比率での混合 に対してもPOMCPは9割以上の勝率 51
52.
速度が問題 A2がFastest系のままでは、人間がA0をする時に 「赤コマで青コマのようにゴールを目指す」とい う自明な攻略法が存在して面白くない。 せめてA2をモンテカルロにしたいが速度が問題 52
53.
遅い理由 以前、本来見てはいけない対戦相手の情報を見て しまうバグを入れたことがあり、それを警戒する あまり「Gameオブジェクトはsideを引数として 取ってViewオブジェクトを返し、エージェント はViewオブジェクトだけを見る」という設計に している。 この結果、毎回インスタンス作成コストがかかる 53
54.
遅い理由2 Treeの実装が手抜きで、ハッシュに(h, a, o)を キーとしてツッコんでいる。 Treeを真面目にツリーで実装しようと思ったら a(具体的には動かすコマとその動く向き)や o(具体的には盤面状況)を整数にマップする必要 があるが面倒だったので(h,
a, o)のタプルにして Pythonにハッシュ値を計算させている。 どう考えてもメモリの無駄遣い。 54
55.
遅い理由3 昨日の夜に気付いたので実験する暇がなかったの だが 「各手ごとに10回ランダムに終局までプレイ」 ってガイスターの問題設定だと終局までに手数が かなり多くなるのではないか? 割引報酬和タイプにしたらよいのでは…。 傍証: POMCP対Fastestは100対戦24分だがPOMCP 対Randomは100対戦49分。 55
56.
まとめ • Point Based
Value Iterationは状態遷移確率を与 える必要がある • そこでブラックボックスシミュレータを使う 部分観測モンテカルロ計画法(POMCP)を実装 • ガイスターに適用して、ある確率で青コマで のゴールを目指すような相手に対しては隠れ 状態を推定して9割近い勝率を出した • もっと人間にとって自明でない思考ルーチン で実験をしたい 56
57.
参考文献 David Silver and
Joel Veness "Monte-Carlo planning in large POMDPs." Advances in neural information processing systems. 2010. 57
Descargar ahora