SlideShare una empresa de Scribd logo
1 de 57
Descargar para leer sin conexión
強化学習 その5
部分観測モンテカルロ計画法
(部分観測マルコフ決定過程2)
2017-08-07 @ 機械学習勉強会
サイボウズ・ラボ 西尾泰和
過去の資料: https://github.com/nishio/reinforcement_learning
このスライドの目的
大規模なデータを占有してない企業にとって
強化学習の考え方が有用なので
基礎からきちんと理解したい。
そのために機械学習勉強会の何回かに分けて
強化学習の話を連載する。
2
参考文献
2016年10月に左の本が出た。
これを読んでいく。
右下の本が長らくバイブル
だったが2000年(原著1998年)
発行。
3
http://amzn.to/2josIJ1
http://amzn.to/2jCnYQg言及する時 [こ] と呼ぶことにする(著者多いので)
今後の予定
第4回(前回): 1章5節 部分観測マルコフ決定過程
第5回: 1章5節 部分観測マルコフ決定過程であま
り触れられていないモデルフリーのPOMCP
4
今後の予定
第6回
2.1 統計学習の観点から見たTD学習
2.1.1 強化学習と教師付き学習の学習則
2.1.2~3 関数近似を(する/しない)価値関数推定
(ここまで28ページ)
第7回
2.1.4 セミパラメトリック統計学習に基づく定式
化(10ページ)
2.2 理論性能解析とベイズ
(理論薄めでやる。13ページ)
5
今後の予定
第8回 2.3 逆強化学習
第9回 2.4 経験強化型学習
2.5 群強化学習(飛ばします)
第10回 2.6 リスク考慮型強化学習
2.7 複利型強化学習(飛ばします)
第11回
3 強化学習の工学応用
3.3 対話処理における強化学習
6
今後の予定
第12回 3.5 自然言語処理における逆強化学習と模
倣学習
第13回 3.7 深層学習を用いたQ関数の学習
第14回 4 知能のモデルとしての強化学習
7
前回のおさらい
部分観測マルコフ決定過程について学んだ。
2状態の小さい例について実験した。
8
前回のおさらい
部分観測マルコフ決定過程(POMDP)
普通のマルコフ過程と違って
状態の一部が観測不可能
そこで「きっとこうに違いない」という
「信念状態」を導入して新たなMDP
(belief MDP)を構築する
9
前回のおさらい
元のMDPがD次元ならbelief MDPの信念状態bは
𝑏 ∈ ℝ 𝐷
になって大変
幸いbelief MDP上の価値関数Vは区分線形で下に
凸なので、D次元ベクトルの集合で効率的に表現
できる
しかし厳密に計算するとベクトルの数が指数的
オーダーで増える。そこで定数個のベクトルで近
似するのがPoint Based Value Iteration
この両者を実装して2状態3行動で実験した。
10
PBVIの問題点
1. 状態遷移確率を人間が記述して与える
2. (どこまでの状態数でできるか実験してないが)
大規模な問題を解くことが困難(かも)
11
POMCP
“Monte-Carlo Planning in Large POMDPs”*
状態遷移確率を人間が陽に与えるのではなく
ブラックボックスのシミュレータを与えて
繰り返し実験によって確率を計算していく
12
* David Silver and Joel Veness(2010)
POMCPの仕組み
• 信念状態の推定にパーティクルフィルタ
(またの名を逐次的モンテカルロ)を使う
• 価値関数の表現にモンテカルロ木探索を使う
13
具体例を先に出そう
今までの勉強会では数式を追ってから実験をする
流れだったが、今回の件に関しては先に具体例を
紹介して具体的に考えて行った方が良さそう。
14
ガイスター
15
• 2人対戦型ゲーム、盤面は6x6
• 各プレイヤーは赤のコマ4つ
青のコマ4つを持つ。上下左右に動く
• 対戦プレイヤーのコマの色は
そのコマを取るまでわからない
ガイスターの勝利条件
下記3つのいずれかの条件を満たす
• 相手の青コマをすべて取る
• 自分の赤コマをすべて取られる
• 自分の青コマがゴールから脱出する
16
初期配置
部分観測性
“対戦プレイヤーのコマの色は
そのコマを取るまでわからない”
なので、初期状態で相手の8つのコマのうち
どの4つが赤であるのか
8C4 = 70通りの可能性がある
17
注: 2^8 = 256通りと考えると、コマが取られて色が確定したことによる
他のコマの信念の更新が表現できなくなる
Tiny版
人間が問題を理解しやすくするために
4x4盤面に赤と青が1コマずつのバージョンを考
える
この場合、勝利条件は
• 相手の青コマを取る
• 自分の赤コマを取られる
• 自分の青コマがゴールから脱出する
となる
18
人間が考えてみる
Q1: 自分の手番であるコマを進めると、相手のコ
マに接触し、次の手番で相手にそのコマを取られ
る恐れがある。進めるか?
19
人間が考えてみる
A1: そのコマが青である場合、取られると敗北。
そのコマが赤である場合、取られると勝利。
取られずに継続した場合の盤面評価に大きな差が
ないなら、赤の場合は進むべき、青の場合は進ま
ないべき。
20
人間が考えてみる
Q2: (A1をふまえて)
相手のコマが進んで自分のコマに接触した。
取るべき?
21
人間が考えてみる
A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
22
人間が考えてみる
Q3: (A2をふまえて)
最初に青のコマと赤のコマ、
どちらを動かすべき?
23
人間が考えてみる
A3: A2をふまえると相手はコマを取らないので
取られることを恐れずに青でゴールまでの最短経
路を進むべき
24
人間が考えてみる
Q4: (A3をふまえて)
相手のコマが進んで自分のコマに接触した。
取るべき?
25
人間が考えてみる
A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
26
矛盾
Q2=Q4:
相手のコマが進んで自分のコマに接触した。
取るべき?
A2: A1をふまえると、取られる位置に進んできた
そのコマは赤であるので、取ると敗北。取っては
いけない。
A4: A3をふまえると相手は青コマを、取られると
思わずに進めてくるので、もちろん取るべき。
→矛盾!
27
何がいけなかったか?
質問に対してTrue or Falseの二値論理で答えよう
としている。
True100%もFalse100%も最適解ではなく、
確率的に混合されたものが最適。
28
おさらい:方策(policy)
方策 𝜋 𝑎, 𝑠 = 𝑃 𝑎 𝑠
方策はある状態で取る手の確率分布。
最適な方策を見つけるのが強化学習。
29
信念状態の更新
• 接触してきたから赤の可能性が高いだろう
• 最初に動いたコマだから青の可能性が高いだ
ろう
• など、観測を元に信念状態を更新する
30
パーティクルフィルタ
相手がコマを接触させてきた!これは赤か?青
か?
隠れ状態には70通りの可能性がある。まずこの
70通りの「パーティクル」の集合を考える
ここから1個サンプリングする。隠れ状態がその
状態だと仮定してシミュレータに次の一手を打た
せる。その次の一手が、実際に観測された相手の
手に一致するものを残す。
これを十分な回数繰り返す。
31
実験に必要なもの
• シミュレータ
• 外から「今の状態はこれだとせよ」と指定できる
ものでなければならない
• 行動を選択して返す
• つまり𝑃(𝑎|𝑠)
• agentはsを直接観測できない=ガイスターのプレ
イヤーは相手の色を観測できない
• 見せていい情報だけ選んでagentに渡す
32
agentの実装
ようは方策をどうするか
手軽なベースラインは
「ランダムにプレイする」だが
今回のケースでそれをやると
「行動を見ても色の推定に役立たない」
という結果になってしまってイマイチ
33
モンテカルロ
各手ごとに10回ランダムに終局までプレイしそ
の勝率が最も高かった手を返す
実装したが、1対戦に4分掛かる(改善の余地あり)
34
素朴な実装
青コマで最短経路でゴールを目指すFastest
人間でもわかる「これ青だろうな」
35
.vvvv.
..vvv.
v.....
......
.xoox.
.xoo.x
1: 44.30%
2: 38.99%
3: 44.30%
4: 24.67%
8: 42.71%
9: 64.19%
10: 40.85%
12: 100.00%
しばらく進んで
進んできたコマを取った直後、相手の動きを見て
青のコマが全部わかったと判断(間違い)
36
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
2: 100.00%
10: 100.00%
15: 100.00%
.vvvv.
..v.v.
...v..
...o..
x.oox.
.xo..x
これが正解
現状の実装では観測結果と信念が矛盾した時には信念を全部廃棄してやり直し
対戦勝率
FastestはRandomに対しては強い
{‘WIN’: 979, ‘LOSE’: 21}: 勝率98%
Randomにたまに取られることがあっても
無策なRandomよりはだいぶマシだから。
一方FastestとPOMCPだと
{‘LOSE’: 95, ‘WIN’: 5}: 勝率5%
Fastestは行動から色がバレバレだから。
37
後者の実験に24分掛かる
詳しい実験の前に
詳しい実験に進む前にPOMCPの中身を解説
38
POMCP要素解説
パーティクルフィルタ(逐次モンテカルロ)と
モンテカルロ木探索の組み合わせ、と説明したが
実装上は不可分に合体している。
モンテカルロ木探索は部分観測では実行できない
ので、まず信念から状態をサンプリング、その状
態を仮定して探索する。
39
モンテカルロ木探索
強化学習の言葉でいえば2つの方策の組み合わせ
で探索して、行動価値関数Q(s, a)を推定する手法
2つの方策:
・Tree Policy
・Rollout Policy
40
Rollout Policy
現在の状態がTreeに含まれていない時に使う方策
具体的には:着手可能手からランダムに手を選ぶ
41
Rollout Policyで手を決め、盤面を更新、新しいs’をシミュレータに渡して
対戦相手の手a’を得る、盤面を更新、新しいs’’に対してRPで手を決め…
注意点
• 今実装しているエージェント(A1)がRollout
Policyを使っていることと、シミュレータの中
のエージェント(A2)がどういうポリシーで動く
かとは無関係
42
そもそも、たまたまシミュレータ
も僕が実装しているからA1とA2を
混同しそうになるだけであって、
シミュレータはブラックボックス
で他からgivenでもよい。その場合
中に何が入っているかは知りえな
いし、POMCPはそれを知らなくて
もよいアルゴリズム。
モンテカルロ木探索の解説で「互
いにランダムに行動して終局まで
プレイ」と言われることがあるが、
これはたまたま両方のエージェン
トがランダムに手を選ぶ方策なだ
けで、必要条件ではない。
注意点
• モンテカルロ木探索はよく「ランダムに手を
選んで終局までプレイ、勝率で評価」と説明
されるが、これは強化学習の言葉でいえば
時間幅T→∞での報酬を収益とすること。
• これは必要条件ではない。
• POMCPの論文では収益の定義として
割引報酬和を使っている。
• また割り引いた結果が十分小さくなるところ
で打ち切るため、実質的に「木の深さに上限
を設けている」という形になる。
43
Tree Policy
現在の状態がTreeに含まれているときに使う方策
Treeの各ノードは
・各actionことの収益の平均 V(h, a)
・各actionの選択回数 N(h, a)
・信念 B(h)
を持っている。
原始的なgreedy方策:「Vが最大になるaを選ぶ」
よく使われるUCB1は選択回数が少ない選択肢を
高めに評価することで利用と探索のトレードオフ
44
注意点
「現在の状態が~」と説明してたけど、
ツリーのノードは状態ではなく
履歴(history)に対応づいている。
Q: stateに対応付けてはダメなのか?
A: 隠れ状態は観測できないのでエージェントが
どのノードを選んだらいいかがわからない
Q: じゃあ今の観測可能状態に対応付けたら?
A: 観測可能な盤面状況が同じでも過去に通った
経路によって信念が異なるからダメ
45
履歴
履歴は以下のような型
• 初期状態: empty
• もしくは以下の組み合わせ
• 直前までの履歴 h
• 自分が取った行動 a
• その結果得られた観測 o
a, o, a, o, …という不定長の列になる
46
ツリーはこんな形
47
ツリーはこんな形(圧縮)
hの時、hはツリーに含まれているので
Tree Policyがつかわれる。
手a0を選び行動した結果、o2を観測したとする
(h, a0, o2)はツリーにないのでノードを生成し、
Rollout Policyで続きを実行する。
48
49
実験結果
想定するエージェントA2がFastestのまま、
対戦相手エージェントA0を
0.1の確率でランダムに行動するFastestP(0.1)
→{'LOSE': 98, 'WIN': 2}
50
確率を変えて実験
Fastest→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.1)→ {'LOSE': 98, 'WIN': 2}
FastestP(0.3)→ {‘LOSE’: 95, ‘WIN’: 5}
FastestP(0.5)→ {'LOSE': 92, 'WIN': 8}
FastestP(0.7)→ {'LOSE': 95, 'WIN': 5}
FastestP(0.9)→ {'LOSE': 90, 'WIN': 10}
Random→ {'LOSE': 88, 'WIN': 12}
ランダム戦略とFastest戦略のどんな比率での混合
に対してもPOMCPは9割以上の勝率
51
速度が問題
A2がFastest系のままでは、人間がA0をする時に
「赤コマで青コマのようにゴールを目指す」とい
う自明な攻略法が存在して面白くない。
せめてA2をモンテカルロにしたいが速度が問題
52
遅い理由
以前、本来見てはいけない対戦相手の情報を見て
しまうバグを入れたことがあり、それを警戒する
あまり「Gameオブジェクトはsideを引数として
取ってViewオブジェクトを返し、エージェント
はViewオブジェクトだけを見る」という設計に
している。
この結果、毎回インスタンス作成コストがかかる
53
遅い理由2
Treeの実装が手抜きで、ハッシュに(h, a, o)を
キーとしてツッコんでいる。
Treeを真面目にツリーで実装しようと思ったら
a(具体的には動かすコマとその動く向き)や
o(具体的には盤面状況)を整数にマップする必要
があるが面倒だったので(h, a, o)のタプルにして
Pythonにハッシュ値を計算させている。
どう考えてもメモリの無駄遣い。
54
遅い理由3
昨日の夜に気付いたので実験する暇がなかったの
だが
「各手ごとに10回ランダムに終局までプレイ」
ってガイスターの問題設定だと終局までに手数が
かなり多くなるのではないか?
割引報酬和タイプにしたらよいのでは…。
傍証: POMCP対Fastestは100対戦24分だがPOMCP
対Randomは100対戦49分。
55
まとめ
• Point Based Value Iterationは状態遷移確率を与
える必要がある
• そこでブラックボックスシミュレータを使う
部分観測モンテカルロ計画法(POMCP)を実装
• ガイスターに適用して、ある確率で青コマで
のゴールを目指すような相手に対しては隠れ
状態を推定して9割近い勝率を出した
• もっと人間にとって自明でない思考ルーチン
で実験をしたい
56
参考文献
David Silver and Joel Veness
"Monte-Carlo planning in large POMDPs."
Advances in neural information processing
systems. 2010.
57

Más contenido relacionado

La actualidad más candente

推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれからcyberagent
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces UnderfittingDeep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論Koichiro Gibo
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random ForestSatoshi Kato
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 

La actualidad más candente (20)

推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
研究の呪い
研究の呪い研究の呪い
研究の呪い
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論GEE(一般化推定方程式)の理論
GEE(一般化推定方程式)の理論
 
Imputation of Missing Values using Random Forest
Imputation of Missing Values using  Random ForestImputation of Missing Values using  Random Forest
Imputation of Missing Values using Random Forest
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 

Más de nishio

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミングnishio
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告nishio
 
ITと経営
ITと経営ITと経営
ITと経営nishio
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAInishio
 
交渉力について
交渉力について交渉力について
交渉力についてnishio
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道nishio
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想nishio
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義nishio
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法nishio
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?nishio
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1nishio
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分nishio
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定nishio
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定nishio
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作るnishio
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)nishio
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?nishio
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?nishio
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用nishio
 

Más de nishio (20)

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告
 
ITと経営
ITと経営ITと経営
ITと経営
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
 
交渉力について
交渉力について交渉力について
交渉力について
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
 

Último

My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」inspirehighstaff03
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfinspirehighstaff03
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」inspirehighstaff03
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドKen Fukui
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」inspirehighstaff03
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdfoganekyokoi
 
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slidessusere0a682
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」inspirehighstaff03
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドKen Fukui
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfoganekyokoi
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」inspirehighstaff03
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」inspirehighstaff03
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfoganekyokoi
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」inspirehighstaff03
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドKen Fukui
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドKen Fukui
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドKen Fukui
 

Último (20)

My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」
 
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdfMy Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdf
 
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
 
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライドリアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
 
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
 
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライドリアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
 

強化学習その5