Submit Search
Upload
ゲームのモデリング
•
4 likes
•
1,572 views
K
Keiko Mizuno
Follow
第94回Tokyo.Rの発表資料です。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 23
Recommended
Tokyo r94 beginnerssession3
Tokyo r94 beginnerssession3
kotora_0507
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
MICの解説
MICの解説
logics-of-blue
Introduction to Prioritized Experience Replay
Introduction to Prioritized Experience Replay
WEBFARMER. ltd.
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
BERT入門
BERT入門
Ken'ichi Matsui
Recommended
Tokyo r94 beginnerssession3
Tokyo r94 beginnerssession3
kotora_0507
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
MICの解説
MICの解説
logics-of-blue
Introduction to Prioritized Experience Replay
Introduction to Prioritized Experience Replay
WEBFARMER. ltd.
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
BERT入門
BERT入門
Ken'ichi Matsui
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
Shoichi Taguchi
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Shoichi Taguchi
Point net
Point net
Fujimoto Keisuke
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方
Shun Nukui
TokyoR101_BeginnersSession2.pdf
TokyoR101_BeginnersSession2.pdf
kotora_0507
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
hagino 3000
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころ
itoyan110
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
Ichigaku Takigawa
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
B2 Creative Industry Response Evaluation.docx
B2 Creative Industry Response Evaluation.docx
Stephen266013
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
olyaivanovalion
More Related Content
What's hot
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
Shoichi Taguchi
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Shoichi Taguchi
Point net
Point net
Fujimoto Keisuke
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方
Shun Nukui
TokyoR101_BeginnersSession2.pdf
TokyoR101_BeginnersSession2.pdf
kotora_0507
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
hagino 3000
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころ
itoyan110
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
Ichigaku Takigawa
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
What's hot
(20)
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Point net
Point net
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
「世界モデル」と関連研究について
「世界モデル」と関連研究について
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方
TokyoR101_BeginnersSession2.pdf
TokyoR101_BeginnersSession2.pdf
全力解説!Transformer
全力解説!Transformer
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころ
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
ベイズファクターとモデル選択
ベイズファクターとモデル選択
Transformer メタサーベイ
Transformer メタサーベイ
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Recently uploaded
B2 Creative Industry Response Evaluation.docx
B2 Creative Industry Response Evaluation.docx
Stephen266013
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
olyaivanovalion
Week-01-2.ppt BBB human Computer interaction
Week-01-2.ppt BBB human Computer interaction
fulawalesam
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data Storytelling
Neil Barnes
Industrialised data - the key to AI success.pdf
Industrialised data - the key to AI success.pdf
Lars Albertsson
Edukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFx
olyaivanovalion
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998
YohFuh
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
ranjana rawat
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
Suhani Kapoor
CebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptx
olyaivanovalion
Low Rate Call Girls Bhilai Anika 8250192130 Independent Escort Service Bhilai
Low Rate Call Girls Bhilai Anika 8250192130 Independent Escort Service Bhilai
Suhani Kapoor
Introduction-to-Machine-Learning (1).pptx
Introduction-to-Machine-Learning (1).pptx
firstjob4
VidaXL dropshipping via API with DroFx.pptx
VidaXL dropshipping via API with DroFx.pptx
olyaivanovalion
BabyOno dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptx
olyaivanovalion
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
MohammedJunaid861692
April 2024 - Crypto Market Report's Analysis
April 2024 - Crypto Market Report's Analysis
manisha194592
100-Concepts-of-AI by Anupama Kate .pptx
100-Concepts-of-AI by Anupama Kate .pptx
Anupama Kate
Carero dropshipping via API with DroFx.pptx
Carero dropshipping via API with DroFx.pptx
olyaivanovalion
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
ffjhghh
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
atducpo
Recently uploaded
(20)
B2 Creative Industry Response Evaluation.docx
B2 Creative Industry Response Evaluation.docx
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
Week-01-2.ppt BBB human Computer interaction
Week-01-2.ppt BBB human Computer interaction
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data Storytelling
Industrialised data - the key to AI success.pdf
Industrialised data - the key to AI success.pdf
Edukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFx
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
CebaBaby dropshipping via API with DroFX.pptx
CebaBaby dropshipping via API with DroFX.pptx
Low Rate Call Girls Bhilai Anika 8250192130 Independent Escort Service Bhilai
Low Rate Call Girls Bhilai Anika 8250192130 Independent Escort Service Bhilai
Introduction-to-Machine-Learning (1).pptx
Introduction-to-Machine-Learning (1).pptx
VidaXL dropshipping via API with DroFx.pptx
VidaXL dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
BPAC WITH UFSBI GENERAL PRESENTATION 18_05_2017-1.pptx
April 2024 - Crypto Market Report's Analysis
April 2024 - Crypto Market Report's Analysis
100-Concepts-of-AI by Anupama Kate .pptx
100-Concepts-of-AI by Anupama Kate .pptx
Carero dropshipping via API with DroFx.pptx
Carero dropshipping via API with DroFx.pptx
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
代办国外大学文凭《原版美国UCLA文凭证书》加州大学洛杉矶分校毕业证制作成绩单修改
ゲームのモデリング
1.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
2.
自己紹介 水野 景子
(みずの けいこ) • 関西学院大学社会学研究科D1 • 日本学術振興会特別研究員 (DC1) • Twitter: @Mizuno_K5 • ウェブサイト: http://keikomizuno.com/ 研究テーマ (専門は社会心理学) • 社会的ジレンマ状況での意思決定モデルの構築&実証 • サンクション(報酬や罰)の逆効果はなぜ起こるのか • 社会的価値志向性(SVO)を階層モデルで測定 2021/09/10 アヒル本読書会 2 @Mizuno_K5
3.
お話しする内容 Stanによるモデル内のパラメータ推定 階層モデルの推定がしやすいのもベイズ推定法の長所
自由にモデルを書けるうえ、それらの比較も簡単! 2021/09/11 Tokyo.R
4.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
5.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
6.
ギャラドス vs リザードン 2021/09/11
Tokyo.R こうげき 攻撃わざが効く場合と 効かない場合がある ギャラドス(自分) リザードン(相手)
7.
ポケモンを何も知らない人 2021/09/11 Tokyo.R こうげきわざ ・たきのぼり(水) ・パワーウィップ(草)
8.
強化学習 「たきのぼり」と「パワーウィップ」はそれぞれ こうげきが効く確率が決まっている • それぞれ60%と40%とする
その他 (自分が交代、”育て方”、すばやさ関係など)は一切無視 何度も繰り返すうちにどちらを選べばよいかわかる 2021/09/11 Tokyo.R
9.
Q学習モデル (1) 𝑄(𝑡+1) 𝑡𝑎𝑘𝑖 = 𝑄𝑡 𝑡𝑎𝑘𝑖 +
𝜶(𝑅𝑡 − 𝑄𝑡 𝑡𝑎𝑘𝑖 ) 𝑄(𝑡+1) 𝑘𝑢𝑠𝑎 = 𝑄𝑡 𝑘𝑢𝑠𝑎 + 𝜶 (𝑅𝑡 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 2021/09/11 Tokyo.R 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 たきのぼりとパワーウィップの価値(𝑄)が更新される 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 𝑹𝒕:報酬 攻撃がうまくいくと+100 𝜶: 学習率 1回の経験でどれほど Q値を更新するか(0~1) (履歴の参照度合いともいえる) 仮定 初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新 報酬の大きさや学習率はどちらのわざも同じ
10.
Q学習モデル (2) 2021/09/11 Tokyo.R Q値によってわざの選択が行われる たきのぼりが選ばれる確率𝑷(𝒕𝒂𝒌𝒊)は 𝑃
𝑡𝑎𝑘𝑖 = exp 𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 exp(𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 + exp(𝜷 ∗ 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 𝑃 𝑡𝑎𝑘𝑖 = 1 1 + exp(−𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 分母と分子をexp 𝛽 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 で割る 𝜷: 逆温度 Q値の差をどれほど 行動に反映するか (探索傾向ともいえる) たくさん選択肢がある場合 二択の場合
11.
学習率𝜶と逆温度𝜷をStanで推定してみよう 2021/09/11 Tokyo.R 学習率: 1回の経験でどれほどQ値を更新するか
(履歴の参照度合い) 逆温度: Q値の差をどれほど行動に反映するか (探索傾向) ポケモンを知らない人を 集めてくる 40回試行錯誤
12.
ベイズ推定の本領発揮!階層モデル 2021/09/11 Tokyo.R ポケモンを知らない人たち 学習率と逆温度は ひとりひとり 違うのでは? 全員で共通の値 𝜶 𝜶
𝜶 一人ずつ推定 𝜶𝟏 𝜶𝟐 𝜶𝟑 個人差を扱えない! 推定効率がよくない! 階層モデルで推定 𝜶 𝜶𝟏 𝜶𝟐 𝜶𝟑 個人差も扱えるし推定効率もよい
13.
StanでQ学習モデルを書く(Q値の更新部分) 2021/09/11 Tokyo.R 個人ごとに学習率と逆温度を推定してね! 初回の価値(Q値)は0でよろしく! 選ばれたほうのわざだけ Q値を更新してね!
14.
StanでQ学習モデルを書く(わざの選択部分) 2021/09/11 Tokyo.R Q値の差と逆温度によって選択が決まる
15.
推定結果(個人ごと) 2021/09/11 Tokyo.R 学習率: 履歴の参照度合い。大きいほど直前しか見てない(0~1) 逆温度:
探索傾向。0のとき完全にランダムに選択
16.
今回使ったモデル (Q値の更新部分) 𝑄(𝑡+1) 𝑡𝑎𝑘𝑖 = 𝑄𝑡 𝑡𝑎𝑘𝑖 +
𝜶(𝑅𝑡 − 𝑄𝑡 𝑡𝑎𝑘𝑖 ) 𝑄(𝑡+1) 𝑘𝑢𝑠𝑎 = 𝑄𝑡 𝑘𝑢𝑠𝑎 + 𝜶 (𝑅𝑡 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 2021/09/11 Tokyo.R 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 たきのぼりとパワーウィップの価値(𝑄)が更新される 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 𝑹𝒕:報酬 攻撃がうまくいくと+100 𝜶: 学習率 1回の経験でどれほど Q値を更新するか (履歴の参照度合いともいえる) 仮定 初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新 報酬の大きさや学習率はどちらのわざも同じ
17.
もっと色々考えられるよね? 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100に なるのでは 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは
18.
全部Stanで書けます! 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100に なるのでは 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは
19.
モデルの改良(1) 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100にな るのでは 失敗したら報酬が-100になるif文を書く!
20.
モデルの改良(2) 2021/09/11 Tokyo.R 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 初期値も推定するか重みをつける!
21.
モデルの改良(3) 2021/09/11 Tokyo.R 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは 学習率を2種類用意する!
22.
モデル同士の比較も簡単にできる 2021/09/11 Tokyo.R どのモデルがデータを予測できているか? 情報量規準による比較 事後予測チェック
23.
Enjoy ! Stanによるパラメータ推定をポケモン×強化学習で説明
階層モデルの推定がしやすいのもベイズ推定法の長所 自由にモデルを書けるうえ、それらの比較も簡単! 2021/09/11 Tokyo.R