Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
部分観測モンテカルロ計画法
を用いたガイスターAI
2017-11-10
サイボウズ・ラボ 西尾泰和
このスライドの目的
2017年11月のGPWでのガイスターAI大会に
提出したAIの中身を簡単に解説することで、
不完全情報要素の推測が重要な状況での
AIの作り方に関する研究を促進する。
2
http://www2.matsue-ct.ac....
部分観測マルコフ決定過程
ガイスターは状態のすべてが観測されない
「部分観測マルコフ決定過程」(POMDP)である。
その中でも、状態遷移確率が
明示的に与えられない厄介な問題である。
3
部分観測モンテカルロ計画法
そういう状況で使えるのが部分観測モンテカルロ
計画法。
これは状態遷移確率の代わりに、繰り返し実行で
きるブラックボックスシミュレータを与え、それ
に対するモンテカルロで確率を陽に与えることな
く問題を解く。
4
h...
部分観測モンテカルロ計画法
パーティクルフィルタ(aka 逐次モンテカルロ)
とモンテカルロ木探索の組み合わせである。
5
パーティクルフィルタ部分
観測できない状態を適当な分布(信念)からサンプ
リングして決める。
その状態からシミュレータで相手手番を一手進め
どんな手を打つか観察する。
シミュレータの出した手が、現実の手と一致する
物だけを残す。これが新しい信念...
モンテカルロ木探索部分
信念状態からのサンプリングで状態が定まる。
その状態から適当なRollout Policyに従って手を選
び対戦することでどの手の勝率が高いかの情報を
集める。これを木の形で溜めていく。
ある程度情報の集まっている局面に...
現状
今回のコンテスト参加プログラムはGithubで
公開しているが、ローカルの実験用のリポジトリ
とサーバ接続用クライアントのリポジトリを
締め切り間際にくっつけて無理やりつじつまを合
わせたコードなので、これをベースにするのはお
すすめしな...
Próxima SlideShare
Cargando en…5
×

部分観測モンテカルロ計画法を用いたガイスターAI

1.159 visualizaciones

Publicado el

POMCPを用いたガイスターAIの実装

Publicado en: Educación
  • Sé el primero en comentar

部分観測モンテカルロ計画法を用いたガイスターAI

  1. 1. 部分観測モンテカルロ計画法 を用いたガイスターAI 2017-11-10 サイボウズ・ラボ 西尾泰和
  2. 2. このスライドの目的 2017年11月のGPWでのガイスターAI大会に 提出したAIの中身を簡単に解説することで、 不完全情報要素の推測が重要な状況での AIの作り方に関する研究を促進する。 2 http://www2.matsue-ct.ac.jp/home/hashimoto/geister/
  3. 3. 部分観測マルコフ決定過程 ガイスターは状態のすべてが観測されない 「部分観測マルコフ決定過程」(POMDP)である。 その中でも、状態遷移確率が 明示的に与えられない厄介な問題である。 3
  4. 4. 部分観測モンテカルロ計画法 そういう状況で使えるのが部分観測モンテカルロ 計画法。 これは状態遷移確率の代わりに、繰り返し実行で きるブラックボックスシミュレータを与え、それ に対するモンテカルロで確率を陽に与えることな く問題を解く。 4 https://papers.nips.cc/paper/4031-monte-carlo-planning-in-large-pomdps
  5. 5. 部分観測モンテカルロ計画法 パーティクルフィルタ(aka 逐次モンテカルロ) とモンテカルロ木探索の組み合わせである。 5
  6. 6. パーティクルフィルタ部分 観測できない状態を適当な分布(信念)からサンプ リングして決める。 その状態からシミュレータで相手手番を一手進め どんな手を打つか観察する。 シミュレータの出した手が、現実の手と一致する 物だけを残す。これが新しい信念。相手の手を観 察するたびに信念が更新される。 6
  7. 7. モンテカルロ木探索部分 信念状態からのサンプリングで状態が定まる。 その状態から適当なRollout Policyに従って手を選 び対戦することでどの手の勝率が高いかの情報を 集める。これを木の形で溜めていく。 ある程度情報の集まっている局面についてはTree Policyで手を選択する。(有名なのはUCB1) 7
  8. 8. 現状 今回のコンテスト参加プログラムはGithubで 公開しているが、ローカルの実験用のリポジトリ とサーバ接続用クライアントのリポジトリを 締め切り間際にくっつけて無理やりつじつまを合 わせたコードなので、これをベースにするのはお すすめしない。 またParticle Reinvigorationを実装していないので 「思い込みの激しい性格」になっている。 8

×