SlideShare a Scribd company logo
1 of 30
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ゲーム体験を支える強化学習の実応用について
SHIBUYA Synapse #2
November 23, 2017
Jun Ernesto Okumura
Yu Kono
Ikki Tanaka
AI System Dept.
DeNA Co., Ltd.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
自己紹介
名前
奥村 エルネスト 純(@pacocat)
経歴(2017/11時点)
宇宙物理学 Ph.D
→ DeNA入社(2014年)
→ データアナリスト@分析部(〜2016年)
- ゲームデータ分析、ゲームパラメータデザイン
→ 機械学習エンジニア@AIシステム部(2017年〜)
- 強化学習・深層学習を使ったゲームAI研究開発
2
強化学習を使った実ビジネスの応用事例を作っていきたい
モチベーション
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
AIシステム部のご紹介
■ DeNA全社のサービスを対象としたAI研究開発組織
⁃ 各事業部のメンバー・データアナリストと連携しながら事業に貢献
■ 画像 / 自然言語処理・音声認識 / 強化学習・最適化
+他社IP利用の
タイトル多数
ロボネコヤマト®はヤマトホールディングス株式会社の登録商標です
3
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
強化学習とゲームAI
■ 強化学習:環境に適応して自律的に学習する枠組み
OpenAI Universe (accessed 2017-11-16)
https://blog.openai.com/universe/
状態・報酬の観測
意思決定
行動選択
環境との
相互作用
ゲームシミュレータ ゲーム画面・ステータスAPI 学習環境
ゲーム領域は強化学習技術が適用しやすい
シミュレータ環境(箱庭)が用意でき、多くの試行錯誤を繰り返せる 4
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
強化学習チームのゲームAI研究開発の取り組み事例
■ 「FINAL FANTASY Record Keeper」におけるステージ設計支援の検証
■ 「逆転オセロニア」におけるバランス調整・対戦AIの検証(本講演)
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~
https://www.slideshare.net/dena_tech/gameai-denatechcon
[CEDEC 2016]果たしてAIはRPGをクリアできるのか?AIによるテストプレイでゲームのクオリティを高める技術とは
http://www.4gamer.net/games/265/G026574/20160901121/
5
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
6
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
7
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
■ オセロ×TCGをコアゲームに据えたアプリゲーム
⁃ オセロがベースだからルールが「誰でもわかる」
⁃ 後半に「逆転」が巻き起こるゲームシステム
■ 2016年2月 サービスイン後、成長を続けている※
■ 2017年10月 1500万ダウンロード突破
■ ゲーム外環境も盛り上がりをみせている(YouTube、リアルイベント)
「逆転オセロニア」について
8
※ “一周年で爆発した「逆転オセロニア」における、ゲーム分析の貢献事例
〜開発・運営の意思決定を全力でサポートする、DeNAのゲーム分析体制〜”
藤江 清隆 & 奥村 純, CEDEC2017
http://cedil.cesa.or.jp/cedil_sessions/view/1729
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
解決したい課題背景① キャラクタースキルの設計
■ 対戦の遊びを豊かにするために、継続的に新キャラを追加している
⁃ 新キャラ追加頻度:週2,3程度、新スキル追加頻度:2,3ヶ月に1回程度
■ パラメータ調整に失敗すると起こること
⁃ ゲームバランスの毀損、デッキの硬直化、対戦UXの単調化、…
キャラクタースキルのバランス調整を、
「ミスなく」「効率的に」行いたい
9
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在の運用:ユーザーログを使ったスキル設計
■ 既存キャラスキルの発動確率と発動実績を分析して、
スキル設計フローに定量的なレビューを導入している
⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整
キャラクター(スキル発動確率順)
ス
キ
ル
ダ
メ
ー
ジ
実
績
(
箱
ひ
げ
図
)
ス
キ
ル
発
動
確
率
(
青
実
線
)
“ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017
https://www.slideshare.net/dena_tech/denatechcon-72603558 10
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在の運用:ユーザーログを使ったスキル設計
■ 既存キャラスキルの発動確率と発動実績を分析して、
スキル設計フローに定量的なレビューを導入している
⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整
キャラクター(スキル発動確率順)
ス
キ
ル
ダ
メ
ー
ジ
実
績
(
箱
ひ
げ
図
)
11
強すぎる
キャラクター
弱すぎる
キャラクター
“ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017
https://www.slideshare.net/dena_tech/denatechcon-72603558
ス
キ
ル
発
動
確
率
(
青
実
線
)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
解決したい課題
1. 既存フローでは新しいスキルの評価を正しくできない
⁃ ログがないためどのように運用されるかリリース前に分からない
2. キャラクターの性能をテストするのにかかる工数が大きい
⁃ 1体ずつデッキタイプに応じた運用や効用の推定を行う必要がある
3. どこまでチューニングを続けても見落としリスクがある
⁃ ゲームが複雑になる中で検証していく要素が爆発的に増えていく
12
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
実現できたら嬉しいこと
1. リリース前の新しいスキルでも検証ができること
⁃ 強化学習による自律的なキャラクター運用の学習
2. 大量の検証によって性能を評価できること
⁃ シミュレータを使った大量の自己対戦の実現
3. レアな壊れケースも効率的に検知できること
⁃ 人間のようなリテラシーで合理的に探索する方法の実現
人間のようにプレイし、新環境にも柔軟に対応する、強いAIの実現※
※ 人間のようなプレイ:(ここでは大まかに)非合理的で違和感のある打ち方をしないプレイ
※ 強い:(あるデッキに対して)勝率が高い
13
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
AIが実現できた場合のユースケース
■ キャラの運用を自律的に学んだAIによるQA支援
⁃ シミュレーションによるキャラの性能評価(≒壊れ値検知)
⁃ 効率的なバグ検知の可能性
■ 「人間のように打ち、強い」対戦AIのコンテンツ化
⁃ 初心者の戦略学習支援(指導碁的コンテンツ)
⁃ AIとの対戦コンテンツ
14
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
15
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
オセロニアAIの研究開発ロードマップ
対応キャラ数
強さ
ルールベースAI
(既存NPC)
ランダムAI
48キャラ
(固定3デッキ)
①教師あり学習
そもそも学習が出来るのか検証
数100キャラ
(定番デッキ)
②表現学習
キャラを拡張できるか検証
トップユーザー
相当
全キャラ~1600体
(新スキル含む)
③強化学習
自律的に強くなるか検証
④先読み機能+チューニング
現実的にどこまで強く出来るか検証
ミドルユーザー
相当
16
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
オセロニアAIの研究開発概要
■ 戦略の表現力を獲得させるためニューラルネットワークとして実装
⁃ 「AlphaGoを参考にした3モジュール」+「表現学習」によって構成
1. 教師あり学習(SLエージェント※)
⁃ 大量の棋譜ログを活用し、人間が実際に打つような指し手を学習
2. 強化学習(RLエージェント※)
⁃ SLエージェントのネットワークを転写して自己対戦によって自律的に学習
⁃ 定期的に仮想の対戦相手ネットワークを更新して徐々に強化
3. 先読み機能(MCTS; Monte Calro Tree Search)
⁃ RLエージェントの推論サポート、学習時の馴れ合い防止
4. 表現学習
⁃ キャラクター運用の分散表現を学習することでキャラ拡張に対応
⁃ 特徴量を減らすことにより学習を効率化&棋譜を有効的に活用
※ SL: Supervised Learning, RL: Reinforcement Learning 17
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
1. 教師あり学習(SLエージェント)
■ 棋譜を使って上位ユーザーの平均戦略を学習
⁃ 空間情報は畳み込みニューラルネットワーク(CNN)で処理
⁃ 行動が動的に変わるため、深層Q学習(DQN)のアーキテクチャを改良
ステータス
手駒
デッキ情報
行動可能手
盤面情報
状態行動価値
(選択確率)
非
空
間
情
報
空
間
情
報
CNN
・・・・・・
・・
・・
全結合層
全結合層
教師あり学習時は
ユーザーの選択/非選択を
教師信号として利用
全結合層
18
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
2. 強化学習(RLエージェント)
■ SLエージェントが学習したネットワーク(上位ユーザーの平均戦略)を
ベースにして、自己対戦による学習を行う
■ 今後、検証していきたいアルゴリズム
⁃ アーキテクチャ:Dueling Net, A3C, PGQ, PCL, FuNs, …
⁃ 状態探索効率化:pseudo-count, PixcelCNN pseudo-count, …
⁃ その他:Prioritized Experience Replay, Inverse RL, …
① ネットワークを転写
SLネットワーク RLネットワーク
② 自己対戦による学習
強さ
自分 相手
(過去の自分)
RL RL
RL
RL
RL
19
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
3. 先読み機能(MCTS; Monte Carlo Tree Search)
■ 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、
次の最適行動を決定する探索的アプローチ
■ 多くの試行を必要とし、シミュレータ速度がボトルネックとなるため、
効率的な探索が必要(e.g. UCT, PUCT, …)
探索ターン
(ルートノード)
自ターン
①ある局面から、取りうる行動を試行
敵ターン
自ターン
バトル終了
…
②行動選択後は、敵ターン含め
バトル終了までプレイアウトを行う
③終了時の状態を行動選択の評価値とし、
これを繰り返すことで統計量を算出する
20
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
4. 表現学習
■ 背景
⁃ 各キャラを区別すると入力情報が膨大になってまう
⁃ 似たような運用方法のキャラは同じように学習したい
■ AI訓練時にキャラ情報を低次元に埋め込む学習器を用意
⁃ 「角に置きたい」「フィニッシャーとして使いたい」といったキャラの
運用方法を低次元のベクトルとして表現することが可能になった
1 0 0 0 … 0 0 0
0 1 0 0 … 0 0 0
~1,600次元(キャラID数分)
…
0.68 -0.12 1.73 0.02 0.98
数次元
…
-0.32 0.07 0.56 0.03 0.11
埋め込み前 埋め込み後
キャラを表現するのに、
キャラ数に応じたベクトルが必要
キャラをより低次元で表現可能
似たような使い方のキャラは似たようなベクトルに
21
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在できていること(教師あり学習)
■ 固定デッキ(神・魔・竜)で教師あり学習を検証
⁃ 48キャラ、3デッキ
■ 既存NPC(ルールベースAI)に対して高い勝率が出せている
⁃ 固定デッキであればミドルユーザーレベルの立ち回りは可能
竜デッキ
魔デッキ
神デッキ
50.9% → 98.0%
49.0% → 90.0%
48.5% → 91.1%
既存NPC同士の勝率※1 教師学習済AIと既存NPCの勝率※2
※1: 定義上、期待値は50%。1,000バトルによる検証結果。
※2: 1,000バトルによる検証結果。 22
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在できていること(表現学習)
■ 表現学習によって、キャラやデッキタイプを拡張性しても学習可能に
⁃ 17デッキ(275キャラ)の同デッキ対戦で平均80%程度の勝率※
⁃ 学習が難しいデッキに対しても一定の勝率が出るようチューニング中
神(試)
竜(試)
魔(試)
竜3(定)
竜2(定)
竜1(定)
魔1(定)
魔2(定)
魔3(定)
神3(定)
神2(定)
神1(定)
混2(定)
混3(定)
混1(定)
全2(定)
全1(定)
神(試)
竜(試)
魔(試)
竜3(定)
竜2(定)
竜1(定)
魔1(定)
魔2(定)
魔3(定)
神3(定)
神2(定)
神1(定)
混2(定)
混3(定)
混1(定)
全2(定)
全1(定)
勝率(%)
AI
既存NPC(ルールベースAI) 23
※学習環境の勝率(実際のデッキ相性を表現するものではありません)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
特殊ダメージ
竜
マス変換
罠毒カウンター
アンデッド
召喚
回復
オーバー
ロード
吸収
2枚
以上
2枚
以上
表現学習で得られる表現の例
24
キャラ表現を3次元に縮減してプロットした例※
(戦略に応じた表現が得られていることが分かる)
※AIの学習過程の図でゲーム戦略の完全な表現を保証するものではありません
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
現在できていること(強化学習、先読み機能)
■ 強化学習
⁃ 簡単なon-policy, off-policyアルゴリズムの検証が完了
⁃ 学習による勝率の上昇を確認、現在チューニング中
■ 先読み機能(MCTS)
⁃ 初期の実装検証が完了
⁃ 高速化を目指して様々な探索アルゴリズムを実験中
今後は研究開発を継続してフィージビリティを確認
実用に耐えるエージェントができ次第サービスインを検討
25
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
26
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
アプリゲームで強化学習を応用する難しさ
1. 環境の構築が大変
⁃ Atari 2600などのベンチマークタスクは強化学習で扱いやすい学習環境
(ALE, OpenAI gym, …)が存在するが、これを0から作る必要がある
⁃ 状態表現はドメイン特有なものになるため特徴量エンジニアリングが複雑
• 経過ターン数, 盤面のスキル情報(毒, 時限スキル, …), 召喚駒…
2. シミュレータ速度がボトルネックになる
⁃ 多くの試行をするために応答をどれだけ高速化できるかが鍵
3. 実利用に際してアーキテクチャの検討・発明が必要
⁃ AIモデルをクライアント/サーバのどちらに持たせるか
⁃ 最新のゲーム環境に追従したシミュレータの更新方法
⁃ 大量のリクエストを捌くための推論やメモリ管理の効率化
27
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
AI活用を見越してやっておいたほうがいいこと
1. AIの学習を念頭に置いたログの設計
⁃ ユーザー行動分析のためのログとは別に、
AIが学習するためのログを事前に定義・実装しておく必要がある
2. シミュレータ開発
⁃ バトルロジックのみを切り離しやすいような設計
⁃ 高速化を念頭に入れた最適化
3. 最新技術に追従する体制作り
⁃ 強化学習・深層学習領域の技術アップデートは非常に早く、
最新アルゴリズムをキャッチアップして実装できるようなチームが必要
4. 現場とのコミュニケーション
⁃ 現場だけでは「AIで何ができるか」が分からないこともある
⁃ 課題を適切に定義したり企画を提案したりするサービス理解と、
現場との密なコミュニケーションが必要
28
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
アプリゲームで強化学習を応用する嬉しさ
■ ゲーム環境という「箱庭」で研究開発ができる
⁃ Atariや囲碁といったゲームとは異なる、より複雑なゲーム環境で、
様々なアルゴリズムを検証できる
⁃ 論文通りの実装をしても上手くいかないことが多く、試行錯誤を通じて
実課題への適用に関する知見が集約されている
■ 強化学習におけるビジネスケースを示せる
⁃ 強化学習はビジネスアプリケーションが比較的困難な領域
⁃ 比較的に適用しやすいゲーム事業で0→1のケースを生み出し続けたい
29
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Copyright © DeNA Co.,Ltd. All Rights Reserved.
ご清聴ありがとうございました

More Related Content

What's hot

組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画までShunji Umetani
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechconDeNA
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~Kenshi Abe
 
2018年01月27日 TensorBoardによる学習の可視化
2018年01月27日 TensorBoardによる学習の可視化2018年01月27日 TensorBoardによる学習の可視化
2018年01月27日 TensorBoardによる学習の可視化aitc_jp
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031Jun Okumura
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 

What's hot (20)

組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ #denatechcon
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
2018年01月27日 TensorBoardによる学習の可視化
2018年01月27日 TensorBoardによる学習の可視化2018年01月27日 TensorBoardによる学習の可視化
2018年01月27日 TensorBoardによる学習の可視化
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031ポーカーAIの最新動向 20171031
ポーカーAIの最新動向 20171031
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 

Similar to ゲーム体験を支える強化学習の実応用について

運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]DeNA
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようSalesforce Developers Japan
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617Jun Okumura
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜佑 甲野
 
ログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechconログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechconDeNA
 
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側Takeshi HASEGAWA
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
オリジナル社内ツールの末路
オリジナル社内ツールの末路オリジナル社内ツールの末路
オリジナル社内ツールの末路Kiyotaka Kunihira
 
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)DeNA Games Tokyo
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action RecognitionToru Tamaki
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門Hideto Masuoka
 
Azure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたいAzure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたいTakahiro Miyaura
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例としてIWASAKI NOBUSUKE
 
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...Shotaro Suzuki
 
ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)aitc_jp
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task LearningFumihiko Takahashi
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1Shunsuke Nakamura
 

Similar to ゲーム体験を支える強化学習の実応用について (20)

運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみよう
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
 
ログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechconログ分析で支えるゲームパラメータ設計 #denatechcon
ログ分析で支えるゲームパラメータ設計 #denatechcon
 
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
「スプラトゥーン」リアルタイム画像解析ツール 「IkaLog」の裏側
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
オリジナル社内ツールの末路
オリジナル社内ツールの末路オリジナル社内ツールの末路
オリジナル社内ツールの末路
 
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
 
「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門「機械学習とは?」から始める Deep learning実践入門
「機械学習とは?」から始める Deep learning実践入門
 
Custom Vision
Custom VisionCustom Vision
Custom Vision
 
Azure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたいAzure Object Anchors のQuick Startで理解を深めたい
Azure Object Anchors のQuick Startで理解を深めたい
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例として
 
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
Introducing the elastic 8.0 release a new era of speed, scale, relevance, and...
 
ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)ソフトウエアジャパン2017 IT Forum AITC(2)
ソフトウエアジャパン2017 IT Forum AITC(2)
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
 
Spiral.AI採用Deck
Spiral.AI採用DeckSpiral.AI採用Deck
Spiral.AI採用Deck
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
 

More from Jun Okumura

Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Jun Okumura
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用Jun Okumura
 
論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“Jun Okumura
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...Jun Okumura
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習Jun Okumura
 
Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Jun Okumura
 

More from Jun Okumura (8)

Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)Applying AI in Games (GDC2019)
Applying AI in Games (GDC2019)
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用CEDEC2018『逆転オセロニア』におけるAI活用
CEDEC2018『逆転オセロニア』におけるAI活用
 
論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“論文紹介:”Playing hard exploration games by watching YouTube“
論文紹介:”Playing hard exploration games by watching YouTube“
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習DeNA TechCon2018 ゲーム体験を支えるための強化学習
DeNA TechCon2018 ゲーム体験を支えるための強化学習
 
Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜Young Pioneer Presentation #4 〜普遍的な美〜
Young Pioneer Presentation #4 〜普遍的な美〜
 

Recently uploaded

UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (9)

UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 

ゲーム体験を支える強化学習の実応用について

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ゲーム体験を支える強化学習の実応用について SHIBUYA Synapse #2 November 23, 2017 Jun Ernesto Okumura Yu Kono Ikki Tanaka AI System Dept. DeNA Co., Ltd.
  • 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 自己紹介 名前 奥村 エルネスト 純(@pacocat) 経歴(2017/11時点) 宇宙物理学 Ph.D → DeNA入社(2014年) → データアナリスト@分析部(〜2016年) - ゲームデータ分析、ゲームパラメータデザイン → 機械学習エンジニア@AIシステム部(2017年〜) - 強化学習・深層学習を使ったゲームAI研究開発 2 強化学習を使った実ビジネスの応用事例を作っていきたい モチベーション
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. AIシステム部のご紹介 ■ DeNA全社のサービスを対象としたAI研究開発組織 ⁃ 各事業部のメンバー・データアナリストと連携しながら事業に貢献 ■ 画像 / 自然言語処理・音声認識 / 強化学習・最適化 +他社IP利用の タイトル多数 ロボネコヤマト®はヤマトホールディングス株式会社の登録商標です 3
  • 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 強化学習とゲームAI ■ 強化学習:環境に適応して自律的に学習する枠組み OpenAI Universe (accessed 2017-11-16) https://blog.openai.com/universe/ 状態・報酬の観測 意思決定 行動選択 環境との 相互作用 ゲームシミュレータ ゲーム画面・ステータスAPI 学習環境 ゲーム領域は強化学習技術が適用しやすい シミュレータ環境(箱庭)が用意でき、多くの試行錯誤を繰り返せる 4
  • 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 強化学習チームのゲームAI研究開発の取り組み事例 ■ 「FINAL FANTASY Record Keeper」におけるステージ設計支援の検証 ■ 「逆転オセロニア」におけるバランス調整・対戦AIの検証(本講演) 強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~ https://www.slideshare.net/dena_tech/gameai-denatechcon [CEDEC 2016]果たしてAIはRPGをクリアできるのか?AIによるテストプレイでゲームのクオリティを高める技術とは http://www.4gamer.net/games/265/G026574/20160901121/ 5
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 6
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 7
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. ■ オセロ×TCGをコアゲームに据えたアプリゲーム ⁃ オセロがベースだからルールが「誰でもわかる」 ⁃ 後半に「逆転」が巻き起こるゲームシステム ■ 2016年2月 サービスイン後、成長を続けている※ ■ 2017年10月 1500万ダウンロード突破 ■ ゲーム外環境も盛り上がりをみせている(YouTube、リアルイベント) 「逆転オセロニア」について 8 ※ “一周年で爆発した「逆転オセロニア」における、ゲーム分析の貢献事例 〜開発・運営の意思決定を全力でサポートする、DeNAのゲーム分析体制〜” 藤江 清隆 & 奥村 純, CEDEC2017 http://cedil.cesa.or.jp/cedil_sessions/view/1729
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 解決したい課題背景① キャラクタースキルの設計 ■ 対戦の遊びを豊かにするために、継続的に新キャラを追加している ⁃ 新キャラ追加頻度:週2,3程度、新スキル追加頻度:2,3ヶ月に1回程度 ■ パラメータ調整に失敗すると起こること ⁃ ゲームバランスの毀損、デッキの硬直化、対戦UXの単調化、… キャラクタースキルのバランス調整を、 「ミスなく」「効率的に」行いたい 9
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在の運用:ユーザーログを使ったスキル設計 ■ 既存キャラスキルの発動確率と発動実績を分析して、 スキル設計フローに定量的なレビューを導入している ⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整 キャラクター(スキル発動確率順) ス キ ル ダ メ ー ジ 実 績 ( 箱 ひ げ 図 ) ス キ ル 発 動 確 率 ( 青 実 線 ) “ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017 https://www.slideshare.net/dena_tech/denatechcon-72603558 10
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在の運用:ユーザーログを使ったスキル設計 ■ 既存キャラスキルの発動確率と発動実績を分析して、 スキル設計フローに定量的なレビューを導入している ⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整 キャラクター(スキル発動確率順) ス キ ル ダ メ ー ジ 実 績 ( 箱 ひ げ 図 ) 11 強すぎる キャラクター 弱すぎる キャラクター “ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017 https://www.slideshare.net/dena_tech/denatechcon-72603558 ス キ ル 発 動 確 率 ( 青 実 線 )
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 解決したい課題 1. 既存フローでは新しいスキルの評価を正しくできない ⁃ ログがないためどのように運用されるかリリース前に分からない 2. キャラクターの性能をテストするのにかかる工数が大きい ⁃ 1体ずつデッキタイプに応じた運用や効用の推定を行う必要がある 3. どこまでチューニングを続けても見落としリスクがある ⁃ ゲームが複雑になる中で検証していく要素が爆発的に増えていく 12
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 実現できたら嬉しいこと 1. リリース前の新しいスキルでも検証ができること ⁃ 強化学習による自律的なキャラクター運用の学習 2. 大量の検証によって性能を評価できること ⁃ シミュレータを使った大量の自己対戦の実現 3. レアな壊れケースも効率的に検知できること ⁃ 人間のようなリテラシーで合理的に探索する方法の実現 人間のようにプレイし、新環境にも柔軟に対応する、強いAIの実現※ ※ 人間のようなプレイ:(ここでは大まかに)非合理的で違和感のある打ち方をしないプレイ ※ 強い:(あるデッキに対して)勝率が高い 13
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. AIが実現できた場合のユースケース ■ キャラの運用を自律的に学んだAIによるQA支援 ⁃ シミュレーションによるキャラの性能評価(≒壊れ値検知) ⁃ 効率的なバグ検知の可能性 ■ 「人間のように打ち、強い」対戦AIのコンテンツ化 ⁃ 初心者の戦略学習支援(指導碁的コンテンツ) ⁃ AIとの対戦コンテンツ 14
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 15
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. オセロニアAIの研究開発ロードマップ 対応キャラ数 強さ ルールベースAI (既存NPC) ランダムAI 48キャラ (固定3デッキ) ①教師あり学習 そもそも学習が出来るのか検証 数100キャラ (定番デッキ) ②表現学習 キャラを拡張できるか検証 トップユーザー 相当 全キャラ~1600体 (新スキル含む) ③強化学習 自律的に強くなるか検証 ④先読み機能+チューニング 現実的にどこまで強く出来るか検証 ミドルユーザー 相当 16
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. オセロニアAIの研究開発概要 ■ 戦略の表現力を獲得させるためニューラルネットワークとして実装 ⁃ 「AlphaGoを参考にした3モジュール」+「表現学習」によって構成 1. 教師あり学習(SLエージェント※) ⁃ 大量の棋譜ログを活用し、人間が実際に打つような指し手を学習 2. 強化学習(RLエージェント※) ⁃ SLエージェントのネットワークを転写して自己対戦によって自律的に学習 ⁃ 定期的に仮想の対戦相手ネットワークを更新して徐々に強化 3. 先読み機能(MCTS; Monte Calro Tree Search) ⁃ RLエージェントの推論サポート、学習時の馴れ合い防止 4. 表現学習 ⁃ キャラクター運用の分散表現を学習することでキャラ拡張に対応 ⁃ 特徴量を減らすことにより学習を効率化&棋譜を有効的に活用 ※ SL: Supervised Learning, RL: Reinforcement Learning 17
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 1. 教師あり学習(SLエージェント) ■ 棋譜を使って上位ユーザーの平均戦略を学習 ⁃ 空間情報は畳み込みニューラルネットワーク(CNN)で処理 ⁃ 行動が動的に変わるため、深層Q学習(DQN)のアーキテクチャを改良 ステータス 手駒 デッキ情報 行動可能手 盤面情報 状態行動価値 (選択確率) 非 空 間 情 報 空 間 情 報 CNN ・・・・・・ ・・ ・・ 全結合層 全結合層 教師あり学習時は ユーザーの選択/非選択を 教師信号として利用 全結合層 18
  • 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 2. 強化学習(RLエージェント) ■ SLエージェントが学習したネットワーク(上位ユーザーの平均戦略)を ベースにして、自己対戦による学習を行う ■ 今後、検証していきたいアルゴリズム ⁃ アーキテクチャ:Dueling Net, A3C, PGQ, PCL, FuNs, … ⁃ 状態探索効率化:pseudo-count, PixcelCNN pseudo-count, … ⁃ その他:Prioritized Experience Replay, Inverse RL, … ① ネットワークを転写 SLネットワーク RLネットワーク ② 自己対戦による学習 強さ 自分 相手 (過去の自分) RL RL RL RL RL 19
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 3. 先読み機能(MCTS; Monte Carlo Tree Search) ■ 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、 次の最適行動を決定する探索的アプローチ ■ 多くの試行を必要とし、シミュレータ速度がボトルネックとなるため、 効率的な探索が必要(e.g. UCT, PUCT, …) 探索ターン (ルートノード) 自ターン ①ある局面から、取りうる行動を試行 敵ターン 自ターン バトル終了 … ②行動選択後は、敵ターン含め バトル終了までプレイアウトを行う ③終了時の状態を行動選択の評価値とし、 これを繰り返すことで統計量を算出する 20
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 4. 表現学習 ■ 背景 ⁃ 各キャラを区別すると入力情報が膨大になってまう ⁃ 似たような運用方法のキャラは同じように学習したい ■ AI訓練時にキャラ情報を低次元に埋め込む学習器を用意 ⁃ 「角に置きたい」「フィニッシャーとして使いたい」といったキャラの 運用方法を低次元のベクトルとして表現することが可能になった 1 0 0 0 … 0 0 0 0 1 0 0 … 0 0 0 ~1,600次元(キャラID数分) … 0.68 -0.12 1.73 0.02 0.98 数次元 … -0.32 0.07 0.56 0.03 0.11 埋め込み前 埋め込み後 キャラを表現するのに、 キャラ数に応じたベクトルが必要 キャラをより低次元で表現可能 似たような使い方のキャラは似たようなベクトルに 21
  • 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在できていること(教師あり学習) ■ 固定デッキ(神・魔・竜)で教師あり学習を検証 ⁃ 48キャラ、3デッキ ■ 既存NPC(ルールベースAI)に対して高い勝率が出せている ⁃ 固定デッキであればミドルユーザーレベルの立ち回りは可能 竜デッキ 魔デッキ 神デッキ 50.9% → 98.0% 49.0% → 90.0% 48.5% → 91.1% 既存NPC同士の勝率※1 教師学習済AIと既存NPCの勝率※2 ※1: 定義上、期待値は50%。1,000バトルによる検証結果。 ※2: 1,000バトルによる検証結果。 22
  • 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在できていること(表現学習) ■ 表現学習によって、キャラやデッキタイプを拡張性しても学習可能に ⁃ 17デッキ(275キャラ)の同デッキ対戦で平均80%程度の勝率※ ⁃ 学習が難しいデッキに対しても一定の勝率が出るようチューニング中 神(試) 竜(試) 魔(試) 竜3(定) 竜2(定) 竜1(定) 魔1(定) 魔2(定) 魔3(定) 神3(定) 神2(定) 神1(定) 混2(定) 混3(定) 混1(定) 全2(定) 全1(定) 神(試) 竜(試) 魔(試) 竜3(定) 竜2(定) 竜1(定) 魔1(定) 魔2(定) 魔3(定) 神3(定) 神2(定) 神1(定) 混2(定) 混3(定) 混1(定) 全2(定) 全1(定) 勝率(%) AI 既存NPC(ルールベースAI) 23 ※学習環境の勝率(実際のデッキ相性を表現するものではありません)
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 特殊ダメージ 竜 マス変換 罠毒カウンター アンデッド 召喚 回復 オーバー ロード 吸収 2枚 以上 2枚 以上 表現学習で得られる表現の例 24 キャラ表現を3次元に縮減してプロットした例※ (戦略に応じた表現が得られていることが分かる) ※AIの学習過程の図でゲーム戦略の完全な表現を保証するものではありません
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 現在できていること(強化学習、先読み機能) ■ 強化学習 ⁃ 簡単なon-policy, off-policyアルゴリズムの検証が完了 ⁃ 学習による勝率の上昇を確認、現在チューニング中 ■ 先読み機能(MCTS) ⁃ 初期の実装検証が完了 ⁃ 高速化を目指して様々な探索アルゴリズムを実験中 今後は研究開発を継続してフィージビリティを確認 実用に耐えるエージェントができ次第サービスインを検討 25
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本日の話の流れ 課題の背景1 - 「逆転オセロニア」のご紹介 - AIで解決したいゲーム運用課題 「逆転オセロニア」のAI開発について2 - AI開発のロードマップ - 学習アーキテクチャのご紹介 - 現在できていること 3 今後に向けて - ゲームAI開発プロジェクトで難しい点 - AI活用を見越してやっておいた方がいいこと 26
  • 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. アプリゲームで強化学習を応用する難しさ 1. 環境の構築が大変 ⁃ Atari 2600などのベンチマークタスクは強化学習で扱いやすい学習環境 (ALE, OpenAI gym, …)が存在するが、これを0から作る必要がある ⁃ 状態表現はドメイン特有なものになるため特徴量エンジニアリングが複雑 • 経過ターン数, 盤面のスキル情報(毒, 時限スキル, …), 召喚駒… 2. シミュレータ速度がボトルネックになる ⁃ 多くの試行をするために応答をどれだけ高速化できるかが鍵 3. 実利用に際してアーキテクチャの検討・発明が必要 ⁃ AIモデルをクライアント/サーバのどちらに持たせるか ⁃ 最新のゲーム環境に追従したシミュレータの更新方法 ⁃ 大量のリクエストを捌くための推論やメモリ管理の効率化 27
  • 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. AI活用を見越してやっておいたほうがいいこと 1. AIの学習を念頭に置いたログの設計 ⁃ ユーザー行動分析のためのログとは別に、 AIが学習するためのログを事前に定義・実装しておく必要がある 2. シミュレータ開発 ⁃ バトルロジックのみを切り離しやすいような設計 ⁃ 高速化を念頭に入れた最適化 3. 最新技術に追従する体制作り ⁃ 強化学習・深層学習領域の技術アップデートは非常に早く、 最新アルゴリズムをキャッチアップして実装できるようなチームが必要 4. 現場とのコミュニケーション ⁃ 現場だけでは「AIで何ができるか」が分からないこともある ⁃ 課題を適切に定義したり企画を提案したりするサービス理解と、 現場との密なコミュニケーションが必要 28
  • 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. アプリゲームで強化学習を応用する嬉しさ ■ ゲーム環境という「箱庭」で研究開発ができる ⁃ Atariや囲碁といったゲームとは異なる、より複雑なゲーム環境で、 様々なアルゴリズムを検証できる ⁃ 論文通りの実装をしても上手くいかないことが多く、試行錯誤を通じて 実課題への適用に関する知見が集約されている ■ 強化学習におけるビジネスケースを示せる ⁃ 強化学習はビジネスアプリケーションが比較的困難な領域 ⁃ 比較的に適用しやすいゲーム事業で0→1のケースを生み出し続けたい 29
  • 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Copyright © DeNA Co.,Ltd. All Rights Reserved. ご清聴ありがとうございました

Editor's Notes

  1. 素材URL: http://free-illustrations.gatag.net/2014/08/01/080000.html http://www.irasutoya.com/2016/10/1.html