180215 Ponanzaにおける強化学習、ディープラーニングとその先

大渡勝己 (Katsuki Ohto)
HEROZ株式会社
2018.2.15
本文およびデータ等（P4、P13、P17、P25 、P31 ~P36）の
著作権を含む知的所有権はHEROZ株式会社に帰属し、事前にHEROZ株式会社への
書面による承諾を得ることなく本資料およびその複製物に修正・加工することは堅く禁じられています。
また、本資料およびその複製物を送信、複製および配布・譲渡することは堅く禁じられています。
Ponanzaにおける強化学習、
ディープラーニングとその先

1
HEROZ 会社概要
日本の伝統文化の将棋発AIで世界を驚かす!
世界を驚かすサービスを創出する
人工知能（AI）革命を起こし、未来を創っていく集団ビジョン
驚きを心に、何事も楽しむバリュー
ミッション

頭脳ゲーム
エンジン
将棋・囲碁など
多数のゲームで適応
予測
エンジン
過去の蓄積データを基に
未来の数値を予測
個別の需要に適した
判断を実現
ゲーム開発
エンジン
ゲームルールを
論理的に処理し
ゲーム開発をサポート
経路最適化
エンジン
複雑な条件を
満たしたうえで
最適な経路を発見
配置最適化
エンジン
需要に適した
最適な配置を実現
分類
エンジン
データの特徴を理解し
カテゴリに分類
文章生成
エンジン
自然言語を理解し
個別対応に適した
応答を実現
最適解探索
エンジン
満たすべき条件の中で
目的に適した解を発見
画像認識
エンジン
画像データから
物体の特徴を認識
異常検知
エンジン
時系列データを解析し
異常状態を検知
HEROZ Kishin（棋神）
これまでの人間には解決できなかった問題に挑戦し、新時代の創造を目指していきます。
独自AI「HEROZ Kishin」プラットフォーム

HEROZ Kishin × 各産業
構造設計
HEROZ Kishin
生産ラインの
異常検知
製造
求職者と企業の
マッチング
人材
市場予測・個別
マーケティング
金融
サイトの
自動テスト・解析
ソフトウェア
検証建設
配送時の
経路最適化
物流

4
AI(BtoC)サービス
 人工知能関連技術を活かし、将棋・チェス・バックギャモン等のストラテジーゲームを世界中に展開中
 IPの特性を最大限に活かした協業展開中
事業内容
人工知能(AI)を活用したインターネットサービスの企画・開発・運営
AI(BtoB)サービス
 「将棋ウォーズ」等の開発を通じて蓄積した機械学習等の人工知能（AI）関連技術をFinTech
（フィンテック：金融IT）、ヘルスケア、製造、交通、物流、建設、流通、人材等の各産業にも応用展開中
 既に大手金融機関に当社の人工知能技術が活用されるなど収益化にも成功しており、同分野における
研究開発を一層強化中
将棋ウォーズどうぶつしょうぎ
ウォーズ
CHESS HEROZ
（英語）
BackgammonAce
（英語）
ポケモンコマスター
(Pokémon Duel）
囲碁ウォーズ

5
講演者紹介
過去12種類のゲームAI大会に参加
大富豪、カーリング、囲碁、将棋、ぷよぷよ、Trax、
人狼、Block Go、Dots & Boxes、ターン制戦略ゲーム、
5五将棋、サイコロ将棋
プロフィール大渡勝己
~ 2014.3 学部生 (5年間) 軟式庭球部
2014 (空白期間、ひたすらゲームAIを書く)
2015 大分県庁臨時職員（社会復帰）
2015.9 ~ 2017.9 大学院生ゲームAI研究
2017.10 ~ HEROZ株式会社

6
講演者紹介
©︎UECコンピュータ大貧民大会実行委員会

7
講演者紹介

8
自分とPonanzaについて
・元々個人で将棋プログラムの大会にも参加していて、
2017年春にはディープラーニングのみのプログラムで出場
・ 2017年6月から5ヶ月間、
Ponanzaにディープラーニングの導入を行なった
（なので名人に勝つまでには無関係）
・第5回将棋電王トーナメント 3位

9
講演内容
1.将棋プログラムがどのように強くなってきたのか
（強化学習）
2.Ponanzaにおけるディープラーニングの利用
3.Alpha (Go) Zero とゼロからの学習
4.これからのAIに向けて

10
将棋プログラムの作り
探索手法
多くの将棋プログラムは
ミニマックス法ベースのアルゴリズム
3 -11 3 30
ミニマックス法
25 -7
自分 → 相手の順番で行動を選び、
お互いに最善の行動をした場合の
評価を計算
相手の手番
自分の手番

11
探索手法
3 -151 3 3 -70
2
1 -1 -7
相手の手番…
（自分にとって）最も悪いものを選ぶ

12
探索手法
3 -151 3 3 -70
2
1 -1 -7
1
自分の手番…
最も良いものを選ぶ
試合中は段々と探索木を大きくしていく
（反復深化）

13
将棋プログラムにおける機械学習
3駒評価関数
玉を含む3駒の関係(Bonanza由来)を利用した
勝率予測が高速で高精度
パラメータ数が数千万
…人間が手調整するのは不可能

14
将棋における強化学習
手法解説
長時間考えた結果を短時間で再現できるように学習
深く読んだ結果（勝率 75%）を正解とし、
浅く読んだ結果が深く読んだ結果に近づくようにパラメータ修正
勝率 65% 勝率 75%
浅い探索深い探索

15
長時間考えた結果を短時間で再現できるように学習
の局面の評価に使われたパラメータを動かして 75%に近づける
（実際にはの局面の評価も変わってしまうし、探索の結果の最善経路も変化する可能性があるが、
細かいことは気にしない）
手法解説
勝率 65% 勝率 75%
浅い探索深い探索

16
教師あり学習との比較
教師あり学習 (プロの棋譜) 強化学習
データ数約6万試合 (数百万局面) いくらでも増やせる
(Ponanzaは1度に100億局面程度)
学習時間 (線形関数なら)
短時間
データ生成時間が
データの量と質に比例
データの質(精度) 将棋ならプロ棋譜の精度は高い
強さにばらつきがある
1つ1つあたりの精度はあまり高くない
(計算時間の都合)
課題データ数が少ない
人間がそもそも選ばない局面の
学習ができない
データの多様性を確保するのが大変
強化学習にも課題はあるが、
データの数が揃わない中では可能性が狭められる

17
コンピュータ将棋が新手を生み出す時代
強化学習によってコンピュータが
人間と違う手を選ぶようになる
→
戦略が見直され、
人間同士の試合でも使われるようになる
例: 序盤に飛車を1段目に引く手

18
Q.Ponanza と他プログラムは何が違った?
A.
・コードが短く、読みやすい
（ゲームAI初学者でも構造をすぐ解釈できると思う、
なぜ強いか真に理解するのはとてつもなく難しいけれど）
・その分対戦実験 / 検証のプログラムが充実し、
手間をかけずにトライアンドエラーを繰り返せる
・やればほんの少しだけよくなる事が自明な細かい改良はしない、
未知の可能性を秘めたところに注力する

19
ディープラーニング
・ディープラーニングとは何か? 大量の足し算と掛け算の集合
(仮にコンピュータへのを命令1つ1つをアルファベットとすると)
-既存の将棋プログラムの処理 A - G - C - R - H - A - A - J - I - U - G - F ….
-ディープラーニングの処理 AAAA - BBBB - AAAA - AAAA

20
AlphaGoZeroにおけるディープラーニング
実装と学習
• 盤面の履歴 (8手分)を入力し、
最善手の予測 (policy)
勝率の予測 (value)
を同時に行うニューラルネット
• 複数の値を同時に出力するマルチタスク学習 Mastering the game of Go without human
knowledge (Silver et al., 2017b)

21
将棋におけるディープラーニング
実装と学習
• Ponanzaは大会出場する上位プログラムの中では
最も早くニューラルネットを実用化
(2017.5 世界コンピュータ将棋選手権
Ponanza Chainer)
「手の予測」を行い、外部サーバで動かして通信
• その後ニューラルネット部分の担当が自分になり、
使用ライブラリがTensorflowに変更
• Ponanza同士の対戦棋譜1400万試合から
着手と勝敗を一緒に学習
• Ponanza側のコードも書き換えて、
C++から直接Tensorflowを呼び出す
Ponanza Chainer
のNN
Ponanza
(Tensoflow)
のNN
元画像
Mastering the game of Go
without human knowledge
(Silver et al., 2017)

22
将棋におけるディープラーニング
インプットの作成（案）
囲碁: （最低限）白石と黒石の2チャネルで盤面を表現できる
将棋: 駒の種類ごとにチャネルを用意
- 自分の駒 14 種類
- 相手の駒 14 種類
駒がある位置にだけ 1 計 28チャネル
持ち駒は枚数分のチャネルを1で埋める
金銀桂香各 4枚、飛角各2枚、歩 8枚※
計 56チャネル
他手数 (コンピュータの試合では256手で強制引分のため) 1チャネル、王手中か 1チャネル
計 86 チャネル利用
自分の歩相手の香車
※チャネル…入力画像の次元
画像処理なら RGBの3色など
※歩は最大18枚だが、重要度低いので省略

23
大人の知能と子どもの知能
既存の探索部 (秒間 600万局面) … 理詰めで解決する
「大人の知能」
ニューラルネット ... 計算局面数が少ないが、鋭い感性を持つ
「子供の知能」
大会に向けて、2つの「知能」をどう協調させるかを考えて製作した
（→子どもだけに絞った方がいいのかもしれなかったが…）

24
Ponanza with Deep Learning
アルゴリズム
• Policyの確率で探索順序決定
確率の和によって探索打ち切り判定
• 探索深さが増えると打ち切り閾値を大きくする
• Valueの予測勝率と
探索の予測勝率を混ぜる
（ただし元が相対評価なら相対評価として返す）
• 探索深さが深ければそちらの重みを大きくする
95% 2%
3%
95 + 3 = 98% > 閾値
打ち切り！
探索 80 %
NN 60%
→70%
探索 < 80 %
NN 70%
→ < 75 %95% 2%
3%
95 + 3 = 98% > 閾値
打ち切り！
探索 80 %
NN 60%
→70%
探索 < 80 %
NN 70%
→ < 75 %
採用されたニューラルネットの使い方は以下
子どもの直感を大人の精密な読みで確認するイメージ

25
学習したニューラルネットの出力例
既存のプログラムでも色々な情報を使って
オーダリングを行ってきたが、
ニューラルネットは最善手の確率を予測できる
「盤上この一手」状態なので、
（探索が進まない限り）他の手は読まない！
序盤の読みが数手深くなる事もあった
ニューラルネット出力:
(右の局面)
2四同歩 99.99%
それ以外 (ごく僅か)

26
ニューラルネット計算スレッドを分けて非同期に計算（概略）
探索を止めないので探索速度の低下が小さく、
バッチ計算でニューラルネットの計算局面数も増やせる
計算依頼キュー
ニューラルネット
計算スレッド
計算結果テーブル
ニューラルネットの
結果が欲しい局面で依頼
ニューラルネットの
結果があれば利用する
探索スレッド
キューに一定個数溜まっていれば
まとめて計算
計算結果をテーブルに保存

27
非同期・バッチ処理により、探索速度の低下を抑えつつ多数の局面を
ニューラルネットで計算できるようになった
ただし、局面ごとの遅延時間
（計算リクエスト〜結果が返るまで）
はさらに大きくなる
↑ 「処理数」と「遅延時間」のジレンマ
将棋の場合、処理数重視でも動く
- 既存の探索の性能が高いから
- 同じ局面を探索する時間間隔が
だんだんと大きくなるから

28
Q.Ponanza with DeepLearning は電王トーナメントで
なぜ負けたの?
A.自分の実力不足です。
-DeepLearning無しのプログラムに勝率7割くらい、
劇的には強くできなかった
-他プログラムのオープンソース開発で知識の共有が進み、
全体のレベルは日々上がっている
-そもそもトーナメント形式の大会で勝ち続けるのは他プログラムに
対して圧倒する実力がないといけない
-これまでの開発者(山本さん、下山さん)は凄かった

29
Alpha Go Zero のゼロからの学習
・2017/10
人間の知識を使わずに
囲碁をゼロから学習
Mastering the game of Go without human
knowledge (Silver et al., 2017)

30
Alpha Zero の登場
・2017/12 AlphaGo Zero のアルゴリズムを汎用的に適用した
AlphaZero
・チェス、将棋、囲碁にて最高クラスのプログラムを超えた
(2017春コンピュータ将棋選手権優勝のelmoに勝率 9割)
Mastering Chess and Shogi by Self-Play
with a General Reinforcement Learning
Algorithm (Silver et al., 2017b)

31
AlphaZeroはなぜ成功したか
誤差と平均化
・ニューラルネットはもちろん神では無いし、色々な弱点がある
・ただし、使い所によってはそれを打ち消す事ができる
・例として、Ponanza以降に会社で開発している
囲碁プログラム「棋神」の挙動を見てみます
アプリ画面より

32
誤差と平均化
・右の局面、左上の白石◯たちが取られるので
黒が勝つ局面

33
誤差と平均化
黒が勝つ局面
（実際に取れる石を取ってみた図）

34
誤差と平均化
黒が勝つ局面
・開発中のプログラム(棋神)の
ニューラルネットは
この局面を 67% 白◯ 勝ち
と判断してしまった
(左上の死にが分かっていない??)
白 (W) から見て 67%

35
誤差と平均化
・短時間 (1秒未満) の思考で黒勝ちと判定した
どの手でもほぼ負けだという結果

36
誤差と平均化
・先読みで石を取れることがわかった?
と思ったら読み筋では石を取られる順は先送りしている
・実際に読み筋を進めて見たら、石を取られていないが
評価が負けになっていた
・最初の局面では正しく評価できていなかったが、
探索中に正しく評価できている局面の方が多く??
全体として負けだと認識できた

37
誤差と平均化
・ニューラルネットは人間がすぐわかる大きな間違いをすることはよくある
・ただし、明確な理由付けが無い (ように見える)ので、
少しの変化で正しい判断をすることもある
・モンテカルロ木探索の「平均を取る」操作が誤差を打ち消す
10人全員正しい
or
10人全員間違える
7人くらいが正しい、
3人くらいが間違える
どちらが「使える」だろう??
人間の知識を詰め込んだシステムディープラーニングに任せたシステム

38
誤差と平均化
・Ponanza 等の探索方法 (ミニマックス系の探索) と
AlphaZero 等の探索方法 (モンテカルロ木探索)
お互いに一番良さそうな手順
の先端で評価する
ミニマックス探索モンテカルロ木探索
ありそうな複数の手順の評価
の平均を最終評価とする

39
AlphaZero の強化学習アルゴリズム
• 前提①
AlphaZero = 「ニューラルネット」「探索（先読み）アルゴリズム」
• 前提②
ニューラルネット単体でもプレーしたり勝ち負けを予測したりできるが、
先読みを行うともっと強くなる
• 前提③
質の高いニューラルネットがあれば、
より質の高い先読みが行えて強くなる

40
• 学習手順
探索ありで
試合棋譜を作成
棋譜の手/結果から
教師あり学習で
ニューラルネットを学習
繰り返し
Silver et al. (2017)

41
• 強さの向上の概念図
• まずランダムの状態での
勝ち負けを学び、それを使って
探索すれば少し強くなる
• 探索の結果の手は
ニューラルネットそのままより
強いので、それを教師とする
• 強くなれば勝ち負けの評価も
妥当になり勝率予測も精度向上
棋譜から学習
NNを探索に使う

42
• 難しいのは
学習サンプルの多様性
• 自分の大富豪AIでも
似たような手法を
2年前から使っているが、
大富豪と違って
初期局面のランダム性が無いので
大変だと思っていた
棋譜から学習
NNを探索に使う

43
AlphaZero vs Ponanza
AlphaZeroとPonanzaのニューラルネットを比較
AlphaZero Ponanza with Tensorflow
ネットワーク入力 9 x 9 x 362
(7手前までの履歴)
9 x 9 x 86
(現局面のみ)
ネットワーク構成 ResNet20ブロック(実質40層)?
256フィルタ
CNN に工夫を加えたもの
（PFNの方発案のアーキテクチャ）
12層 256フィルタ
学習方法ゼロから探索ありの強化学習過去のPonanzaの着手・評価・勝敗
1500万試合から教師あり学習
（着手の一致率 56% 弱）
製作使用リソース TPUv1 5000枚(対戦)
v2 15枚(学習)
elmo 超えまで 2h 弱
これまでさくらインターネットさんから
お借りしたCPU等最大数十台 (対戦)
GPU1枚 (学習) 1ヶ月

44
Q.Ponanza と AlphaZero はどちらが強い?
A. 論文における他プログラム(elmo)との勝率からは
差はほとんど無いように見える
ただしAlphaZeroは全く別手法なので
実力差はさらに大きい可能性もある
（個人の感想です）
ディープラーニング部分の担当者としては完敗中の完敗
Ponanza
elmo
AlphaZero
将棋プログラムの表現空間
一般論として、「似ている」プログラム間では強さの差が
勝率に表れやすい傾向がある

45
終章これからのAIに向けて
・ニューラルネットワークやモンテカルロ木探索は、
「何にでも使えるが限界がある」と言われ続けてきたアルゴリズム
・ただその限界は思われていたよりずっと高かった
・「筋の良い」技術が生き残る
・（付け焼き刃的な技術は、省電力のため、致命的な間違いをしないため、
などですぐ消えはしない）

46
これからのAIに向けて
・自分も色々なゲームAIをやってきたが、
世の中がものすごいスピードで進化している
・2人ゲームはAlphaZeroが
汎用の学習ルーチンを定式化できた
・不完全・多人数ゲームでも
状態空間の自動抽象化とモデルベース強化学習などで
簡単に書ける時代はすぐそこ
・今後目指すところは、「特化型AIを作る」AI
そのためのコア技術はきっとゲームの知識でも
ゲームAIの知識でもない
一人ゲームを強化学習でプレイするDQNも
見違える進歩を遂げている
Distributed Prioritized
Experience Replay(Under
review as ICLR2018.)

47
これからのAIに向けて
・既存システムでも、磨けば光るのでレベルは上がっていく（頂上に近づく）
・しかし、革新を起こすには今の山を一度降りる勇気が必要
https://ja.wikipedia.org/wiki/
屏風岳_(蔵王連峰の山)
↓既存システム
↓AlphaZero
→
こちらに
もっと
高い山がある

180215 Ponanzaにおける強化学習、ディープラーニングとその先

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

180215 Ponanzaにおける強化学習、ディープラーニングとその先

Notas del editor