コンピュータ将棋について～機械学習を用いた局面学習への道～

Copyright © 2014 OPT, Inc. All Rights Reserved.
コンピュータ将棋について
～機械学習を用いた局面学習への道～

目次
０．導入
１．はじめに
２．コンピュータの知識獲得(探索と評価)
３．機械学習による知識獲得
４．論文の提案(実現確率探索＋n-gram)
５．最後に
2

０．導入
０．導入
１．はじめに
５．最後に

コンピュータ将棋を扱う理由
１．共有会の目的を満たす。
１）すべての方にとって、共有する価値のあるものであること
グラフ構造を持つ将棋の考え方は、
広告・マーケティングにおいても有用だと考えます。
話題性としてもその価値を有していると思います。
２）それなりのハードルがあること
さらに論文を深く突き詰めて行きくことに、十分な価値があると思います。
論文も多くないので、突き詰めると新しい発見のチャンスがあるかもしれません。
２．自分にとって価値ある情報であること
「目立つこと＝つぶしが効くことということ」で考えました。
自分にとって、この軸を深く学ぶことがベストだと考えました。
4

今回紹介する論文
東京大学新領域創成科学研究科基盤情報学専攻博士論文
「ゲーム知識を表現する語彙の棋譜データからの自動獲得」
三輪誠,2008年
http://repository.dl.itc.u-tokyo.ac.jp/dspace/handle/2261/24349
に勉強をさせてもらいまして、
それをまとめました！
5

１．はじめに
０．導入
１．はじめに
５．最後に

将棋は木構造
現局面から次の局面への遷移を枝で表すと、木ができる
遷移遷移
0手目 1手目手目
7
木構造

将棋のゲーム木を作成するには？
人間は、「読み」と「大局観」で指し手を決定するが…
ＰＣは、「探索」と「評価」で指し手を決定する！
tannsaku 評価
↓
探索
↓
評価
↓
探索
具体的には、を繰り返す。
１）探索アルゴリズム
探索をして初めて、ゲーム木探索における変化した先の局面を判断することが可能になる。
２）機械学習を利用した評価関数
変化した先の局面の先の良し悪しを決める。
局面の評価を行い、その有利さから局面同士の順位付けを行う。
8
実現方法

将棋における知識獲得１
プロが残した過去の棋譜を利用する。
( 局面の評価・探索で重要 )
各局面において、評価関数を計算しなければならないので
計算が重い学習アルゴリズムを利用すると、探索能力が落ちる。
・データに必要な情報が含まれるか
・どの情報を中に含めるか
・ビッグデータをどう処理するか
機械学習という一般的な手法を取ってはいるとはいえ、
結果は、データの選択・活用方法によって大きく変わってくる。
9
課題
注意点

前ページ結論
将棋における知識獲得２
必用なデータを十分に獲得できれば、良い学習ができる！
１．大規模データに対して
２．データから冗長・無駄を省き、上手に表現する特徴を生成
⇒ 適切な次元・データ数の特徴から、問題に適した情報の獲得が可能。
「棋譜データ内の共起関係」に着目して
大規模棋譜データから特徴量を取り出す。
提案手法の利点
・一般的な方法で必要な情報を取得
・一定の基準で問題に適した語彙を選択
・問題に適した縮約された情報で対象問題を表現
10
論文の提案
実現方法

博士論文の貢献内容
１．データからの情報の獲得
既存の手法を組み合わせることで、新たな情報獲得の可能性を示した。
２．既存手法の拡張による特徴量作成負担の軽減
既存の手法を組み合わせ、
一般的な方法で共起関係を用いて情報を抽出する方法を提案。
３．ゲーム知識を必要としない語彙の獲得
対象とするゲームによらず、情報を獲得できる一般的方法の可能性を示した。
４．大規模データを対象とした特徴生成手法の提案
従来の機械学習アルゴリズムでは獲得が難しかった大規模データを
有効に扱うことで、既存の情報をより詳細な情報に分けることができた。
５．コンピュータゲームプレイヤの一般的法への貢献
一般的な機械学習による評価関数の重み付け手法と組み合わせることで、
ゲームに依存しない方法で評価関数を作成した。(まだ課題は多いようですが…)
11

２．コンピュータの知識獲得
(探索と評価)
０．導入
１．はじめに
５．最後に

２．１探索

Minmax探索
2プレイヤが最善の手を選ぶと仮定し、
その中で最も自分に有利な状態となる次の手を評価関数を用いて選択する。
１．自分の手番
⇒ 自分に有利な(評価値が最も高い)手を選択。
２．相手の手番
⇒ 相手が最も良い(評価値が最も低い)手を選択し、
その評価値を親ノードの評価値とする。
３．この評価値の親への伝搬を再帰的に繰り返す。
パスができる。
このパスが、コンピュータの読み筋となる。
14
Minimax法のアルゴリズム

探索の効率化
将棋の木は指数爆発する ( ≒ 10220通り )ので、
探索数をどのように抑えるかは重要な課題である。
１．枝刈り
２．探索の順序付け
が重要。
１．αβ 探索(分枝限定法と同様)
・深さ優先探索
・過去に探索・評価したノードの値を、保存・更新
・評価値が現在探索した一定値を超えた場合、その先を探索しない。
例(上図参照)：
( Bの評価値) = 40,( Dの評価値) = 20のとき、必ず、( Aの評価値) = 40となる
(理由) (Eの評価値)=xについて、max(40,min(20,x))=40なので、
ノードEを探索する必要はない。
15
探索アルゴリズムの課題

探索の効率化
２．前向き枝刈り
探索ノードを減らすために、ヒューリスティックに基づいて
・ノードの深い探索で評価値を予測する
・現局面以下を枝刈りできるか判断して枝刈りする
方法が提案されている。一定確率以下
探索打ち切り
「現在の局面から変化して、実際に実現する確率が大きい局面」を探索
「遷移確率」が与えられたとき、
局面が実現する確率は、次のように再帰的に計算できる。
（局面の実現確率）＝（直前の局面の実現確率） x （遷移確率）
局面の実現確率がある閾値以下のとこ、探索を打ち切ることで
「ありそうな展開」だけを読むことができる。
16
実現確率打ち切り探索 ( p.33参照 )

２．２評価

1. 学習による評価関数の獲得
2. 探索効率化での知識獲得
局面評価の注意点：
１．評価知識の利用方法
評価値は探索に大きな影響を与える。
評価値を用いた枝刈りで深く探索をするよりも、
評価関数を用いない浅い探索の方が優れている場合もある。
２．精度と速度
学習結果は探索中に用いられるため、
学習結果を利用するために必要な計算コストが課題になる。
精度と速度のトレードオフ点を探す必要がある。
３．静的評価関数
探索アルゴリズムとの整合性を保つために
静的評価関数 (現在の局面という既知の情報の評価)を扱う。
評価関数とは？ 18
述べること
局面評価の注意点

学習による評価関数の獲得
具体的には
１．深い人間の知識を基に有用と考えられる評価要素を選択し、
２．機械学習を用いて評価の重み調整を行う。(今回はココ)
１）強化学習
対戦を通して、評価関数の重みを調整。
２）教師あり学習
プロの棋譜が与えられた状況で、
その棋譜の指し手・結果、局面の評価と一致するように、評価関数の重みを調整。
殆どのゲームで
強さは、「教師あり学習＞強化学習」だが、
教師あり学習には、
・教師データの取得
・教師データの精度に大きく影響する
というデメリットがある。
19

１．強化学習
自己対戦・他プレイヤとの対戦を通じて評価関数の重みを調整。
教師用データがいらない。
局所最適に陥りやすい。
( 自己対戦＜サーバー上のプレイヤとの対戦 )
TD学習：未来の状態とその報酬から、
現在の状態の補正を行う手法。
終局における勝ち・負けの報酬を、
終局に至るまでの局面に伝搬させる。
局面を終局の評価値に近づくよう
補正する。
20
欠点
利点
TD学習

１．教師あり学習
棋譜を基に機械学習を行うことで重みを調整。
１．指し手の順序関係を教師とした学習
「差し手の順序関係を教師とした学習」が、
「差し手の順序が評価関数での評価」と一致するように学習を行う。
２．棋譜の終局局面を対象とした学習
対戦結果を予測するように評価関数の学習を行う。
序中盤にも教師例が得られるため、
「１．差し手の順序関係を用いた学習」≧ 「２．終局局面を対象とした学習」
21
学習方法

棋譜の指し手と評価関数が一致するように、
１．棋譜の指し手と評価値の順位が一致するように
(指し手の評価) ≧ (その他の手)
となるように、
評価値を学習させる。
２．規模感
数万局 ⇒ 数百万局面 ⇒ 数億手から、
数十万パラメータを学習させる。
１．指し手の順序関係を教師とした学習 22
代表的なソフト「Bonanza」では…

２．探索の効率化における知識獲得 23
改善方法
問題点評価
探索を行う度に
局面を評価する必要があるのだが… 探索
学習の計算は、計算コストが高い。
探索
評価
ルールベースに、人の知識を用いて順位付けする。
- 単純に、差し手の順位だけを決めて
計算コストを削減する。
例.「直前に動いた駒を取る手」「狙われている駒を逃げる手」は、価値が高い！

３．機械学習による特徴量生成
０．導入
１．はじめに
５．最後に

用いるデータの問題
１．データの異常
データのラベル付けにおける矛盾、欠損値の存在により学習が難しくなる。
・データの特徴不足、ラベル付け間違い
・得られない、計測ミスが考えられる。
２．データ形式の非統一
データ形式(連続値・離散値・記号データ)の非統一、正規化の必要などの問題
３．データを表現する特徴の問題
表現している特徴(属性、変量)により、学習が困難となり学習の精度が下がる問題。
データが冗長でなく、かつ十分に表現できる特徴が得られないことが原因。
本論文(将棋)では、
３．の特徴に起因する問題があり、そこを取り上げる。
25
考えられる理由

特徴生成手法
特徴が多い多次元データに対して、次元を下げることを目的として用いられる。
１．計算コストが大きい
２．汎化性能が向上しなくなる
(2.の理由)
・次元が増えるに従いデータ間の距離が離れ、似たような位置に属する相関の高い情報が増える。
・次元に対して、十分な訓練データが得られない。
⇒ 学習が難しくなる。
１．特徴抽出：高次元の特徴空間を元と異なる低次元の特徴空間に射影する
２．特徴選択：特徴から、重要な特徴を選ぶor不要な特徴を省く
３．特徴構築：特徴を組み合わせて、多くの特徴を作った後に、
特徴選択により、重要な特徴を選択する。
26
特徴量生成手法
理由

比較
特徴抽出：軸を新たに合成する、作成する。
特徴選択：軸を選択する。(ある軸を捨てる)
精度計算コスト
特徴抽出 ○ ×
特徴選択 × ○
( 特徴構築は、特徴選択の派生手法 )
３つの手法について、
・目的と分類
・利点と欠点を示す。
27
特徴量生成手法の比較

特徴抽出
( 高次元の特徴空間 ⇒ 低次元へ )
低次元特徴空間では、データ(データのラベルに関する)情報の損失が
少ない射影を行う必要がある。
設定した基準において、空間の射影に必要なパラメータを求める。
１．パラメータを求めるのに、全データを扱う必要がある
⇒ 計算コストが高い。
２．データ処理を、射影後に行う必要がある。
⇒ ランニングコストが高い。
コストが高いものを全く異なる射影空間に射影する
⇒ 指標・学習データについて最適なものを求められることが多い。
１．「教師あり手法」と「教師なし手法」
２．「線形射影手法」と「非線形射影手法」
28
欠点
目的
利点
分類

特徴選択
与えられた特徴の中から重要な特徴を選択。
特徴の一部に着目して取り出す。
全てのデータを用いた計算をする必要がない。
データ処理で、元の特徴で表現されたデータをそのまま使える。
１．選択した特徴が元の特徴に依存して、
互いに独立でなく相関のある特徴が存在する。
２．選択の順番により、結果が異なったりするなど精度が低い。
１．フィルタメソッド
特徴の評価に、機械学習の代わりに適当な評価基準(統計量etc)を用いる手法
２．ラッパーメソッド
選択候補の特徴を用いた機械学習を行い、結果を基に特徴選択を行う手法
計算コスト：フィルタ ≧ ラッパー / 計算精度：フィルタ ≦ ラッパー
( ラッパーメソッドでは過適合が報告されている )
29
利点
欠点
目的
分類

特徴構築(特徴選択の派生でもある)
１．特徴の一部を用いて組み合わせて、新たな特徴を作成
２．その中から特徴選択を行う
( UCIの多くの問題において、1.の方法を取ることで
単純な特徴選択を用いた方法よりも優れた方法であることが確認されている）
特徴を組み合わせて、
互いに相関が少ない多くの情報を持った特徴を作成することができる。
情報の損失が少ない次元削減を行うことができる
面倒
１．主成分分析
２．確率的探索
を用いて特徴を作成し、その後特徴選択を行う。
30
利点
目的
欠点
分類

４．４．新規の提案
(実現確率探索＋n-gram)
０．導入
１．はじめに
５．最後に

研究の概要
１．「実現確率探索」が実装されている将棋ソフト「激指」
遷移確率の計算について、
現在：その局面の指し手の評価
不足：必然手・手筋が組み込まれていない。
２．指し手の履歴に基づいた研究
1) N-gram統計を用いた「必然手」の抽出に関する研究
2) 時系列解析を用いた、カテゴリのより詳細な分類の研究
実現確率探索におけるカテゴリの遷移確率を、
指し手の履歴を含んだ実現確率探索へと切り替える。
32
研究の方針
現状と課題現状と課題

１．実現確率打ち切り探索
木の深さの代わりに、
局面の実現確率を閾値として深さ優先探索を行う探索手法
(局面の実現確率) = (直前局面の実現確率探索)×(遷移確率)
※１
遷移確率：ある局面が,可能な指し手によって遷移しうる局面のうち
ある１つの局面に変化する確率
(遷移確率) =
(実際にカテゴリの手が指された数)
(カテゴリの手が可能である局面数)
※２
羽生善治実践集に含まれる600局のプロの棋譜から、遷移確率を計算している。
(探索手法はαβ探索アルゴリズムと同様だが)
局面の実現確率を閾値としている点で異なる。
ありそうな手を深く読み、なさそうな手を読まない探索を実現した。
33
実現確率探索

２．指し手の履歴についての研究
1) n-gram統計を用いた「必然手」の抽出に関する研究
必然手以外の手の探索ノード数を減らすことで、探索を効率化。
※n-gram統計
それぞれの記号がテキストの中に現れる度数(頻度)
n個の記号が隣接して出現する共起度数
n個の記号の度数を統計分析する方法
2) 時系列解析を用いた指し手の履歴から指し手への連続性を考慮した分類
( 「連打の歩」「歩の突き捨てからの歩のたらし」といった
指し手の分類が可能になった？実験データの公開なし )
本論文では、1)の方法を
激指の実現確率探索に追加している。
34

実現確率の拡張(提案手法)
１．棋譜からカテゴリに分類された指し手のカテゴリ履歴を抽出
２．n-gram統計をもとに指し手の履歴による遷移確率𝑃ℎ𝑖𝑠𝑡𝑜𝑟𝑦を推定
３．履歴による遷移確率𝑃ℎ𝑖𝑠𝑡𝑜𝑟𝑦 と
現在局面の特徴・その局面の着手をもとにしたカテゴリの𝑃𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦
を用いて、遷移確率𝑃を再計算する。
以降、この３点の解説。
１．指し手履歴の抽出
実現確率探索のカテゴリを用いて、
指し手の履歴をカテゴリ履歴として抽出。
⇒ データのスパース性の問題が緩和される
35
実現確率の探索

２．指し手の履歴による遷移確率
差し手の履歴に基づく遷移確率を表現するために
n-gramモデル(n個の連続した指し手)を用いる。
例：
「歩で角、桂頭を攻める手」→「自玉の周辺に駒を埋める手」
という２つの連続した指し手は2-gramとなる。
遷移確率の計算
𝑁：棋譜中に現れるn-gramの数
𝑁𝑖：その次の手がそのカテゴリ i に含まれている数に対して、
遷移確率𝑷𝒊 を、
𝑷𝒊 =
𝑵𝒊
𝑵
と計算。
36
遷移確率の計算

３．指し手の履歴を考慮した遷移確率
N-gramの情報は、木構造で表現
過去の指し手から現在の指し手をさかのぼって
履歴による遷移確率𝑷 𝒉𝒊𝒔𝒕𝒐𝒓𝒚を取得。
元のプログラムとの違い(遷移確率の計算)
１．盤面のこれまでの履歴から、n-gramデータベースを取り、
最後のn-gramツリーの葉ノードの親ノードを取得する。
２．指し手の履歴を考慮した遷移確率𝑃を計算して、
遷移確率の高い方からソートする。
( 従来、履歴による遷移確率𝑃ℎ𝑖𝑠𝑡𝑜𝑟𝑦を考慮しなかったことから、𝑃 ≧ 𝑃𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦である。)
確率が増加したため、従来の探索の閾値に合わせたい。
⇒ log 𝑃 を従来法の閾値に当てはめた。
同じ探索の閾値を用いた時の探索ノード数が、ほぼ同じになることが期待される。
37
元のプログラムとの違い(遷移確率の計算について)

評価と今後の課題
改良以前の激指と対戦し、１５０戦で、８３勝６７敗と勝ち越した。
提案手法が有効であることを確認した。
𝑃ℎ𝑖𝑠𝑡𝑜𝑟𝑦 と 𝑃𝑐𝑎𝑡𝑒𝑔𝑜𝑟𝑦を一度に扱うことには、
・スパース性の問題
・局面、手の履歴の両方から実現確率を計算する困難さ
の問題がある。
本研究では、𝑷 𝒉𝒊𝒔𝒕𝒐𝒓𝒚 と 𝑷 𝒄𝒂𝒕𝒆𝒈𝒐𝒓𝒚 を
互いに独立したものとして扱っているが、
この仮定は、間違っていると考えられる。
38
今後の課題
評価

コンピュータ将棋について～機械学習を用いた局面学習への道～

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Último

Último (8)

コンピュータ将棋について～機械学習を用いた局面学習への道～