UCT 探索による不完全情報下の行動決定

UCT探索による不完全情報下の行動決定 東京大学大学院三木理斗　三輪誠　近山隆

発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論

1. 背景 • 麻雀 • 多人数 • 不完全情報 • 鳴き • Minimax探索の適用が困難 • 戦略が複雑 • 局面状態が不確定 • 手番の不規則な変化

目的 • 麻雀の打ち手の探索 • 戦略の推定 • 不完全情報の推定 • 評価関数 • 手番の割り込み • これらの課題に対応したい • 知識を用いずシミュレーションで手を求める

2. 関連研究 • Minimax探索の拡張 • *-Minimax探索（不確定ゲームへの拡張） • Maxn探索（多人数ゲームへの拡張） • UCT探索 • 多人数ゲームへの拡張 • 不完全情報ゲームへの拡張 • 麻雀に関する研究 • 牌譜を用いた評価関数の重み調整 [北川ら, 2007] • 木カーネルを用いた打ち手の順位学習 [三木ら, 2008]

*-Minimax探索 [Ballard, 1983] • Chanceノードの評価値は子ノードの期待値 • 不完全情報ゲームでは探索空間が大きすぎる • 鳴きがある麻雀では枝刈りが難しい

Maxn探索 [Luckhardt et al., 1986] • それぞれのプレイヤが自分の評価値を最大にする • 評価値最大の手が複数ある場合には任意に選ぶ • 戦略モデルが必要 • 評価関数が必要

UCT [Kocsis and Szepesvari, 2006] • UCB値が最大の子ノードを探索する（UCB1方策）：子　　の平均報酬：子　の探索回数：親の探索回数：バランス定数知識項探索項 • 未探索ノードから先はプレイアウトを行う • ランダムor知識利用 • 終局の結果を報酬として観測

多人数ゲームにおけるUCT [Sturtevant, 2008] ＊プレイアウト方策とMaxn探索での評価関数は敵の駒を無視したときのゴールまでの総距離

不完全情報ゲームにおけるUCT [Schaeffer et al., 2008]

評価関数の重み調整 [北川ら, 2007]

木カーネルSVMを用いた順位学習[三木ら, 2008]

3. 提案手法 • 麻雀の打ち手をUCTアルゴリズムで探索する • UCB1方策で手を決定 • 高度な戦略の推定を必要としない • 不完全情報はランダムシミュレーション • 膨大な探索を必要としない • ランダムプレイアウト • 評価関数を必要としない • 鳴きによる手番の割り込みにも適用できる

麻雀におけるUCT探索の概要 • 局面の見えていない部分をランダム生成する • UCTアルゴリズムを1ループ行う • 1,2を繰り返す • 最も平均報酬の高い手を選択する

局面の生成 相手の手牌と牌山をランダムに割り当てる

14牌ノード（ツモ局面）での探索 • どの牌を切るか、またはカンするか • UCB1方策によって手を決定 14牌ノード 13牌ノード

13牌ノード（鳴き局面）での探索 • ポンするか、鳴かないか • チーするか、鳴かないか • 選択権の高いプレイヤ順にUCB1方策によって決定 13牌ノード 14牌ノード対面がポン下家がチー誰も鳴かない（下家がツモ）

未探索ノード • 終局までランダムプレイアウト東 -4000 南 +8000 西 -2000 北 -2000 • 結果を報酬として経路上のノードを更新

4. 実験 • 実験環境 • Core2 Duo 3GHz • 2GB RAM • 実装 • C++ • 約2000～数万プレイアウト/秒 • 実験方法 • 一致率評価 • コンピュータおよび人間との対戦

実験1 • 牌譜との一致率評価 • 各種パラメータ • 報酬は得点収支 • UCB値のC=1000

プレイアウト回数に対する一致率 • 14牌ノード（ツモ局面）

プレイアウト回数に対する一致率 • 13牌ノード（鳴き局面）

鳴く局面と鳴かない局面 • 縦軸は一致率牌譜で鳴いた局面牌譜で鳴かなかった局面

考察 • プレイアウトを増やすととにかく鳴く • ランダムプレイアウト中にあがることはほとんどない • 報酬のほとんどがノーテン罰符 • 流局テンパイを目指している

実験2 • コンピュータプレイヤと対戦 • グリーディプレイヤ（シャンテン数最小化＋ランダム） • SVMによる評価関数のプレイヤ • 人間と対戦 • 東風荘のRatingで評価

コンピュータプレイヤとの対戦 グリーディ対UCT（100試合400局） SVM対UCT（100試合400局）

人間との対戦 • 第一東風荘（東風戦　食いタンあり　ノーテン親流れ） • 1手5秒 • 123試合631局 • R976　（安定R849） • あがり率　15.8% • 放銃率　　22.0% • 2鳴き率 30.3% • 平均収支　-716

5. 結論 • 麻雀の打ち手をUCT探索によって求めた • ツモ局面で 46% の最善手一致率 • 知識を用いなくてもSVMなどに匹敵する性能 • 問題点 • プレイアウトではほとんどあがれていない • 流局テンパイを目指す打法 • 無駄な鳴きが増えてしまい、振り込みも多い

今後の課題 • 知識の導入 • 不完全情報の推定 • 相手の手牌をそれらしく推定する • プレイアウト • ヒューリスティックを用いてあがれるように打つ • UCT探索の効率化 • FPU・・・未探索ノードのUCB値を下げて木の成長を加速 • UCB1-TUNED・・・パラメータCの動的制御 • 残り時間を考慮した枝刈り

UCT 探索による 不完全情報下の行動決定