370 likes | 741 Views
UCT 探索による 不完全情報下の行動決定. 東京大学大学院 三木理斗 三輪誠 近山隆. 発表の流れ. 背景 関連研究 提案手法 実験 結論. 1. 背景. 麻雀 多人数 不完全情報 鳴き Minimax 探索の適用が困難 戦略が複雑 局面状態が不確定 手番の不規則な変化. 目的. 麻雀の打ち手の探索 戦略 の推定 不完全情報の推定 評価関数 手番の割り込み これらの課題に対応したい 知識を用いずシミュレーションで手を求める. 発表の流れ. 背景 関連研究 提案手法 実験 結論. 2. 関連研究.
E N D
UCT探索による不完全情報下の行動決定 東京大学大学院 三木理斗 三輪誠 近山隆
発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論
1. 背景 • 麻雀 • 多人数 • 不完全情報 • 鳴き • Minimax探索の適用が困難 • 戦略が複雑 • 局面状態が不確定 • 手番の不規則な変化
目的 • 麻雀の打ち手の探索 • 戦略の推定 • 不完全情報の推定 • 評価関数 • 手番の割り込み • これらの課題に対応したい • 知識を用いずシミュレーションで手を求める
発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論
2. 関連研究 • Minimax探索の拡張 • *-Minimax探索(不確定ゲームへの拡張) • Maxn探索(多人数ゲームへの拡張) • UCT探索 • 多人数ゲームへの拡張 • 不完全情報ゲームへの拡張 • 麻雀に関する研究 • 牌譜を用いた評価関数の重み調整 [北川ら, 2007] • 木カーネルを用いた打ち手の順位学習 [三木ら, 2008]
*-Minimax探索 [Ballard, 1983] • Chanceノードの評価値は子ノードの期待値 • 不完全情報ゲームでは探索空間が大きすぎる • 鳴きがある麻雀では枝刈りが難しい
Maxn探索 [Luckhardt et al., 1986] • それぞれのプレイヤが自分の評価値を最大にする • 評価値最大の手が複数ある場合には任意に選ぶ • 戦略モデルが必要 • 評価関数が必要
UCT [Kocsis and Szepesvari, 2006] • UCB値が最大の子ノードを探索する(UCB1方策) :子 の平均報酬 :子 の探索回数 :親の探索回数 :バランス定数 知識項 探索項 • 未探索ノードから先はプレイアウトを行う • ランダムor知識利用 • 終局の結果を報酬として観測
多人数ゲームにおけるUCT [Sturtevant, 2008] *プレイアウト方策とMaxn探索での評価関数は 敵の駒を無視したときのゴールまでの総距離
発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論
3. 提案手法 • 麻雀の打ち手をUCTアルゴリズムで探索する • UCB1方策で手を決定 • 高度な戦略の推定を必要としない • 不完全情報はランダムシミュレーション • 膨大な探索を必要としない • ランダムプレイアウト • 評価関数を必要としない • 鳴きによる手番の割り込みにも適用できる
麻雀におけるUCT探索の概要 • 局面の見えていない部分をランダム生成する • UCTアルゴリズムを1ループ行う • 1,2を繰り返す • 最も平均報酬の高い手を選択する
局面の生成 相手の手牌と牌山をランダムに割り当てる
14牌ノード(ツモ局面)での探索 • どの牌を切るか、またはカンするか • UCB1方策によって手を決定 14牌ノード 13牌ノード
13牌ノード(鳴き局面)での探索 • ポンするか、鳴かないか • チーするか、鳴かないか • 選択権の高いプレイヤ順にUCB1方策によって決定 13牌ノード 14牌ノード 対面がポン 下家がチー 誰も鳴かない (下家がツモ)
未探索ノード • 終局までランダムプレイアウト 東 -4000 南 +8000 西 -2000 北 -2000 • 結果を報酬として経路上のノードを更新
発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論
4. 実験 • 実験環境 • Core2 Duo 3GHz • 2GB RAM • 実装 • C++ • 約2000~数万プレイアウト/秒 • 実験方法 • 一致率評価 • コンピュータおよび人間との対戦
実験1 • 牌譜との一致率評価 • 各種パラメータ • 報酬は得点収支 • UCB値のC=1000
プレイアウト回数に対する一致率 • 14牌ノード(ツモ局面)
プレイアウト回数に対する一致率 • 13牌ノード(鳴き局面)
鳴く局面と鳴かない局面 • 縦軸は一致率 牌譜で鳴いた局面 牌譜で鳴かなかった局面
考察 • プレイアウトを増やすととにかく鳴く • ランダムプレイアウト中にあがることはほとんどない • 報酬のほとんどがノーテン罰符 • 流局テンパイを目指している
実験2 • コンピュータプレイヤと対戦 • グリーディプレイヤ(シャンテン数最小化+ランダム) • SVMによる評価関数のプレイヤ • 人間と対戦 • 東風荘のRatingで評価
コンピュータプレイヤとの対戦 グリーディ対UCT(100試合400局) SVM対UCT(100試合400局)
人間との対戦 • 第一東風荘(東風戦 食いタンあり ノーテン親流れ) • 1手5秒 • 123試合631局 • R976 (安定R849) • あがり率 15.8% • 放銃率 22.0% • 2鳴き率 30.3% • 平均収支 -716
発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論
5. 結論 • 麻雀の打ち手をUCT探索によって求めた • ツモ局面で 46% の最善手一致率 • 知識を用いなくてもSVMなどに匹敵する性能 • 問題点 • プレイアウトではほとんどあがれていない • 流局テンパイを目指す打法 • 無駄な鳴きが増えてしまい、振り込みも多い
今後の課題 • 知識の導入 • 不完全情報の推定 • 相手の手牌をそれらしく推定する • プレイアウト • ヒューリスティックを用いてあがれるように打つ • UCT探索の効率化 • FPU・・・未探索ノードのUCB値を下げて木の成長を加速 • UCB1-TUNED・・・パラメータCの動的制御 • 残り時間を考慮した枝刈り