1 / 33

UCT 探索による 不完全情報下の行動決定

UCT 探索による 不完全情報下の行動決定. 東京大学大学院 三木理斗 三輪誠 近山隆. 発表の流れ. 背景 関連研究 提案手法 実験 結論. 1. 背景. 麻雀 多人数 不完全情報 鳴き Minimax 探索の適用が困難 戦略が複雑 局面状態が不確定 手番の不規則な変化. 目的. 麻雀の打ち手の探索 戦略 の推定 不完全情報の推定 評価関数 手番の割り込み これらの課題に対応したい 知識を用いずシミュレーションで手を求める. 発表の流れ. 背景 関連研究 提案手法 実験 結論. 2. 関連研究.

liz
Download Presentation

UCT 探索による 不完全情報下の行動決定

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UCT探索による不完全情報下の行動決定 東京大学大学院 三木理斗 三輪誠 近山隆

  2. 発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論

  3. 1. 背景 • 麻雀 • 多人数 • 不完全情報 • 鳴き • Minimax探索の適用が困難 • 戦略が複雑 • 局面状態が不確定 • 手番の不規則な変化

  4. 目的 • 麻雀の打ち手の探索 • 戦略の推定 • 不完全情報の推定 • 評価関数 • 手番の割り込み • これらの課題に対応したい • 知識を用いずシミュレーションで手を求める

  5. 発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論

  6. 2. 関連研究 • Minimax探索の拡張 • *-Minimax探索(不確定ゲームへの拡張) • Maxn探索(多人数ゲームへの拡張) • UCT探索 • 多人数ゲームへの拡張 • 不完全情報ゲームへの拡張 • 麻雀に関する研究 • 牌譜を用いた評価関数の重み調整 [北川ら, 2007] • 木カーネルを用いた打ち手の順位学習 [三木ら, 2008]

  7. *-Minimax探索 [Ballard, 1983] • Chanceノードの評価値は子ノードの期待値 • 不完全情報ゲームでは探索空間が大きすぎる • 鳴きがある麻雀では枝刈りが難しい

  8. Maxn探索 [Luckhardt et al., 1986] • それぞれのプレイヤが自分の評価値を最大にする • 評価値最大の手が複数ある場合には任意に選ぶ • 戦略モデルが必要 • 評価関数が必要

  9. UCT [Kocsis and Szepesvari, 2006] • UCB値が最大の子ノードを探索する(UCB1方策) :子  の平均報酬 :子 の探索回数 :親の探索回数 :バランス定数 知識項 探索項 • 未探索ノードから先はプレイアウトを行う • ランダムor知識利用 • 終局の結果を報酬として観測

  10. 多人数ゲームにおけるUCT [Sturtevant, 2008] *プレイアウト方策とMaxn探索での評価関数は 敵の駒を無視したときのゴールまでの総距離

  11. 不完全情報ゲームにおけるUCT [Schaeffer et al., 2008]

  12. 評価関数の重み調整 [北川ら, 2007]

  13. 木カーネルSVMを用いた順位学習[三木ら, 2008]

  14. 発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論

  15. 3. 提案手法 • 麻雀の打ち手をUCTアルゴリズムで探索する • UCB1方策で手を決定 • 高度な戦略の推定を必要としない • 不完全情報はランダムシミュレーション • 膨大な探索を必要としない • ランダムプレイアウト • 評価関数を必要としない • 鳴きによる手番の割り込みにも適用できる

  16. 麻雀におけるUCT探索の概要 • 局面の見えていない部分をランダム生成する • UCTアルゴリズムを1ループ行う • 1,2を繰り返す • 最も平均報酬の高い手を選択する

  17. 局面の生成 相手の手牌と牌山をランダムに割り当てる

  18. 14牌ノード(ツモ局面)での探索 • どの牌を切るか、またはカンするか • UCB1方策によって手を決定 14牌ノード 13牌ノード

  19. 13牌ノード(鳴き局面)での探索 • ポンするか、鳴かないか • チーするか、鳴かないか • 選択権の高いプレイヤ順にUCB1方策によって決定 13牌ノード 14牌ノード 対面がポン 下家がチー 誰も鳴かない (下家がツモ)

  20. 未探索ノード • 終局までランダムプレイアウト 東 -4000 南 +8000 西 -2000 北 -2000 • 結果を報酬として経路上のノードを更新

  21. 発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論

  22. 4. 実験 • 実験環境 • Core2 Duo 3GHz • 2GB RAM • 実装 • C++ • 約2000~数万プレイアウト/秒 • 実験方法 • 一致率評価 • コンピュータおよび人間との対戦

  23. 実験1 • 牌譜との一致率評価 • 各種パラメータ • 報酬は得点収支 • UCB値のC=1000

  24. プレイアウト回数に対する一致率 • 14牌ノード(ツモ局面)

  25. プレイアウト回数に対する一致率 • 13牌ノード(鳴き局面)

  26. 鳴く局面と鳴かない局面 • 縦軸は一致率 牌譜で鳴いた局面 牌譜で鳴かなかった局面

  27. 考察 • プレイアウトを増やすととにかく鳴く • ランダムプレイアウト中にあがることはほとんどない • 報酬のほとんどがノーテン罰符 • 流局テンパイを目指している

  28. 実験2 • コンピュータプレイヤと対戦 • グリーディプレイヤ(シャンテン数最小化+ランダム) • SVMによる評価関数のプレイヤ • 人間と対戦 • 東風荘のRatingで評価

  29. コンピュータプレイヤとの対戦 グリーディ対UCT(100試合400局) SVM対UCT(100試合400局)

  30. 人間との対戦 • 第一東風荘(東風戦 食いタンあり ノーテン親流れ) • 1手5秒 • 123試合631局 • R976 (安定R849) • あがり率 15.8% • 放銃率  22.0% • 2鳴き率 30.3% • 平均収支 -716

  31. 発表の流れ • 背景 • 関連研究 • 提案手法 • 実験 • 結論

  32. 5. 結論 • 麻雀の打ち手をUCT探索によって求めた • ツモ局面で 46% の最善手一致率 • 知識を用いなくてもSVMなどに匹敵する性能 • 問題点 • プレイアウトではほとんどあがれていない • 流局テンパイを目指す打法 • 無駄な鳴きが増えてしまい、振り込みも多い

  33. 今後の課題 • 知識の導入 • 不完全情報の推定 • 相手の手牌をそれらしく推定する • プレイアウト • ヒューリスティックを用いてあがれるように打つ • UCT探索の効率化 • FPU・・・未探索ノードのUCB値を下げて木の成長を加速 • UCB1-TUNED・・・パラメータCの動的制御 • 残り時間を考慮した枝刈り

More Related