先端論文紹介ゼミ

論文名： Hysteretic Q-Learning : an algorithm for Decentralized ReinforcementLearning in Cooperative Multi-Agent Teams. 著者：La¨etitiaMatignon, Guillaume J. Laurent and Nadine Le Fort-Piat 先端論文紹介ゼミ 2009/11/10 B4 倉野　直

ABSTRACT • MASの協調行動の学習のいくつかのアルゴリズムについて調査を行った。 • Hysteretic Q-learningとよばれるILの拡張したQ学習の提案。 • Hysteretic Q-learningと他のアルゴリズムとの性能比較としていくつかのテストを行った。

INTRODUCTION（1/2） • MASの協調の典型的な強化学習は、各エージェントが全体を観測する方法。　　　　　状態行動空間のサイズが膨大となるため、　　　　　独自の振舞いを学習するエージェントが必要　　　　　 • MASの協調には3つの主な問題点がある。　　　・他のエージェントの限定的な視野のために環境要素の予測ができない。　　　・環境は過去の動作がエージェントの現在の行動に影響を与えてしまう。　　　・マルチエージェントの協調行動の問題。

INTRODUCTION(2/2) • 新しい情報やエージェント間のコミュニケーションが必要とならない強化学習法（ Hysteretic Q-Learning）の提案。 • Hysteretic Q-Learningと他のアルゴリズム（Centralized Q-learning,Decentralized Q-learning, Distributed Q-learning、FMQ)との性能比較。

FULLY COOPERRATIVE REPEATED GAMES(1/4) Penalty gameでは2つの最適な協調による誤った強調行動が提示されている。

FULLY COOPERRATIVE REPEATED GAMES(2/4) • Q値の更新式はaはエージェントのとった行動、Q(a)はエージェントが取った行動に対する値、αは学習率[0:1] • Distributed Q-Learningの更新式 (1)

FULLY COOPERRATIVE REPEATED GAMES(3/4) • Hysteretic Q-learningのQ値更新式 α、βはQ値の増減値。

FULLY COOPERRATIVE REPEATED GAMES(4/4) 学習率αはすべての方法で0.1、β（ Hysteretic）は0.01、重みｃ（FMQ）は10と設定。　行動政策はBoltzmann政策を選択。TはT=T×0.99、Tの初期値は5000.

STOCHASTIC GAMES(1/8) • 推定ゲームとして、ball balancing taskとpursuit domainによる調査を行った。 • 両ゲームともCentralized Q-learning、Decentralized Q-learning, Distributed Q-learningとの比較を行った。

STOCHASTIC GAMES(2/8) • Centralized Q-learningのQ値の更新式 • Decentralized Q-learningのQ値の更新式

STOCHASTIC GAMES(3/8) • Hysteretic Q-learningのQ値の更新式

STOCHASTIC GAMES(4/8) • Ball balancing task 　　ｍ＝0.5、g=9.8, l=2, c=0.01

STOCHASTIC GAMES(4/8) • Ball balancing task状態空間を100×50で離散化　サンプリングタイムは0.03秒　制御は[-1:1]を１５分割。centralized Q-learningのQ値表のサイズは　　　　　　　　　Decentralized Q-learningは　　試行は初期状態ｘ＝（0.5、0.1）から始まり、２０秒制御する。また机から落ちた場合は試行終了　報酬の式は

STOCHASTIC GAMES(5/8) • Ball balancing task(result)

STOCHASTIC GAMES(6/8) • Pursuit domain・２体のハンターと１体の獲物　　・10×10のトーラス平面　　・ハンターの行動は５個（上、下、右、左、静止）、獲物は５個の行動をランダムに取る。

STOCHASTIC GAMES(7/8) • Pursuit domainこの問題ではエージェントは全体の環境の情報を持つ。 centralized Q-learningは　　　　　　　　　　　　の状態行動の組を持つ。 Decentralized Q-learning は　　　　　　　　　　　　の状態行動の組を持つ。・獲物を捕獲した場合ｒ＝37.5の報酬が与えられる。・同じマスに２体のハンターが重なった場合はｒ＝-10が与えられ、ハンターは空いたマスへ移動させられる。

STOCHASTIC GAMES(8/8) • Pursuit domain

PARTIALLY OBSERVABLE STOCHASTIC GAMES（1/2） • Partially Observable Pursuit domain　　・7×7のトーラス平面　　・４体のハンターと1体の獲物　　・ハンターの知覚範囲は周囲８マス　　・エージェントはfig5cの状況で報酬r=25を得る。

PARTIALLY OBSERVABLE STOCHASTIC GAMES（2/2） • Partially Observable Pursuit domain

CONCLUSIONS • 本誌では、MASの主な問題点として、協調行動の問題を取り上げ、追加的なコミュニケｰｼｮﾝのいらない学習法を提案した。 • 4つの実験を行い、Hysteretic Q-Learningの性能を調査した。 • 行った4つの実験結果より、 Hysteretic Q-Learningは二つの学習率を利用することにより、協調行動の獲得に成功した。

先端論文紹介 ゼミ