220 likes | 497 Views
論文名: Hysteretic Q-Learning : an algorithm for Decentralized Reinforcement Learning in Cooperative Multi-Agent Teams. 著者: La¨etitia Matignon , Guillaume J. Laurent and Nadine Le Fort- Piat. 先端論文紹介 ゼミ. 2009/11/10 B4 倉野 直. ABSTRACT. MAS の協調行動の学習のいくつかのアルゴリズムについて調査を行った。
E N D
論文名: Hysteretic Q-Learning : an algorithm for Decentralized ReinforcementLearning in Cooperative Multi-Agent Teams. 著者:La¨etitiaMatignon, Guillaume J. Laurent and Nadine Le Fort-Piat 先端論文紹介ゼミ 2009/11/10 B4 倉野 直
ABSTRACT • MASの協調行動の学習のいくつかのアルゴリズムについて調査を行った。 • Hysteretic Q-learningとよばれるILの拡張したQ学習の提案。 • Hysteretic Q-learningと他のアルゴリズムとの性能比較としていくつかのテストを行った。
INTRODUCTION(1/2) • MASの協調の典型的な強化学習は、各エージェントが全体を観測する方法。 状態行動空間のサイズが膨大となるため、 独自の振舞いを学習するエージェントが必要 • MASの協調には3つの主な問題点がある。 ・他のエージェントの限定的な視野のために環境要素の予測ができない。 ・環境は過去の動作がエージェントの現在の行動に影響を与えてしまう。 ・マルチエージェントの協調行動の問題。
INTRODUCTION(2/2) • 新しい情報やエージェント間のコミュニケーションが必要とならない強化学習法( Hysteretic Q-Learning)の提案。 • Hysteretic Q-Learningと他のアルゴリズム(Centralized Q-learning,Decentralized Q-learning, Distributed Q-learning、FMQ)との性能比較。
FULLY COOPERRATIVE REPEATED GAMES(1/4) Penalty gameでは2つの最適な協調による誤った強調行動が提示されている。
FULLY COOPERRATIVE REPEATED GAMES(2/4) • Q値の更新式はaはエージェントのとった行動、Q(a)はエージェントが取った行動に対する値、αは学習率[0:1] • Distributed Q-Learningの更新式 (1)
FULLY COOPERRATIVE REPEATED GAMES(3/4) • Hysteretic Q-learningのQ値更新式 α、βはQ値の増減値。
FULLY COOPERRATIVE REPEATED GAMES(4/4) 学習率αはすべての方法で0.1、β( Hysteretic)は0.01、重みc(FMQ)は10と設定。 行動政策はBoltzmann政策を選択。TはT=T×0.99、Tの初期値は5000.
STOCHASTIC GAMES(1/8) • 推定ゲームとして、ball balancing taskとpursuit domainによる調査を行った。 • 両ゲームともCentralized Q-learning、Decentralized Q-learning, Distributed Q-learningとの比較を行った。
STOCHASTIC GAMES(2/8) • Centralized Q-learningのQ値の更新式 • Decentralized Q-learningのQ値の更新式
STOCHASTIC GAMES(3/8) • Hysteretic Q-learningのQ値の更新式
STOCHASTIC GAMES(4/8) • Ball balancing task m=0.5、g=9.8, l=2, c=0.01
STOCHASTIC GAMES(4/8) • Ball balancing task状態空間を100×50で離散化 サンプリングタイムは0.03秒 制御は[-1:1]を15分割。centralized Q-learningのQ値表のサイズは Decentralized Q-learningは 試行は初期状態x=(0.5、0.1)から始まり、20秒制御する。また机から落ちた場合は試行終了 報酬の式は
STOCHASTIC GAMES(5/8) • Ball balancing task(result)
STOCHASTIC GAMES(6/8) • Pursuit domain・2体のハンターと1体の獲物 ・10×10のトーラス平面 ・ハンターの行動は5個(上、下、右、左、静止)、獲物は5個の行動をランダムに取る。
STOCHASTIC GAMES(7/8) • Pursuit domainこの問題ではエージェントは全体の環境の情報を持つ。 centralized Q-learningは の状態行動の組を持つ。 Decentralized Q-learning は の状態行動の組を持つ。・獲物を捕獲した場合r=37.5の報酬が与えられる。・同じマスに2体のハンターが重なった場合はr=-10が与えられ、ハンターは空いたマスへ移動させられる。
STOCHASTIC GAMES(8/8) • Pursuit domain
PARTIALLY OBSERVABLE STOCHASTIC GAMES(1/2) • Partially Observable Pursuit domain ・7×7のトーラス平面 ・4体のハンターと1体の獲物 ・ハンターの知覚範囲は周囲8マス ・エージェントはfig5cの状況で報酬r=25を得る。
PARTIALLY OBSERVABLE STOCHASTIC GAMES(2/2) • Partially Observable Pursuit domain
CONCLUSIONS • 本誌では、MASの主な問題点として、協調行動の問題を取り上げ、追加的なコミュニケーションのいらない学習法を提案した。 • 4つの実験を行い、Hysteretic Q-Learningの性能を調査した。 • 行った4つの実験結果より、 Hysteretic Q-Learningは二つの学習率を利用することにより、協調行動の獲得に成功した。