1 / 20

先端論文紹介 ゼミ

論文名: Hysteretic Q-Learning : an algorithm for Decentralized Reinforcement Learning in Cooperative Multi-Agent Teams. 著者: La¨etitia Matignon , Guillaume J. Laurent and Nadine Le Fort- Piat. 先端論文紹介 ゼミ. 2009/11/10 B4 倉野 直. ABSTRACT. MAS の協調行動の学習のいくつかのアルゴリズムについて調査を行った。

aquila
Download Presentation

先端論文紹介 ゼミ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 論文名: Hysteretic Q-Learning : an algorithm for Decentralized ReinforcementLearning in Cooperative Multi-Agent Teams. 著者:La¨etitiaMatignon, Guillaume J. Laurent and Nadine Le Fort-Piat 先端論文紹介ゼミ 2009/11/10 B4 倉野 直

  2. ABSTRACT • MASの協調行動の学習のいくつかのアルゴリズムについて調査を行った。 • Hysteretic Q-learningとよばれるILの拡張したQ学習の提案。 • Hysteretic Q-learningと他のアルゴリズムとの性能比較としていくつかのテストを行った。

  3. INTRODUCTION(1/2) • MASの協調の典型的な強化学習は、各エージェントが全体を観測する方法。      状態行動空間のサイズが膨大となるため、     独自の振舞いを学習するエージェントが必要      • MASの協調には3つの主な問題点がある。   ・他のエージェントの限定的な視野のために環境要素の予測ができない。   ・環境は過去の動作がエージェントの現在の行動に影響を与えてしまう。   ・マルチエージェントの協調行動の問題。

  4. INTRODUCTION(2/2) • 新しい情報やエージェント間のコミュニケーションが必要とならない強化学習法( Hysteretic Q-Learning)の提案。 • Hysteretic Q-Learningと他のアルゴリズム(Centralized Q-learning,Decentralized Q-learning, Distributed Q-learning、FMQ)との性能比較。

  5. FULLY COOPERRATIVE REPEATED GAMES(1/4) Penalty gameでは2つの最適な協調による誤った強調行動が提示されている。

  6. FULLY COOPERRATIVE REPEATED GAMES(2/4) • Q値の更新式はaはエージェントのとった行動、Q(a)はエージェントが取った行動に対する値、αは学習率[0:1] • Distributed Q-Learningの更新式 (1)

  7. FULLY COOPERRATIVE REPEATED GAMES(3/4) • Hysteretic Q-learningのQ値更新式 α、βはQ値の増減値。

  8. FULLY COOPERRATIVE REPEATED GAMES(4/4) 学習率αはすべての方法で0.1、β( Hysteretic)は0.01、重みc(FMQ)は10と設定。 行動政策はBoltzmann政策を選択。TはT=T×0.99、Tの初期値は5000.

  9. STOCHASTIC GAMES(1/8) • 推定ゲームとして、ball balancing taskとpursuit domainによる調査を行った。 • 両ゲームともCentralized Q-learning、Decentralized Q-learning, Distributed Q-learningとの比較を行った。

  10. STOCHASTIC GAMES(2/8) • Centralized Q-learningのQ値の更新式 • Decentralized Q-learningのQ値の更新式

  11. STOCHASTIC GAMES(3/8) • Hysteretic Q-learningのQ値の更新式

  12. STOCHASTIC GAMES(4/8) • Ball balancing task   m=0.5、g=9.8, l=2, c=0.01

  13. STOCHASTIC GAMES(4/8) • Ball balancing task状態空間を100×50で離散化 サンプリングタイムは0.03秒 制御は[-1:1]を15分割。centralized Q-learningのQ値表のサイズは         Decentralized Q-learningは   試行は初期状態x=(0.5、0.1)から始まり、20秒制御する。また机から落ちた場合は試行終了  報酬の式は

  14. STOCHASTIC GAMES(5/8) • Ball balancing task(result)

  15. STOCHASTIC GAMES(6/8) • Pursuit domain・2体のハンターと1体の獲物  ・10×10のトーラス平面  ・ハンターの行動は5個(上、下、右、左、静止)、獲物は5個の行動をランダムに取る。

  16. STOCHASTIC GAMES(7/8) • Pursuit domainこの問題ではエージェントは全体の環境の情報を持つ。 centralized Q-learningは            の状態行動の組を持つ。 Decentralized Q-learning は            の状態行動の組を持つ。・獲物を捕獲した場合r=37.5の報酬が与えられる。・同じマスに2体のハンターが重なった場合はr=-10が与えられ、ハンターは空いたマスへ移動させられる。

  17. STOCHASTIC GAMES(8/8) • Pursuit domain

  18. PARTIALLY OBSERVABLE STOCHASTIC GAMES(1/2) • Partially Observable Pursuit domain  ・7×7のトーラス平面  ・4体のハンターと1体の獲物  ・ハンターの知覚範囲は周囲8マス  ・エージェントはfig5cの状況で報酬r=25を得る。

  19. PARTIALLY OBSERVABLE STOCHASTIC GAMES(2/2) • Partially Observable Pursuit domain

  20. CONCLUSIONS • 本誌では、MASの主な問題点として、協調行動の問題を取り上げ、追加的なコミュニケーションのいらない学習法を提案した。 • 4つの実験を行い、Hysteretic Q-Learningの性能を調査した。 • 行った4つの実験結果より、 Hysteretic Q-Learningは二つの学習率を利用することにより、協調行動の獲得に成功した。

More Related