1 / 60

評価関数を用いた エージェント間の交渉

評価関数を用いた エージェント間の交渉. 5 月28日 河目 瞬. Artifical Intelligence 84(1996) 151-176. 『Compromise in negotiation : exploing worth functions over states』 Gilad Zlotkin , Jeffrey S. Rosenschein. 2人で野球観戦に行きたい. 2人で映画を見に行きたい. 話し合い. エージェント1. エージェント2. どうする?. 例:ミーティングの設定. ・時間帯が遅くなってから行いたい。

Download Presentation

評価関数を用いた エージェント間の交渉

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 評価関数を用いたエージェント間の交渉 5月28日 河目 瞬 Artifical Intelligence 84(1996) 151-176 『Compromise in negotiation : exploing worth functions over states』 Gilad Zlotkin , Jeffrey S. Rosenschein

  2. 2人で野球観戦に行きたい 2人で映画を見に行きたい 話し合い エージェント1 エージェント2 どうする?

  3. 例:ミーティングの設定

  4. ・時間帯が遅くなってから行いたい。 ・自分のオフィスで行いたい。 エージェントA1 二人はミーティングを行いたい ・時間帯が早いうちに行いたい。 ・自分のオフィスで行いたい。 エージェントA2

  5. 価値の概念の導入 エージェントにとって、どれだけ好ま しい状態なのかを表す指標 状態に価値を与える

  6. エージェントA1の評価関数 価値 エージェントA1の 最も好ましい時間帯が、 午後4時であるとする ミーティングの時刻 A1にとって、午後4時の ミーティングが最も高い価値

  7. エージェントA2の評価関数 エージェントA2の 最も好ましい時間帯が、 午前9時であるとする 価値 ミーティングの時刻 A2にとって、午前9時の ミーティングが最も高い価値

  8. エージェントA1のコスト関数 コスト エージェントA1にとって、 自分のオフィスに近いほ ど、移動コストがかからな い A1オフィス A2オフィス ミーティングの場所 A1にとって、A1オフィスでの ミーティングが最も低いコスト

  9. エージェントA2のコスト関数 エージェントA2にとって、 自分のオフィスに近いほ ど、移動コストがかからな い コスト A2オフィス A1オフィス ミーティングの場所 A2にとって、A2オフィスでの ミーティングが最も低いコスト

  10. ユーティリティの定義 双方のエージェントにとって、ユーティリティとは、 ユーティリティ=価値ーコスト エージェントは、これを最大にしたい

  11. エージェントA1のユーティリティ関数 エージェントA1にとって 午後4時に、 A1オフィスで開かれる ことが最も好ましい ユーティリティ A1オフィス A2オフィス 4pm、A1オフィスでの ユーティリティが最大

  12. エージェントA2のユーティリティ関数 エージェントA2にとって 午前9時に、 A2オフィスで開かれる ことが最も好ましい ユーティリティ A2オフィス A1オフィス 9am、A2オフィスでの ユーティリティが最大

  13. 2人のエージェントの話し合いの結果として・・・2人のエージェントの話し合いの結果として・・・ 2人のユーティリティの兼ね合い が、最大になる点を結論として考 える 2人のユーティリティの和を最大にする 2人のユーティリティの積を最大にする 2つのアプローチの仕方がある

  14. 2人のユーティリティの和を最大にする 2人のユーティリティの和 が最大となる点を、 話し合いの解決とする ユーティリティの和 A2オフィス A1オフィス 上の4つの状態が、 ミーティングの行われる状態となる

  15. 2人のユーティリティの積を最大にする 2人のユーティリティの積 が最大となる点を、 話し合いの解決とする ユーティリティの積 A2オフィス A1オフィス 上の2つの状態が、 ミーティングの行われる状態となる

  16. 2人のユーティリティの積を最大にする ゲーム理論の「ナッシュの定理」に基づくもの。 「ナッシュの定理」とは? 2人交渉問題のナッシュ解は、5つの公準を満たし、かつ、この5つの公準を満たす解は、ナッシュ解に限る。 ナッシュ解:2人のユーティリティの積を         最大にする解

  17. (1)個人合理性 5つの公準 (2)共同合理性 (3)利得の一次変換での不変性 (4)対称性 (5)無関連な代替案からの独立性

  18. つまり 2人のユーティリティの積を最大にする解 5つの公準を満たす唯一解である 5つの公準とは、交渉の特性を述べている 交渉問題において、適切と思われるのは、 ユーティリティの積を最大にする解である

  19. WODの定義 (Worth Oriented Domains:価値指向領域)

  20. WOD(Worth Oriented Domains) WODでは、各エージェントが評価関数を用い て、全ての状態に価値を割り当てている。 < S, A , J , c > S: 領域の状態 A: エージェント J: 共同プラン c : コスト関数

  21. < S, A , J , c > S: 全ての取り得る、領域の状態の集合 A={A1,A2,・・・,An}:エージェントリスト J: 全ての取り得る、共同プランの集合 j:S→Sj∈J c: コスト関数 c:J→(R+)n c(j)i : プラン j におけるエージェント iの 活動のコスト

  22. さらに WOD内で問題を解くために、まずあるものとして、 <s, (W1,W2,・・・Wn)> s: 領域の初期状態 Wk : エージェント k の評価関数

  23. 交渉のエージェントに関する5つの仮定 (1) Utility maximizer 各々のエージェントは、彼の期待したユーティリティを最大にすることを望む (2) Complete knowledge 各々のエージェントは、全ての関連情報を知っている

  24. (3) Isolated negotiation 各々のエージェントは、現在の振る舞いが将来の交 渉においてどんな影響を及ぼすか予期することがで きない。 (4) Bilateral negotiation 交渉は一度に、エージェントのペア一組の間で行われる。

  25. (5) Symmetric abilities 全てのエージェントは、同じ活動が実行できる。 そして、活動のコストは、各エージェントにとって同じ である。

  26. 例:ブロック移動問題  (1人のエージェントのみ)

  27. ①黒い箱をテーブル2に置きたい。ただし、  直接テーブルの上には置かない。 ②白い箱をテーブル3にひとつだけで置  きたい。 エージェントA1 箱を持ち上げるコスト:1 箱を下ろすコスト:1 1 2 3 4 ①のサブゴールの評価:4 ②のサブゴールの評価:6

  28. コスト2 f1 サブゴール①を満たしている コスト4 f2 サブゴール②を満たしている コスト8 f3 両方のサブゴールを満たしている 1 2 3 4

  29. W:評価(価値) C:コスト U:ユーティリティ • f2の状態 W6-C4=U2 • f1の状態 W4-C2=U2 • f3の状態 W(4+6)-C8=U2 3つの状態が皆同じユーティリティ。

  30. サブゴールの不達成 に対し、負の評価を与える • f1の状態 W4-C2ーペナルティ6=U-4 ペナルティを導入 • f2の状態 W6-C4ーペナルティ4=U-2 • f3の状態 W(4+6)-C8ーペナルティ0=U2 f3の状態が、最良の状態。

  31. 例:ブロック移動問題  (2人のエージェントによる)

  32. 混合共同プランの導入 ・混合共同プランとは? エージェントが、確率pで共同プランj=(j1、j2) を実行し、また確率1ーpで対称的な共同プラン (j2、j1)を実行するようなプランのこと

  33. ①黒い箱はテーブル1に置くが、その際、白い箱の上に置く。①黒い箱はテーブル1に置くが、その際、白い箱の上に置く。 ②灰色の箱はテーブル3に置く ①の評価:10 ②の評価:4 サブゴールの不達成による ペナルティ:①②ともにー2 エージェントA2 エージェントA1 1 2 3 4 ①黒い箱はテーブル1に置くが、その際、白い箱の上に置く。 ②灰色の箱はテーブル4に置く

  34. 各々コスト2 両者が、サブゴール①を満たすには・・・ 灰色の箱を置く場所 によって2つの最終 状態がある 1 2 3 4

  35. この状態にする プランδ1 エージェントA1が望む状態 この状態にする プランδ2 エージェントA2が望む状態

  36. ユーティリティを計算すると・・・ UA1(δ1)=W(10+4)-C(2+2)=10 UA1(δ2)=W10ーペナルティ2ーC2=6 UA2(δ1)=UA1(δ2)=6 UA2(δ2)=UA1(δ1)=10 1人で完全なゴールを達 成するよりもUがいい。 コスト10 U=W(10+4)-C10=4

  37. マルチプランdealの導入 ・マルチプランdealとは? エージェントが、確率qで混合共同プランδ1を 実行し、また確率1ーqで対称的な混合共同プラ ンδ2を実行する。

  38. この状態にする プランδ1 エージェントA1が望む状態 確率q この状態にする プランδ2 エージェントA2が望む状態 確率1-q

  39. マルチプランdealにおけるユーティリティの定義マルチプランdealにおけるユーティリティの定義 エージェントのユーティリティ    =q×(δ1でのユーティリティ)      +(1-q)×(δ2でのユーティリティ)

  40. A1ユーティリティ10 A2ユーティリティ6 この状態にする プランδ1 エージェントA1が望む状態 確率0.5 A1ユーティリティ6 A2ユーティリティ10 この状態にする プランδ2 エージェントA2が望む状態 確率0.5

  41. ユーティリティを計算すると・・・ UA1 =0.5×10+0.5×6=8 UA2 =0.5×6+0.5×10=8 UA1 ×UA2 = 8×8=64

  42. A1ユーティリティ10 A2ユーティリティ6 この状態にする プランδ1 エージェントA1が望む状態 A1ユーティリティ6 A2ユーティリティ10 この状態にする プランδ2 エージェントA2が望む状態

  43. 例:タイルワールド

  44. 穴(数字は、埋めた時の価値) A2 A1 2 2 5 2 5 エージェント 障害物 エージェントに よって違う価値を 当てられている穴 4 3 2 タイル(これで穴を埋める)

  45. 1マス移動でコスト1 A 2 A A A A A

  46. 10 0 9 15 9 0 5 A2 A1 世界の初期状態 1 1 5 10

  47. 10 9 15 A1 A1 0 A1 A1 A1 A1 A1 A1 A1 A1 コスト10 5 A1 エージェントA1が 1人で15の穴を塞ごうとすると・・・ 1 ユーティリティ5 1 5 10

  48. 10 A1 9 A1 A1 A1 15 A1 A1 0 A1 A1 A1 A1 A1 コスト12 5 A1 エージェントA1が 1人で9の穴を塞ごうとすると・・・ 1 ユーティリティ-3 1 5 10

  49. 10 9 A1 A1 A1 A1 15 A1 A1 A1 0 A1 A1 A1 A1 A1 A1 A1 A1 コスト16 5 A1 エージェントA1が 1人で両方の穴を塞ごうとすると・・・ 1 ユーティリティ8 1 5 10

  50. エージェントA1 15の穴のみを塞ぐ:ユーティリティ5 9の穴のみを塞ぐ:ユーティリティ-3 両方の穴を塞ぐ:ユーティリティ8 A1は両方の穴を塞いで、 最大ユーティリティ8を得る。

More Related