評価関数を用いたエージェント間の交渉

評価関数を用いたエージェント間の交渉 5月２８日河目　瞬 Artifical Intelligence 84(1996) 151-176 『Compromise in negotiation : exploing worth functions over states』 Gilad Zlotkin , Jeffrey S. Rosenschein

２人で野球観戦に行きたい ２人で映画を見に行きたい話し合いエージェント１エージェント２どうする？

例：ミーティングの設定

・時間帯が遅くなってから行いたい。 ・自分のオフィスで行いたい。エージェントA1 二人はミーティングを行いたい・時間帯が早いうちに行いたい。・自分のオフィスで行いたい。エージェントA2

価値の概念の導入 エージェントにとって、どれだけ好ましい状態なのかを表す指標状態に価値を与える

エージェントA1の評価関数 価値エージェントA1の最も好ましい時間帯が、午後４時であるとするミーティングの時刻 A１にとって、午後４時のミーティングが最も高い価値

エージェントA2の評価関数 エージェントA2の最も好ましい時間帯が、午前９時であるとする価値ミーティングの時刻 A2にとって、午前９時のミーティングが最も高い価値

エージェントA1のコスト関数 コストエージェントA1にとって、自分のオフィスに近いほど、移動コストがかからない A1オフィス A2オフィスミーティングの場所 A1にとって、A1オフィスでのミーティングが最も低いコスト

エージェントA2のコスト関数 エージェントA2にとって、自分のオフィスに近いほど、移動コストがかからないコスト A2オフィス A1オフィスミーティングの場所 A2にとって、A２オフィスでのミーティングが最も低いコスト

ユーティリティの定義 双方のエージェントにとって、ユーティリティとは、ユーティリティ＝価値ーコストエージェントは、これを最大にしたい

エージェントA1のユーティリティ関数 エージェントA1にとって午後４時に、 A1オフィスで開かれることが最も好ましいユーティリティ A1オフィス A2オフィス４ｐｍ、A1オフィスでのユーティリティが最大

エージェントA2のユーティリティ関数 エージェントA2にとって午前９時に、 A2オフィスで開かれることが最も好ましいユーティリティ A2オフィス A1オフィス９am、A2オフィスでのユーティリティが最大

２人のエージェントの話し合いの結果として・・・２人のエージェントの話し合いの結果として・・・２人のユーティリティの兼ね合いが、最大になる点を結論として考える２人のユーティリティの和を最大にする２人のユーティリティの積を最大にする２つのアプローチの仕方がある

２人のユーティリティの和を最大にする ２人のユーティリティの和が最大となる点を、話し合いの解決とするユーティリティの和 A2オフィス A1オフィス上の４つの状態が、ミーティングの行われる状態となる

２人のユーティリティの積を最大にする ２人のユーティリティの積が最大となる点を、話し合いの解決とするユーティリティの積 A2オフィス A1オフィス上の２つの状態が、ミーティングの行われる状態となる

２人のユーティリティの積を最大にする ゲーム理論の「ナッシュの定理」に基づくもの。「ナッシュの定理」とは？２人交渉問題のナッシュ解は、５つの公準を満たし、かつ、この５つの公準を満たす解は、ナッシュ解に限る。ナッシュ解：２人のユーティリティの積を　　　　　　　　最大にする解

（１）個人合理性 ５つの公準（２）共同合理性（３）利得の一次変換での不変性（４）対称性（５）無関連な代替案からの独立性

つまり ２人のユーティリティの積を最大にする解５つの公準を満たす唯一解である５つの公準とは、交渉の特性を述べている交渉問題において、適切と思われるのは、ユーティリティの積を最大にする解である

WODの定義 （Worth Oriented Domains：価値指向領域）

WOD（Worth Oriented Domains） WODでは、各エージェントが評価関数を用いて、全ての状態に価値を割り当てている。＜Ｓ, A , J , c ＞Ｓ：領域の状態 A：エージェント J：共同プラン c : コスト関数

＜Ｓ, A , J , c ＞ Ｓ：全ての取り得る、領域の状態の集合 A＝｛A1,A2,・・・,An｝：エージェントリスト J：全ての取り得る、共同プランの集合ｊ：S→Sj∈J ｃ：コスト関数ｃ：J→（R＋）ｎｃ（ｊ）i ：プランｊにおけるエージェント iの活動のコスト

さらに WOD内で問題を解くために、まずあるものとして、＜ｓ, （W1,W2,・・・Wn）＞ｓ: 領域の初期状態 Wk : エージェント k の評価関数

交渉のエージェントに関する５つの仮定 (1) Utility maximizer 各々のエージェントは、彼の期待したユーティリティを最大にすることを望む (2) Complete knowledge 各々のエージェントは、全ての関連情報を知っている

(3) Isolated negotiation 各々のエージェントは、現在の振る舞いが将来の交渉においてどんな影響を及ぼすか予期することができない。 (4) Bilateral negotiation 交渉は一度に、エージェントのペア一組の間で行われる。

(5) Symmetric abilities 全てのエージェントは、同じ活動が実行できる。そして、活動のコストは、各エージェントにとって同じである。

例：ブロック移動問題 　（１人のエージェントのみ）

①黒い箱をテーブル２に置きたい。ただし、 　直接テーブルの上には置かない。 ②白い箱をテーブル３にひとつだけで置　きたい。エージェントA1 箱を持ち上げるコスト：１箱を下ろすコスト：１１２３４ ①のサブゴールの評価：４ ②のサブゴールの評価：６

コスト２ f1 サブゴール①を満たしているコスト４ f2 サブゴール②を満たしているコスト８ f3 両方のサブゴールを満たしている 1 2 3 4

W：評価（価値） C：コスト U：ユーティリティ • ｆ２の状態 W６－C４＝U２ • ｆ１の状態 W４－C２＝U２ • ｆ３の状態 W（４＋６）－C８＝U２３つの状態が皆同じユーティリティ。

サブゴールの不達成 に対し、負の評価を与える • ｆ１の状態 W４－C２ーペナルティ６＝U－４ペナルティを導入 • ｆ２の状態 W６－C４ーペナルティ４＝U－２ • ｆ３の状態 W（４＋６）－C８ーペナルティ０＝U２ｆ３の状態が、最良の状態。

例：ブロック移動問題 　（２人のエージェントによる）

混合共同プランの導入 ・混合共同プランとは？エージェントが、確率pで共同プランj＝（j1、j2）を実行し、また確率１ーpで対称的な共同プラン（j2、j1）を実行するようなプランのこと

①黒い箱はテーブル１に置くが、その際、白い箱の上に置く。①黒い箱はテーブル１に置くが、その際、白い箱の上に置く。 ②灰色の箱はテーブル３に置く ①の評価：１０ ②の評価：４サブゴールの不達成によるペナルティ：①②ともにー２エージェントA2 エージェントA1 1 ２３４ ①黒い箱はテーブル１に置くが、その際、白い箱の上に置く。 ②灰色の箱はテーブル４に置く

各々コスト２ 両者が、サブゴール①を満たすには・・・灰色の箱を置く場所によって２つの最終状態がある１２３４

この状態にする プランδ１エージェントA1が望む状態この状態にするプランδ２エージェントA2が望む状態

ユーティリティを計算すると・・・ UA1(δ1)＝W（１０＋４）－C（２＋２）＝１０ UA1(δ2)＝W１０ーペナルティ２ーC２＝６ UA2(δ1)＝UA1(δ2)＝６ UA2(δ2)＝UA1(δ1)＝１０１人で完全なゴールを達成するよりもUがいい。コスト１０ U＝W（１０＋４）－C１０＝４

マルチプランdealの導入 ・マルチプランdealとは？エージェントが、確率ｑで混合共同プランδ１を実行し、また確率１ーｑで対称的な混合共同プランδ２を実行する。

この状態にする プランδ１エージェントA1が望む状態確率ｑこの状態にするプランδ２エージェントA2が望む状態確率１－ｑ

マルチプランdealにおけるユーティリティの定義マルチプランdealにおけるユーティリティの定義エージェントのユーティリティ　　　＝ｑ×（δ１でのユーティリティ）　　　　　＋（１－ｑ）×（δ２でのユーティリティ）

A1ユーティリティ１０ A2ユーティリティ６この状態にするプランδ１エージェントA1が望む状態確率０．５ A1ユーティリティ６ A2ユーティリティ１０この状態にするプランδ２エージェントA2が望む状態確率０．５

ユーティリティを計算すると・・・ UA1 ＝０．５×１０＋０．５×６＝８ UA2 ＝０．５×６＋０．５×１０＝８ UA1 ×UA2 ＝８×８＝６４

A1ユーティリティ１０ A2ユーティリティ６この状態にするプランδ１エージェントA1が望む状態 A1ユーティリティ６ A2ユーティリティ１０この状態にするプランδ２エージェントA2が望む状態

例：タイルワールド

穴（数字は、埋めた時の価値） A２ A１２２５２５エージェント障害物エージェントによって違う価値を当てられている穴４３２タイル（これで穴を埋める）

１マス移動でコスト１ A ２ A A A A A

10 ０９１５９０ 5 A2 A1 世界の初期状態１１ 5 10

10 9 １５ A1 A1 0 A1 A1 A1 A1 A1 A1 A1 A1 コスト１０ 5 A1 エージェントA1が１人で１５の穴を塞ごうとすると・・・１ユーティリティ５１ 5 10

10 A1 9 A1 A1 A1 １５ A1 A1 0 A1 A1 A1 A1 A1 コスト１２ 5 A1 エージェントA1が１人で９の穴を塞ごうとすると・・・１ユーティリティ-3 １ 5 10

10 9 A1 A1 A1 A1 １５ A1 A1 A1 0 A1 A1 A1 A1 A1 A1 A1 A1 コスト１６ 5 A1 エージェントA1が１人で両方の穴を塞ごうとすると・・・１ユーティリティ８１ 5 10

エージェントA1 １５の穴のみを塞ぐ：ユーティリティ５９の穴のみを塞ぐ：ユーティリティ－３両方の穴を塞ぐ：ユーティリティ８ A1は両方の穴を塞いで、最大ユーティリティ８を得る。

評価関数を用いた エージェント間の交渉