1 / 51

Convergence to Approximate Nash Equilibria in Congestion Games

Convergence to Approximate Nash Equilibria in Congestion Games. Strumenti della Teoria dei Giochi per l’Informatica A.A. 2009/2010 Sebastiano Panichella. Scenario.

flo
Download Presentation

Convergence to Approximate Nash Equilibria in Congestion Games

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ConvergencetoApproximate Nash Equilibria in CongestionGames Strumenti della Teoria dei Giochi per l’Informatica A.A. 2009/2010 Sebastiano Panichella

  2. Scenario • L’emergente ricerca di algoritmi di “game theory” ha portato a una fondamentale riesaminazione dei classici concetti relativi agli “equilibri di Nash”, con grosse prospettive computazionali • Tratteremo i “Congestion Game” • Esempio di Congestion Game: • siano e due giocatori; • sia che vogliono andare da S (Sorgente) a D (Destinazione); • le strade disponibili per andare da S a D sono due, A e B A S D B Tabella dei payoff

  3. Motivazioni • I Congestion Game hanno attirato l’attenzione dei ricercatori per varie ragioni: • Riguardano una gran parte di scenari con problemi di allocazione delle risorse, e di routingdove è sempre presente un “equilibrio di Nash puro”: a differenza di altri giochi, hanno sempre un N.E. dove ogni giocatore sceglie un’unica strategia • Per il meccanismo noto come “Nash dynamics”, dove a ogni passo qualche giocatore cambia la sua strategia verso un’altra ritenuta più conveniente, è garantita la convergenza a un “pure Nash equilibria”.

  4. Congestion Game • Definizione di Congestion Game: • n giocatori ; • a ciascun giocatore iviene assegnato un insieme finito di strategie (ossia un insieme di risorse disponibili all’i-esimo giocatore); • a ciascun giocatore i viene assegnata unafunzione di costo che desidera minimizzare (il costo di ogni strategia dipende solo dal numero di giocatori che usano la risorsa in questione) Maggiore è il numero dei giocatori che utilizzano una risorsa Maggiore è il costo

  5. Congestion Game funzione di costo (non negativa) numero di giocatori che usano la risorsa “e” • Formalmente il costo per pi è • Uno stato è una qualsiasi combinazione di strategie per gli n giocatori. • equilibrio di Nash puro: uno stato è un equilibrio di Nash se Per ogni altra strategia Per ogni giocatore Il costo della strategia scelta da pi Il giocatore pinon è incentivato a cambiare

  6. Classe di Congestion Game • Nella Classe di Congestion Game che consideriamo: • i giocatori condividono un insieme di risorse (gioco simmetrico) chiamate archi • l’insieme di strategie, , di un giocatore piè una collezione arbitraria di sottoinsiemi di E • la strategia del giocatorepi, è un sottoinsieme di E • a ogni arco è associata una funzione di costo (o ritardo) non decrescente

  7. Classe di Congestion Game numero di giocatori che usano l’arco “e” nello stato “s” • Se t giocatori utilizzano l’arco eciascuno di essi pagherà un costo de(t) • In uno stato s=(s1 ,…, sn) il costo del giocatore piè Esempio dstrada(1)=2 In generale dstrada(t)= dstrada(2)=4 dstrada(3)=8

  8. Funzioni Potenziali Sommiamo i costi sostenuti in base ai giocatori che lo utilizzano Per ogni arco • Funzione potenziale: i giochi a congestione sono in possesso una precisa funzione potenziale definita come • proprietà: il cambiamento in 𝜙 rispecchia esattamente la variazione dei costi del giocatore se il giocatore picambia la sua strategia dasia s’i = Variazione del potenziale Variazione del costo per pi

  9. Se a ogni passo permettiamo ai giocatori di modificare la propria strategia (più conveniente) Niente ci assicura “la rapida convergenza” a un equilibrio di Nash Funzioni Potenziali • Osservazione: diminuirà fino a raggiungere un minimo locale ossia ma un equilibrio di Nash puro

  10. Approssimazione di equilibri di Nash Accuratezza ottimo Tempo

  11. Definizioni • ε-equilibrio di Nash: sia , uno stato è un ε-equilibrio di Nash se • Dinamiche best responseε-approssimate: dinamiche best response nelle quali ciascun giocatore può fare solo ε-mosse, ossia movimenti che migliorano il costo di un fattore maggiore di ε. Più formalmente se il giocatore pi si sposta da si a si’ allora Per ogni giocatore Il giocatore pinon ha più di un ε-incentivo a cambiare strategia Per ogni strategia

  12. ε-N.E. e Dinamiche ε-Nash Se i giocatori non hanno più ε-mosse da effettuare I giocatori hanno raggiunto un ε-equilibrio di Nash Se più di un giocatore ha una ε-mossa disponibile, solo il giocatore il cui relativoguadagno è il più grande effettuerà la sua mossa. In altre parole, il giocatore pi effettua la sua mossa se, tale mossa massimizza il rapporto Costo ottenuto nel caso in cui il giocatore effettua la mossa si’ Minore è tale costo e maggiore è il rapporto R Costo Precedente

  13. Definizioni Bounded Jump: dato un grafo G(V,E) con funzione di peso sugli archi , diciamo che l’arco “e” soddisfa la condizione di α-bounded jumpse • sia t ≥0 il numero di giocatori • ∀ costante α≥1 la sua funzione di costo soddisfa la condizione costo dell’arco e per t giocatori costo dell’arco e per (t +1) giocatori quando un nuovo player sceglie di utilizzare un determinato arco, il costo che pagheranno tutti i giocatori che lo usano sarà incrementato di un fattore di al più α

  14. Lemma 3.2 ENUNCIATO In un gioco a congestione simmetrico dove, ogni arco soddisfa la condizione “α-bounded jump “, se nelle dinamiche ε-approssimate nello stato sla prossima mossa è fatto dal giocatore pi ,allora Per ogni giocatore pj diverso dal giocatore pi Il costo del giocatore pjè al più αvolte il costo del giocatore pi

  15. Lemma 3.2 DIMOSTRAZIONE • Supponiamo che il gioco si trovi in uno stato • Supponiamo che un giocatore pi voglia effettuare una mossa da sia si’con guadagno relativo • Supponiamo che un altro giocatore pj≠pivoglia effettuare la stessa mossa,ossia, si muove da sj a sj’’ = si’ con guadagno relativo Per come abbiamo definito il gioco, solo il giocatore con il massimo guadagno relativo effettua la sua mossa; quindi se nel gioco, solo il giocatore pi effettua la sua mossa, deve valere che Rj≤Ri

  16. Lemma 3.2 (1) Ossia A questo punto, confrontiamo il costo che il giocatore pi paga per effettuare la sua mossacon quanto avrebbe pagato il giocatore pjper effettuare la sua mossa da sj’’ (se vedessimo vincere l’uno o l’altro giocatore): ∀ arco che il giocatore pivuole usare, possiamo avere che 1. pi sta già usando l’arco “e” prima della mossa (perchèpj stesso potrebbe essere il nuovo giocatore che utilizza l’arco e) pi paga per usare l’arco e Per la condizione di “bounded jump”abbiamo che . pj paga al più per usare l’arco e

  17. Lemma 3.2 2. pi non sta già usando l’arco e prima della mossa Sommando su tutti gli archiabbiamo che (2) Sostituendo la (2) nella disequazione (1) abbiamo che pj paga al più lo stesso prezzo pi paga per usare l’arco e

  18. Lemma 3.2 Semplificando, abbiamo

  19. Teorema 3.1 ENUNCIATO In qualsiasi gioco a congestione simmetrico, dove • nè il numero di giocatori • tutti gli archi soddisfano l’α-bounded jump condition • C è un limite superiore al costo di ciascun giocatore le dinamiche ε-approssimate convergono partendo da un qualsiasi stato iniziale in numero di passi pari a Boundedcondition Limite superiore al costo di ciascun giocatore Il fattore di approssimazione > 0

  20. Teorema 3.1 DIMOSTRAZIONE Dal Lemma 3.2 sappiamo che se piè il giocatore che si muove da sia si’ allora Siccome il costo che paga il giocatore è di almeno volte il più grande costo di ogni giocatore Il potenziale ≤ costo complessivo Il costo del giocatore pi≥ la media del potenziale

  21. Teorema 3.1 Da cui, dopo un movimentodi pi stato s allo stato s’ Trattandosi di un ε-mossa la variazione del costo per pi è più di ε-volte il costo dello stato precedente s In generale Dato che Nello stato iniziale 𝜙 =𝜙max= potenziale iniziale; dato che Ad ogni passo Numero totale di passi per la convergenza = Variazione del potenziale Variazione del costo per pi

  22. PLS-completezza di giochi con BoundedJump Mentre un ε-equilibriodi Nash viene raggiunto in un numero di passi polinomiale ( il Teorema3.1) lo stesso non accade per un equilibrio di Nash puro Proposition3.3Il problema della ricerca di un equilibrio di Nash in giochi a congestione simmetrici che soddisfano la condizione di boundedjump con α = 2 è PLS-completo nonhanno effetti sugli equilibri di Nash esatti sugli ε-equilibri di Nash I risultati finora ottenuti hanno effetti significativi

  23. L’Esempio • Anche se gode della BoundedJumpconditionquesto semplice problema di allocazione di risorse In generale dstrada(t)= Esempio dstrada(1)=2 dstrada(2)=4 dstrada(3)=8 è PLS-completo…

  24. Meccanismi di coordinamento • Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa • 1) Domanda:quando vengono utilizzati altri meccanismi di coordinamento cosa succede?Per queste varianti dell’ ε-Nashdynamics, il teorema 3.1 è ancora valido (convergenza polinomiale a ε-equilibri di Nash)? • 2) Domanda:quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a ε-equilibri di Nash?

  25. Varianti della ε-Nashdynamics Una variantedella ε-Nashdynamics Heaviest first dynamics: ad ogni passo, tra tutti i giocatori con un ε-mossa disponibili, si consente la mossa al giocatore con il maggior costo corrente Largestgaindynamics: ad ogni passo, tra tutti i giocatori con un ε-mossa disponibili, quello che si muove è quello il cui miglioramento dei costi (assoluto) è il maggiore. Un’altra variantedella ε-Nashdynamics Costo del giocatore se effettua la mossa si’ Costo Precedente

  26. Varianti della ε-Nashdynamics 1) Domanda: per queste varianti dell’ ε-Nashdynamics, il teorema 3.1 è ancora valido? Dai teoremi • Teorema 3.4Il Teorema 3.1continua a essere valido anche nelLargestgaindynamics. • Teorema 3.5Il Teorema 3.1continua a essere valido anche per Heaviest firstε-Nashdynamics Risposta: Si

  27. Le dinamiche senza “restrizioni” • Osservazione: finora abbiamo sempre utilizzato un meccanismo di coordinamento nel quale il giocatore con il maggiore incentivo fa la prima mossa • 2) Domanda:quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a ε-equilibri di Nash? • The unrestricteddynamics è un meccanismo in cui i giocatori: • possono muoversi in un ordine arbitrario • sono soggetti ad una sola condizione “necessaria”: a ogni giocatore deve essere data la possibilità di fare la propria mossa entro un certo limite di tempo

  28. Le dinamiche senza “restrizioni” • Più formalmente la dinamica senza restrizioniè • una sequenza di q1 ,q2,… ,qndove ogni qtindica un giocatore • al passo t al giocatore qtè data la possibilità di muoversi Si qt ha un ε-mossa? No • Vogliamo che per qualche costante Togni giocatore picompaia almeno una voltain ogni intervallo di sequenza con lunghezza T Non fa nulla Fa la mossa

  29. Le dinamiche senza “restrizioni” • Esempio: La “Round-Robin”dynamics • A turno a ogniplayer piviene data la possibilità di fare la sua mossa

  30. Le dinamiche senza “restrizioni” è un limite superiore al costo di ogni giocatore • 2) Domanda:quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a ε-equilibri di Nash? • Risposta: Si Dal Teorema 4.1In ogni gioco a congestione simmetrico con n giocatori i cui archi soddisfano α-boundedjumpcondition, qualsiasi ε-Nash-dynamics, in cui a ogni giocatore viene data la possibilità di fare la propria mossa all'interno di ogni intervallo di tempo di lunghezzat, converge da qualsiasi stato iniziale in un numero di passi pari a

  31. Le dinamiche senza “restrizioni” • Per provare il teorema 4.1 è utile enunciare (e dimostrare) il seguente Lemma: Lemma 4.2Sia ci(s)il costo sostenuto dal giocatore pinello stato s , e sia ci(s’) il costo di pi “in uno stato futuro s’ in cui non si è mosso”. Allora “Concettualmente” mette in relazione il miglioramento della funzione potenziale la variazione del costo per pi, anche quando il giocatore non fa nessuna mossa per molti steps

  32. Le dinamiche senza “restrizioni” Dimostrazione lemma Sappiamo che I contributi positivi a questa somma sono dati dagli archieche altri giocatori hanno liberato • Sapendo che il primo giocatore pj che rinuncia a e aveva un costo di • almeno allora la funzione potenziale migliora di almeno la variazione del costo per pi

  33. Le dinamiche senza “restrizioni” valore che ha assunto la funzione potenziale all'inizio dell'intervallo ε-volte quanto ci guadagna pi Il miglioramento totale di 𝜙 è Convergenza in al più Dimostrazione Teorema 4.1 Ai fini della prova è sufficiente mostrare che durante ogni intervalloin cui a ogni giocatore è data la possibilità di effettuare una mossa, la funzione potenziale 𝜙diminuisce di almeno

  34. Le dinamiche senza “restrizioni” • Siano gli stati durante questo intervallo (non necessariamente differenti) • Sia phil giocatore con il maggior costo in s0 • Sia t ≥ 0la prima volta in cui,durante l’intervallo, al giocatore ph è data • la possibilità di muoversi Avremo due casi: • Caso(i): al tempo t , phha un ε-mossa a disposizione • Caso(ii): al tempo t , phnonha un ε-mossa a disposizione

  35. Le dinamiche senza “restrizioni” Caso(i) dal Lemma 4.2, abbiamo la garanzia che Dopo l’ ε-mossa di ph, 𝜙 sarà migliorata di almeno la variazione del costo per ph, anche quando il giocatore non fa nessuna mossa per molti steps il miglioramento della funzione potenziale ε-Media del potenziale iniziale Convergenza in al più Il teorema è soddisfatto

  36. Le dinamiche senza “restrizioni” Caso(ii) Nonavendo un ε-mossa a disposizione non vogliamo che ph possa fare un ε-mossaadottando semplicemente la strategia di un altro giocatore, pi • Al momento t, dobbiamo avere Costo di ph per simulare la mossa di pi Utilità di ph per simulare la mossa di pi

  37. Le dinamiche senza “restrizioni” (1° caso) Consideriamo un giocatore pi, a cui è data la possibilità di fare la sua mossa al tempo t’ > t ossia, dopo che a ph è stata data la possibilità di muoversi Analizzeremo due casi: (2° caso) • Consideriamo l’ultimogiocatore, pi ,a cui è data la possibilità difare la sua mossa al tempo t’ < t

  38. Le dinamiche senza “restrizioni” (1° caso) Sia pi , un giocatore che fa la sua mossa al tempo t’ > t ossia, dopo che a ph è stata data la possibilità di muoversi, avremo che = = La variazione della funzione = potenziale Il teorema è soddisfatto

  39. Nell’istante t’ Le dinamiche senza “restrizioni” (2° caso) Sia pi , l’ultimo giocatore che fa la sua mossa al tempo t’ < t, Infatti da (3) la condizione deve essere soddisfatta da pi anche al tempo t (e anche subito dopo) Dato chefare la mossa può solo ridurre il suo costo, soddisfa la condizione anche al tempo t’

  40. Deriva dal LEMMA 4.2 massimo miglioramento ottenuto da piper la sua mossa Le dinamiche senza “restrizioni” • Allora la variazione di potenziale • Deriva • dalla condizione

  41. Deriva dal LEMMA 4.2 massimo miglioramento ottenuto da piper la sua mossa Le dinamiche senza “restrizioni” • Allora la variazione di potenziale è minima quando È soddisfatta

  42. Le dinamiche senza “restrizioni” • 2) Domanda:quando non viene utilizzato nessun meccanismo di coordinamento cosa succede? E’ possibile convergere polinomiale a • ε-equilibri di Nash? Risposta: Si • 3) Domanda:se generalizziamo il gioco permettendo a ciascun giocatore di dichiarare il proprio ε(che in un certo qual modo indica la “tolleranza” all’infelicità o, se vogliamo, la propensione a accontentarsi del giocatore). E’ possibile convergere polinomiale a ε-equilibri di Nash? Parliamodi Giocatori eterogenei

  43. Giocatori eterogenei • Heterogeneouseplayers: è una generalizzazione delle impostazione precedenti dove ciascun giocatore pi ha un proprio valore ε, che chiameremo εi che specifica la sua “tolleranza” all’infelicità Per ogni giocatore Il giocatore pinon ha più di un εi-incentivo a cambiare strategia Per ogni strategia • ε-equilibrio di Nash:per , uno stato • è un ε- equilibrio di Nash se

  44. Giocatori eterogenei Dinamiche best responseε-approssimate: dinamiche best response nelle quali ciascun giocatore pipuò fare solo εi-mosse, ossia movimenti che migliorano il costo di un fattore maggiore di εi. più formalmente se il giocatore pi si sposta da si a si’ allora Cambiare strategia non conviene più di εi volte il costo della strategia attuale

  45. Giocatori eterogenei • Vedremo che • questa dinamicaconvergein passi • il numero di passi di tempo in cui un giocatore con tolleranza εi "sarà" infelice "(cioè, avrà un ε-move disponibile) è essenzialmente a prescindere dagli εj-valori degli altri giocatori.

  46. Giocatori eterogenei Teorema 5.2 Sia εmax < 1 il valore massimo di εi , tra tutti i giocatori pi. Allora, , ci sono al massimo “volte” in cui qualche giocatore pjcon εj ≥ εsarà in grado di muoversi prima che l’ ε-Nashdynamicsconverga Dimostrazione Teorema 5.2 Sia s =(s1,…,sn), uno stato in cui un giocatore pjcon εj ≥ εha una εj-movedisponibile. Ai fini della prova è sufficiente dimostrare chela riduzione della funzione potenziale 𝜙è almeno

  47. Giocatori eterogenei • Sia pi il giocatore che si muove “attualmente” dallo stato s a . . • Sia phil giocatore con il “maggior costo” in s Analizzeremo due casi: • Caso(i): ph =pi, ossia, piha il maggior costo • Caso(ii): ph ≠pi ossia, pinon ha il maggior costo

  48. Se il ph= piallora abbiamo già finito, dal momento che ad ogni passo il potenziale si riduce di almeno Giocatori eterogenei Caso(i) Convergenza in al più n. passi pari a Il teorema è soddisfatto

  49. Giocatori eterogenei Caso(ii): ph ≠pi ossia, pinon ha il maggior costo Supponiamo che ph possa muoversi da s a s’’simulando la strategias’i del giocatore pi. Siccome nonvogliamo che ph possa muoversida s, dato che non è il suo turno Analizziamo due casi: • Caso(1): la mossa da s a s’’non deve essereuna εh-move per ph • Caso(2): il guadagnorelativo per ph non è più grande del guadagno relativo che ottiene consentendo api di effettuare la sua mossa.

  50. Giocatori eterogenei • Caso(1): la mossa da s a s’’non deve essereuna εh-move per ph • Sappiamo che • Combinando le due disequazioni, abbiamo (Dal teorema 3.1) Allora Il teorema è soddisfatto

More Related