Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend)

Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend) (publié au JEDC, 2000)

Problématique • Démonstration de la différence entre un apprentissage individuel et collectif pour des agents • Ici prend l’exemple d’un algorithme génétique pour des agents en situation de marché • Comparaison des comportements aux données théoriques

Apprentissage • Les deux perceptions • Individuelle : ses propres perceptions seulement • Sociale : savoir collectif • Les données pertinentes • Individuelles : ses actions passées et les gains correspondants • Collectives : les actions de tous et les gains correspondants • Note : La différence peut être en rapport avec la notion d’externalité, ou influence réciproque

Exemple choisi • N firmes produisent le même bien vendu sur un marché unique. • La firme i produit qi. Le total de production est Q. • Le prix de marché dépend de Q : P (Q) = a + b.Qc • (courbe du papier) • Il y a des frais fixes K et un coût marginal k, d’où le coût total TC (q) = K + k.q prix quantité

Analyse des choix optimaux Profit : Π(q)=[a+bQ c ]q-[K+kq] • Cas où la firme n’influence pas le marché : d Π(q)/dq=[a+bQ c ]-K= 0 (optimal) QW=((k-a) / b)1/c et qW = QW/n Équilibre walrasien • Cas où la firme influence le marché : d Π(q)/dq=P + dP/dq –k = [a+bQ c ]+d[a+bQ c ]/dq-k= 0 QW=((k-a) / b.((c/n)+1))1/c et qW = QW/n Avec a < 0 b>0 c <0 et c-1 >-2n Équilibre de Cournot-Nash

Implémentation en modèle • 40 firmes sont implémentées, apprenant selon le modèle de l’algorithme génétique • Les règles ne sont pas des si… alors mais un bit string qui donne la production : 11 bits, définissant de 1 à 2048 la production. • A chaque pas de temps, usage d’une règle, gagne un gain. • Apprentissage social : n’utilise qu’une règle sur 100 pas de temps, connaît toutes les associations [règle > gain] de tout les agents. Révise tous les 100 pas de temps par imitation et recombinaison des règles qui gagnent le plus. • Apprentissage individuel : l’agent a 40 règles et les utilisent toutes en fonction des gains associés, construites aléatoirement, et il ne connaît que celle-là. Révise tous les 100 pas de temps par recombinaisondes règles qui gagnent le plus.

Pseudo-code start main loop for each period do begin for each firm do Classifier Systems’s actions begin activerule : "CHOOSE - ACTION; output level : "action of active } rule; end; determine market price; for each firm do Classifier Systems’s outcomes begin profit : "(market price) ) (output level)}costs; utility : "monotonic transformation of profit; with active } rule do fitness : "utility; end; if period is multiple of 100 then application Genetic Algorithm begin if individual learning GA then for each firm do GENERATE } NEW } RULES else if social learning GA then begin create set of 40 rules taking the 1 rule from each firm; GENERATE } NEW } RULES; re-assign 1 rule to each of the 40 firms end; end

Pseudo-code INITIALIZATION for each firm do for each rule do (1 ou 40) begin make random bit string of length 11 with standard binary encoding; fitness : "1.00; end; function CHOOSE - ACTION; begin for each rule do begin linearly rescale the firm’s actual fitnesses to [0,1]; bid : "rescaled } fitness#e; Mwith e+N(0, 0.075)N with probability : "0.025 the bid is ignored; end; determine highest } bid; end; choose } action : "highest } bid;

Pseudo-code procedure GENERATE } NEW } RULES; linearly rescale the actual fitnesses to [0,1]; repeat; choose two mating parent rules from 30 fittest rules by roulette wheelselection; (each rule with probability : "rescaled - fitness/sum (rescaled- fitnesses) with probability : "0.95 do begin place the two binary strings side by side and choose random crossing point; swap bits before crossing point; choose one of the two offspring at random as new } rule; end; with new } rule do begin fitness : "average fitnesses of the two mating parent strings; for each bit do with prob. : "0.001 do mutate bit from 1 to 0 or other way round; end; if new } rule is not duplicate of existing rule T hen replace one of weakest 10 existing rule with new } rule else throwaway; until 10 new rules created;

Paramètres Minimum individual output level 1 Maximum individual output level 2048 Encoding of bit string Standard binary Length of bit string 11 Number rules individual GA 40 Number rules social GA 40 X 1 GA-rate 100 Number new rules 10 Selection tournament Prob. selection Fitness/Σfitnesses Crossover Point Prob. crossover 0.95 Prob. mutation 0.001

Résultats

Analyse • On voit le lien entre • apprentissage individuel et convergence vers Cournot-Nash • Apprentissage social et convergence vers walrasien • Explication par le modèle en duopoly • En terme d’utilité, le modèle d’apprentissage individuel est plus efficace. • Il est aussi plus instable car il existe des équilibres multiples à adaptation permanente en fonction des actions des autres.

Discussion • Si n tend vers infini, les deux équilibres correspondent • On pourrait penser à des intermédiaires d’apprentissage « type learning », ici type est sigleton. • Spite effect influence l’évolution mais il existe aussi dans les one shot game, n’a pas besoin de l’évolution • Ceci n’est pas l’usage le plus typique des algorithmes génétiques. • Pourrait d’ailleurs être un autre type d’apprentissage o l’un est individuel et l’autre social – l’intérêt ici est l’identité des deux.

Conclusion • On a bien une différence intrinsèque entre les deux formes d’apprentissage • C’est important de bien réfléchir pour chaque application informatique • Souvent c’est l’apprentissage social qui est choisi pour des raisons de parcimonie, on peut dire que l’argument est mauvais • Lien à des études empiriques ??

Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend)

Présentation de la différence entre apprentissage individuel et collectif (Nick Vriend)

Presentation Transcript

ADVIA  120 TECHNOLOGY

Final Exam Review

Final Exam Review

Apprentissage Artificiel mise en perspective d’un demi-siècle d’évolution