1 / 37

Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon

Pourquoi les réseaux de neurones de type « perceptron multicouche » conviennent-ils à l’apprentissage. Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/. RNA de type PMC. y = W f ( W f (W X) ). 2. 1. 1. 3. 2. Motivations.

clive
Download Presentation

Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pourquoi les réseaux de neuronesde type « perceptron multicouche »conviennent-ils à l’apprentissage Stéphane Canu, INSA de Rouen , PSI André Elisseeff, ERIC, université de Lyon http://psichaud.insa-rouen.fr/~scanu/

  2. RNA de type PMC y = W f ( W f (W X) ) 2 1 1 3 2

  3. Motivations • RNA de type PMC : si ça marche, il doit y avoir un argument mathématique ! • Une machine qui apprend (pour « comprendre » ou « résoudre ») argument biologique ou mathématique • Poser (formaliser) le problème « d’apprentissage à partir d’exemples » • universalité • contrôle de la complexité • local vs global • dimensionnalité • hyper paramètre : • structure vs « adaptation »

  4. Le problème d’apprentissage • Des variables explicatives : X, et des variables à expliquer : Y • (observées) (à prédire) • des variables aléatoires : (X,Y) • une loi jointe (inconnue) • une fonction coût • une fonction cible r(x)= E(Y|X=x) • un échantillon (xi,yi) i=1,n Construire , un estimateur de la fonction r

  5. Le problème d’apprentissage • Des variables explicatives : X, et des variables à expliquer : Y • (observées) (à prédire) • des variables aléatoires : (X,Y) • une loi jointe (inconnue) • une fonction coût • une fonction cible r(x)= E(Y|X=x) • un échantillon (xi,yi) i=1,n R (une dimension) Construire , un estimateur de la fonction r

  6. Données : (xi,yi) i=1,n Principe inductif : Minimisation risque empirique Ce n’est pas suffisant ... Apprentissage à partir d'exemples

  7. B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ?

  8. B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ? Cemp = 0 minimiser Cempce n’est pas forcément minimiser EP

  9. B trop grand : tout apprendre = apprendre n’importe quoi Solution instable Pourquoi le principe du MRE n’est pas suffisant ? Cemp = 0 minimiser Cempce n’est pas forcément minimiser EP

  10. Ce problème est mal posé EP est instable B est trop grand Il faut introduire un a priori compactifier = régulariser (Tikhonov 63, Groetsch 93) Stabilisateur (pénalisation), Arrêt de la minimisation, Perturber les entrées,... Minimiser dans un sous ensemble F de B M.R.E.: comment stabiliser ?deux principes.

  11. Minimisation du risque empirique f ..f .. f 1 2 3 Mesure de Qualité

  12. Minimisation du risque empirique pas bon f ..f .. f 1 2 3 Mesure de Qualité

  13. Minimisation du risque empirique pas bon ..bon .. moyen f ..f .. f 1 2 3 Mesure de Qualité

  14.  : FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données

  15.  : FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données Qualité a priori

  16.  : FR f (f) Mesure de Qualité + Ff| (f) existe n 1 2 Min S |yi - f(xi)| (f) 2 i f F Ajustement aux Données Qualité a priori Roberval

  17. (f) mesure la “qualité” de f Exemple d’a priori Interprétation Bayésienne

  18. (f) mesure la “qualité” de f Exemple d’a priori Fourier Interprétation Bayésienne

  19. Choix de l’a priori 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 0 X -4 -2 0 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière »

  20. Choix de l’a priori 200 m : mesure P(x): densité m(dx)= P(x)dx 150 100 50 0 X -4 -2 0 2 4 6 P(x) petit P(x) grand peu d’information beaucoup d’information f doit être « régulière » f peut être « irrégulière » Qualité

  21. Choix de l’a prioridérivée de Radon-Nikodym Un exemple

  22. exemple

  23. Solution : r(x) = Arg r(x) = r (x) + r (x) « locale »(r ) = 0 les a priori des perceptrons multicouches tanh(x) : “globale” (tanh) = 0 n 1 2 min S |yi-f(xi)| (f) i Choix de (f)a priori ^ 2 f F ^ ^ ^ l k ^ k

  24. Minimisation du risque régularisé dérivée directionnelle

  25. |Qf de Q à G Q*Q Q*Q Ker(Q)

  26. |Qf de Q à G Q*Q A PRIORI Q*Q Ker(Q) Solution

  27. estimation des c

  28. y 0 G +  I c d = K K’ 0 Estimation des c et des d n+k n 1 n n+k

  29. Exemple

  30. r(x) = r (x) + r (x) R.B.F + P.M.C Un cadre théorique possible ^ ^ ^ k l Une Solution Mixte

  31. Perspectives • cadre théorique pour les réseaux de neurones • mesures signées • multidimensionnel, • intégration des données (x et y) dans le choix de m, • nouveaux algorithmes d ’apprentissage (SVM, …), • moins d’erreur : des bornes ! • intégrer une mesure de complexité,

  32. f = Qf Q*Q G =  f(x) = S ci G(xi,x) + S dj Kerj(x) moindres carrés : (G +  I) c = y Noyau équivalent : f(x) = S yi K(xi,x) Matrice de lissage : f(xi) = S y Régression spline et a priori

  33. Cout quadratique Cout absolu Cout relatif absolu Relatif quadratique Quantiles Fixé par l’utilisateur, ... Les autres fonctions couts nom contraste fonction cible r(x) = E(Y|X=x)

  34. Ce problème est mal posé car B est trop grand ! existence d’une solution unicité stabilité de l’erreur en prédiction EP si (xi,yi) change un peu, EP varie peu Minimisation du Risque Empirique (M.R.E.)

  35. Minimisation risque empirique Minimisation du risque structurel Régulariser : choisir F tel que M.R.E. soit stable Choix de F : Minimisation du risque Structurel

  36. { 1 2 3 Minimisation du risque structurel 1 - Choix de F -F est fonction de l’échantillon et du problème, - pratiquement, {Fm} : contrôle de la complexité. 2 - Estimation de l’erreur de prédiction - borne théorique, - par rééchantillonnage, - ensemble test. 3 - Régulariser : introduire un a priori (Groetsch 93) - stabilisateur (pénalisation, Weigend 91), - perturber les entrées (régulariser l’opérateur, Plaut 86), - arrêt de la minimisation (Amari 95).

  37. Moindrescarrés

More Related