1 / 23

Apprentissage (II)

Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes. Apprentissage (II). Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble. plan. c’est quoi ? différents types d’apprentissage supervisé les réseaux de neurones le perceptron réseaux plus complexes

glain
Download Presentation

Apprentissage (II)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dynamique des systèmes complexes et applications aux SHS :modèles, concepts méthodes Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble

  2. plan • c’est quoi ? • différents types d’apprentissage • supervisé • les réseaux de neurones • le perceptron • réseaux plus complexes • quelques résultats de la théorie de l’apprentissage • différents types d’apprentissage • bayesien • non supervisé • par renforcement mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  3. input : xN xi s=sgn(w.x) x1 x2 output : w1 wN g w classifieur élémentaire : le perceptron • d’inspiration biologique : « neurone  » élémentaire • surface discriminante linéaire : • stabilité d’un exemple : • distance à la surface discriminante avec signe – si mal classé mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  4. commentaire 1 • inspiration biologique : • McCullock et Pitts (1943) • des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques • Rosenblatt (1962) • une unité binaire peut apprendre à reconnaître des formes : perceptron • Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires • Hopfield (1982) • un réseau d’unités binaires interconnectées avec des poids Jik données par la règle de Hebb, modèlise une mémoire associative mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  5. algorithme du perceptron • on initialise les poids du perceptron • on parcourt les exemples • si la sortie donnée par le perceptron est incorrecte, on modifie les poids • jusqu’à convergence • convergence assurée seulement si les exemples sont linéairement séparables • si les exemples sont linéairement séparables : infinité de solutions entrée · sortie mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  6. commentaire 2 • règle de Hebb – modèle de Hopfield : • algorithme du perceptron : k i Jik wi i état du neurone de sortie état du neurone d’entrée mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  7. exemples non séparables linéairement • problème : • l’algorithme du perceptron ne converge pas • les autres algorithmes convergent mais souvent vers des solutions « non intéressantes » (trop d’exemples mal classés) • deux solutions : • « classiques » : réseaux en couches • « moderne » : Support Vector Machines mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  8. solution classique :perceptron multicouche

  9. x1 - w2 w1 w3 x2 + + + - x1 x2 xi xN perceptrons binaires « cachés » • réseau en couches avec unités binaires • permet de représenter des surfaces discriminantes plus complexes • méthode constructive : • on rajoutte des perceptrons cachés un à un : plusieurs heuristiques couche cachée représentations internes mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  10. w2 couche cachée w1 w3 s=tanh(w.x) x1 x2 xi xN apprentissage d’une fonction réelle • LM = { (xm, ym) }1≤m≤M, xm=(xm1, xm2, …, xmN) ; yme R • neurones cachés à valeurs réelles • peut apprendre toute fonction continue des entrées • à condition que le nombre de neurones cachés soit suffisant • apprentissage : "error backpropagation"  • minimisation de l’écart quadratique : • problèmes : • beaucoup de minima locaux : qualité de la solution ? • nombre de neurones cachés : par tâtonnement mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  11. solution « moderne »Machines à Vecteurs Support (SVM)

  12. g perceptron de marge maximale • marge : distance à la surface discriminante de l’exemple le plus proche 2k mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  13. Support Vector Machines (SVM) • application de l'espace des entrées x vers un espace F de plus grande dimension (feature space) • Support Vector Machine = perceptron de marge maximale dans le feature spaceF • algorithmes efficaces • exemple: mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  14. théorie de l’apprentissage • question fondamentale : • est-ce que minimiser le nombre d’erreurs garantit qu’on minimise la probabilité de mal classer de nouvelles données ? eg : erreur de généralisation (de prédiction) -> probabilité de faire une erreur de classification sur des entrées autres que les exemples • réponse : • oui, à condition que le nombre d’exemples M soit supérieur à la capacité du réseau • capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples • proportionnelle au nombre de paramètres à déterminer • perceptron ≈ 2N où N est le nombre de poids = dimension des entrées mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  15. 0.5 0.4 eg 0.3 0.2 0.1 0 0 4 6 2 a erreur de prédiction • tâches de classification réalisables et non réalisables : • pour un perceptron : réalisable -> séparable linéairement • comment varie eg en fonction du nombre d’exemples ? • tâche réalisable : • le meilleur algorithme : Bayes (b ≈ 0.5) coeff qui dépend de l’algorithme mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  16. inférence bayesienne

  17. p(a,b) p(a) p(a) p(b|a) p(a|b) b a p(b) p(b) règle de Bayes • probabilités  mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  18. inférence bayesienne • inférence = apprentissage • modifier les hypothèses en fonction des données (exemples) • cadre probabiliste : • on se donne un modèle des données • perceptron  le problème est linéairement séparable • probabilité a priori des paramètres du modèle • en absence de toute autre information : equiprobabilité  tous les poids w ont la même probabilité • LM = { (xm,tm) }1≤m≤M • on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  19. p0(w) inférence des poids d’un perceptron • formule de Bayes : • a priori : • modèle des données • paramétré par les poids w p(w) mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  20. p(w|LM) p0(w) a priori : p0(w) probabilité des poids a posteriori probabilité a posteriori cte > 0 hyperplans compatibles avec LM probabilité a posteriori = 0 mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  21. p(w|LM) p0(w) classifieur bayesien optimal • comment classer la nouvelle entrée ? • on classe comme la moyenne pondérée des poids (pondérée par la probabilité a posteriori) • dans notre cas : poids équiprobables  règle de la majorité perceptron optimal p(w) mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  22. inférence bayesienne : résumé hypothèse a priori vraisemblance des données paramètres a posteriori (compatibles avec LM) mirta.gordon@imag.fr - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II

  23. fin deuxième cours

More Related