1 / 42

Principes généraux de l’I NDUCTION

Principes généraux de l’I NDUCTION. Antoine Cornuéjols. CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/. Cours 5. 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches

evonne
Download Presentation

Principes généraux de l’I NDUCTION

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Principes généraux del’INDUCTION Antoine Cornuéjols CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/

  2. Cours 5 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches 5-Analyse formelle de l’induction 6- Les SVM 7- Les arbres de décision 8- Le boosting 9 & 10- Apprentissage par renforcement

  3. 1- Quel niveau de description ? 1. Analyse de principe, de faisabilité sans référence à un algorithme particulier !! • Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation • Algorithmes • Programmes • Réalisations et tests empiriques

  4. 1- Le scénario de base x1, x2, ..., xm Environnement X : distribution de prob. F(x) “Oracle” Sm = (x1,u1), (x2,u2), ..., (xm,um) Apprenant : h (x) x1, x2, ..., xm y1, y2, ..., ym

  5. 1- Définition formelle du problème • Hypothèse : les données empiriques caractérisent une dépendance probabilisteP entre l’espace X des descriptions et l’espace Y des étiquettes • Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue • S = {(x1,u1), (x2,u2), … (xm,um)} (XY)m • Échantillon d’apprentissage • Les observation sont i.i.d. suivant P • H : famille (éventuellement infinie) de fonctions h définies sur X • Objectif : prédire l’étiquette y connaissant l’observation x

  6. 1- L’objectif de l’induction • Objectif : trouver une hypothèse hH minimisant le risque réel (espérance de risque, erreur en généralisation) Loi de probabilité jointe sur XY Fonction de perte Étiquette prédite Étiquette vraie (ou désirée)

  7. 1- Exemples de fonctions de pertes • Discrimination • Régression • Estimation de densité

  8. 1- Les grands principes inductifs • Étant donnés: • un échantillon d’apprentissageSm • et un espace d’hypothèseH • Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ? • Quelle hypothèse devrais-je chercher ? Le principe inductif

  9. 2.1- Le principe inductif ERM • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y). • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique

  10. 2.2- Le principe ERM est-il pertinent ? • h* : hypothèse optimale dans H suivant le risque réel • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm

  11. 2.2- Analyse du principe de minimisation du risque empirique • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?

  12. 2.3- Les facteurs : le compromis biais-variance

  13. 2.3- Les facteurs : le compromis biais-variance

  14. 3- Analyse statistique du principe ERM • Étude de la corrélation entre : et • Cette corrélation fait intervenir : • RRéel(hS) - RRéel(h*) nécessairement ≥ 0 (pourquoi ?) • La probabilité que cette différence soit supérieure à une borne donnée • car hS dépend de la représentativité de l’échantillon d’apprentissage Sm

  15. 3- Analyse statistique du principe ERM (suite)

  16. 3- Analyse statistique du principe ERM (suite)

  17. 3- Analyse statistique du principe ERM (suite)

  18. 3- Pertinence (consistance) du principe ERM • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empiriqueREmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .

  19. 3.1- Le cas de la discrimination : l’analyse PAC • Contexte : • Discrimination • Fonction de perte l : {0,1} • F = H • H : espace fini • L’apprentissage consiste alors à éliminer toutes les hypothèsesnon cohérentes avec les données et à en choisir une parmi les restantes Quelle est la probabilité qu’une hypothèse de risque empirique nul    soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)

  20. 3.2- Le cas de la discrimination : l’analyse PAC • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f

  21. 3.2- Le cas de la discrimination : l’analyse PAC Raisonnement par l’absurde • Supposons une hypothèse de risque réel > e • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ? • Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e • Après observation de m exemples i.i.d., elle est : (1 - e)m

  22. 3.2- Le cas de la discrimination : l’analyse PAC Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ? • Événements disjoints : • Donc borné par : |H| (1 - e)m < | H | e-em • Il suffit donc d’avoir un échantillon de taille • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d

  23. 3.2- Le cas de la discrimination : l’analyse PAC Pourquoi PAC ? • Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible) • Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d) • Probablement Approximativement Correct

  24. 3.3- Les leçons • La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur • Le raisonnement implique l’ensemble des hypothèsesH : argument de convergence uniforme • L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage

  25. 3.4- Extension : l’analyse de Vapnik • Contexte : une généralisation • N’importe quel type de fonctions hypothèses • N’importe quel type de fonction de perte (> 0 et bornée) • F éventuellement ≠ H (apprentissage agnostique) • H : espace infini • Ici, on va cependant se limiter au cas de la discrimination • Risque empirique :

  26. 3.4- Extension : l’analyse de Vapnik • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille Hde fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.

  27. 3.4- Extension : l’analyse de Vapnik • Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a : Terme dépendant de la « richesse » de H

  28. 3.4- Extension : l’analyse de Vapnik • Problème angoissant : comment croît la fonction de croissance GH(m) ? • Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!! • Définition (Dimension de Vapnik-Chervonenkis, 1971)La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon. Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de Xpulvérisé par H.

  29. 3.4- Extension : l’analyse de Vapnik

  30. 3.4- Un lemme sauveur : le lemme de Sauer (1972) • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :

  31. 3.4- Qu’est-ce que cela signifie ? • Cas de fonctions de discrimination et H = F • La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H • E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est : linéaire en dH !!

  32. 3.4- Le « take-home » message • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme: • dans le cas général • dans le cas où H = F

  33. 3.4- Quelques exemples de dimensions de VC

  34. 3.5- Vers d’autres principes inductifs • Reconsidérons l’équation (valable pour la discrimination et H = F) • Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre : • un risque empirique faible : bonne adéquation aux données • et un espace d’hypothèse d’expressivité bien réglée

  35. 3.5- Les méthodes par « sélection de modèles » • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles) • Le SRM (Structural Risk Minimization) • La théorie de la régularisation • Le MDLp • Les approches bayésiennes

  36. 3.5- Le SRM • La procédure s’appuie sur une structure sur H définie a priori

  37. 3.5- La théorie de la régularisation • Issue de l’étude des problèmes « mal posés » (plusieurs solutions) • Il faut imposer des conditions supplémentaires • Contraindre l’espace des paramètres si H = {fonctions paramétrées} • Imposer des conditions de régularité (e.g. dynamique limitée) • …

  38. 3.5- Le MDLp (Minimum Description Length principle) • On suppose qu’il existe : • un coût associé à la transmission des données brutes (mesuré en bits) : L(x) • un coût associé à la transmission d’un codage (modèle des données) : L(h) • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

  39. 3.6- En d’autres mots … Notion de biais Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. • Biais de représentation • On ne peut pas apprendre sans biais • Plus le biais est fort, plus l’apprentissage est facile • Bien choisir le biais • Biais de préférence • Dû au contrôle de la recherche • Critère de choix entre hypothèses • Simplicité, complétude, intelligibilité, facilité d’évaluation, ... • Dû au protocole • Stratégie éducative (si apprentissage incrémental)

  40. 3.6- En d’autres mots … Réponses qualitatives 1. De quelle information doit-on disposer ? • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses 1'. Quel principe inductif ? • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus • Un nouveau principe : minimiser à la fois • l'erreur sur l'échantillon d'apprentissage • ET une mesure de la richesse de H

  41. 3.7- Le no-free-lunch theorem

  42. 3.7- Le no-free-lunch theorem

More Related