principes g n raux de l i nduction
Download
Skip this Video
Download Presentation
Principes généraux de l’I NDUCTION

Loading in 2 Seconds...

play fullscreen
1 / 42

Principes généraux de l’I NDUCTION - PowerPoint PPT Presentation


  • 108 Views
  • Uploaded on

Principes généraux de l’I NDUCTION. Antoine Cornuéjols. CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/. Cours 5. 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Principes généraux de l’I NDUCTION' - evonne


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
principes g n raux de l i nduction

Principes généraux del’INDUCTION

Antoine Cornuéjols

CNAM-IIE

et L.R.I., Université de Paris-Sud, Orsay (France)

[email protected]

http://www.lri.fr/~antoine/

cours 5
Cours 5

1 & 2- Introduction à l’induction

3- Apprentissage et espace des versions

4- Réseaux de neurones multicouches

5-Analyse formelle de l’induction

6- Les SVM

7- Les arbres de décision

8- Le boosting

9 & 10- Apprentissage par renforcement

1 quel niveau de description
1- Quel niveau de description ?

1. Analyse de principe, de faisabilité

sans référence à un algorithme particulier !!

  • Théories mathématiques en particulier de nature statistique

2. Niveau de la réalisation / simulation

  • Algorithmes
  • Programmes
  • Réalisations et tests empiriques
1 le sc nario de base
1- Le scénario de base

x1, x2, ..., xm

Environnement X :

distribution de prob. F(x)

“Oracle”

Sm = (x1,u1), (x2,u2), ..., (xm,um)

Apprenant : h (x)

x1, x2, ..., xm

y1, y2, ..., ym

1 d finition formelle du probl me
1- Définition formelle du problème
  • Hypothèse : les données empiriques caractérisent une dépendance probabilisteP entre l’espace X des descriptions et l’espace Y des étiquettes
    • Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue
    • S = {(x1,u1), (x2,u2), … (xm,um)} (XY)m
      • Échantillon d’apprentissage
      • Les observation sont i.i.d. suivant P
      • H : famille (éventuellement infinie) de fonctions h définies sur X
  • Objectif : prédire l’étiquette y connaissant l’observation x
1 l objectif de l induction
1- L’objectif de l’induction
  • Objectif : trouver une hypothèse hH minimisant le risque réel (espérance de risque, erreur en généralisation)

Loi de probabilité

jointe sur XY

Fonction de perte

Étiquette

prédite

Étiquette vraie

(ou désirée)

1 exemples de fonctions de pertes
1- Exemples de fonctions de pertes
  • Discrimination
  • Régression
  • Estimation de densité
1 les grands principes inductifs
1- Les grands principes inductifs
  • Étant donnés:
    • un échantillon d’apprentissageSm
    • et un espace d’hypothèseH
  • Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ?
  • Quelle hypothèse devrais-je chercher ?

Le principe inductif

2 1 le principe inductif erm
2.1- Le principe inductif ERM
  • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).
  • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique
2 2 le principe erm est il pertinent
2.2- Le principe ERM est-il pertinent ?
  • h* : hypothèse optimale dans H suivant le risque réel
  • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm
2 2 analyse du principe de minimisation du risque empirique
2.2- Analyse du principe de minimisation du risque empirique
  • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?
3 analyse statistique du principe erm
3- Analyse statistique du principe ERM
  • Étude de la corrélation entre :

et

  • Cette corrélation fait intervenir :
    • RRéel(hS) - RRéel(h*) nécessairement ≥ 0 (pourquoi ?)
    • La probabilité que cette différence soit supérieure à une borne donnée
      • car hS dépend de la représentativité de l’échantillon d’apprentissage Sm
3 pertinence consistance du principe erm
3- Pertinence (consistance) du principe ERM
  • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empiriqueREmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .
3 1 le cas de la discrimination l analyse pac
3.1- Le cas de la discrimination : l’analyse PAC
  • Contexte :
        • Discrimination
        • Fonction de perte l : {0,1}
        • F = H
        • H : espace fini
  • L’apprentissage consiste alors à éliminer toutes les hypothèsesnon cohérentes avec les données et à en choisir une parmi les restantes

Quelle est la probabilité qu’une hypothèse de risque empirique nul    soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)

3 2 le cas de la discrimination l analyse pac
3.2- Le cas de la discrimination : l’analyse PAC
  • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f
3 2 le cas de la discrimination l analyse pac1
3.2- Le cas de la discrimination : l’analyse PAC

Raisonnement par l’absurde

  • Supposons une hypothèse de risque réel > e
  • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ?
  • Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e
  • Après observation de m exemples i.i.d., elle est : (1 - e)m
3 2 le cas de la discrimination l analyse pac2
3.2- Le cas de la discrimination : l’analyse PAC

Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ?

  • Événements disjoints :
    • Donc borné par : |H| (1 - e)m < | H | e-em
  • Il suffit donc d’avoir un échantillon de taille
  • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d
3 2 le cas de la discrimination l analyse pac3
3.2- Le cas de la discrimination : l’analyse PAC

Pourquoi PAC ?

    • Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible)
    • Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d)
  • Probablement Approximativement Correct
3 3 les le ons
3.3- Les leçons
  • La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur
  • Le raisonnement implique l’ensemble des hypothèsesH : argument de convergence uniforme
  • L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage
3 4 extension l analyse de vapnik
3.4- Extension : l’analyse de Vapnik
  • Contexte : une généralisation
        • N’importe quel type de fonctions hypothèses
        • N’importe quel type de fonction de perte (> 0 et bornée)
        • F éventuellement ≠ H (apprentissage agnostique)
        • H : espace infini
  • Ici, on va cependant se limiter au cas de la discrimination
    • Risque empirique :
3 4 extension l analyse de vapnik1
3.4- Extension : l’analyse de Vapnik
  • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille Hde fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.
3 4 extension l analyse de vapnik2
3.4- Extension : l’analyse de Vapnik
  • Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a :

Terme dépendant de

la « richesse » de H

3 4 extension l analyse de vapnik3
3.4- Extension : l’analyse de Vapnik
  • Problème angoissant : comment croît la fonction de croissance GH(m) ?
    • Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!!
  • Définition (Dimension de Vapnik-Chervonenkis, 1971)La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.

Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de Xpulvérisé par H.

3 4 un lemme sauveur le lemme de sauer 1972
3.4- Un lemme sauveur : le lemme de Sauer (1972)
  • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :
3 4 qu est ce que cela signifie
3.4- Qu’est-ce que cela signifie ?
  • Cas de fonctions de discrimination et H = F
  • La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H
    • E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est :

linéaire en dH !!

3 4 le take home message
3.4- Le « take-home » message
  • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie
  • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme:
    • dans le cas général
    • dans le cas où H = F
3 5 vers d autres principes inductifs
3.5- Vers d’autres principes inductifs
  • Reconsidérons l’équation (valable pour la discrimination et H = F)
  • Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre :
    • un risque empirique faible : bonne adéquation aux données
    • et un espace d’hypothèse d’expressivité bien réglée
3 5 les m thodes par s lection de mod les
3.5- Les méthodes par « sélection de modèles »
  • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles)
    • Le SRM (Structural Risk Minimization)
    • La théorie de la régularisation
    • Le MDLp
    • Les approches bayésiennes
3 5 le srm
3.5- Le SRM
  • La procédure s’appuie sur une structure sur H définie a priori
3 5 la th orie de la r gularisation
3.5- La théorie de la régularisation
  • Issue de l’étude des problèmes « mal posés » (plusieurs solutions)
  • Il faut imposer des conditions supplémentaires
    • Contraindre l’espace des paramètres si H = {fonctions paramétrées}
    • Imposer des conditions de régularité (e.g. dynamique limitée)
3 5 le mdlp minimum description length principle
3.5- Le MDLp (Minimum Description Length principle)
  • On suppose qu’il existe :
    • un coût associé à la transmission des données brutes (mesuré en bits) : L(x)
    • un coût associé à la transmission d’un codage (modèle des données) : L(h)
  • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données
3 6 en d autres mots notion de biais
3.6- En d’autres mots … Notion de biais

Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné.

  • Biais de représentation
    • On ne peut pas apprendre sans biais
    • Plus le biais est fort, plus l’apprentissage est facile
    • Bien choisir le biais
  • Biais de préférence
    • Dû au contrôle de la recherche
    • Critère de choix entre hypothèses
      • Simplicité, complétude, intelligibilité, facilité d’évaluation, ...
    • Dû au protocole
      • Stratégie éducative (si apprentissage incrémental)
3 6 en d autres mots r ponses qualitatives
3.6- En d’autres mots … Réponses qualitatives

1. De quelle information doit-on disposer ?

  • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

1'. Quel principe inductif ?

  • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus
  • Un nouveau principe : minimiser à la fois
    • l'erreur sur l'échantillon d'apprentissage
    • ET une mesure de la richesse de H
ad