Principes g n raux de l i nduction
Download
1 / 42

Principes généraux de l’I NDUCTION - PowerPoint PPT Presentation


  • 107 Views
  • Uploaded on

Principes généraux de l’I NDUCTION. Antoine Cornuéjols. CNAM-IIE et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/. Cours 5. 1 & 2- Introduction à l’induction 3- Apprentissage et espace des versions 4- Réseaux de neurones multicouches

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Principes généraux de l’I NDUCTION' - evonne


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Principes g n raux de l i nduction

Principes généraux del’INDUCTION

Antoine Cornuéjols

CNAM-IIE

et L.R.I., Université de Paris-Sud, Orsay (France)

[email protected]

http://www.lri.fr/~antoine/


Cours 5
Cours 5

1 & 2- Introduction à l’induction

3- Apprentissage et espace des versions

4- Réseaux de neurones multicouches

5-Analyse formelle de l’induction

6- Les SVM

7- Les arbres de décision

8- Le boosting

9 & 10- Apprentissage par renforcement


1 quel niveau de description
1- Quel niveau de description ?

1. Analyse de principe, de faisabilité

sans référence à un algorithme particulier !!

  • Théories mathématiques en particulier de nature statistique

    2. Niveau de la réalisation / simulation

  • Algorithmes

  • Programmes

  • Réalisations et tests empiriques


1 le sc nario de base
1- Le scénario de base

x1, x2, ..., xm

Environnement X :

distribution de prob. F(x)

“Oracle”

Sm = (x1,u1), (x2,u2), ..., (xm,um)

Apprenant : h (x)

x1, x2, ..., xm

y1, y2, ..., ym


1 d finition formelle du probl me
1- Définition formelle du problème

  • Hypothèse : les données empiriques caractérisent une dépendance probabilisteP entre l’espace X des descriptions et l’espace Y des étiquettes

    • Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue

    • S = {(x1,u1), (x2,u2), … (xm,um)} (XY)m

      • Échantillon d’apprentissage

      • Les observation sont i.i.d. suivant P

      • H : famille (éventuellement infinie) de fonctions h définies sur X

  • Objectif : prédire l’étiquette y connaissant l’observation x


1 l objectif de l induction
1- L’objectif de l’induction

  • Objectif : trouver une hypothèse hH minimisant le risque réel (espérance de risque, erreur en généralisation)

Loi de probabilité

jointe sur XY

Fonction de perte

Étiquette

prédite

Étiquette vraie

(ou désirée)


1 exemples de fonctions de pertes
1- Exemples de fonctions de pertes

  • Discrimination

  • Régression

  • Estimation de densité


1 les grands principes inductifs
1- Les grands principes inductifs

  • Étant donnés:

    • un échantillon d’apprentissageSm

    • et un espace d’hypothèseH

  • Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ?

  • Quelle hypothèse devrais-je chercher ?

Le principe inductif


2 1 le principe inductif erm
2.1- Le principe inductif ERM

  • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).

  • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique


2 2 le principe erm est il pertinent
2.2- Le principe ERM est-il pertinent ?

  • h* : hypothèse optimale dans H suivant le risque réel

  • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm


2 2 analyse du principe de minimisation du risque empirique
2.2- Analyse du principe de minimisation du risque empirique

  • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?


2 3 les facteurs le compromis biais variance
2.3- Les facteurs : le compromis biais-variance


2 3 les facteurs le compromis biais variance1
2.3- Les facteurs : le compromis biais-variance


3 analyse statistique du principe erm
3- Analyse statistique du principe ERM

  • Étude de la corrélation entre :

et

  • Cette corrélation fait intervenir :

    • RRéel(hS) - RRéel(h*) nécessairement ≥ 0 (pourquoi ?)

    • La probabilité que cette différence soit supérieure à une borne donnée

      • car hS dépend de la représentativité de l’échantillon d’apprentissage Sm





3 pertinence consistance du principe erm
3- Pertinence (consistance) du principe ERM

  • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empiriqueREmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .


3 1 le cas de la discrimination l analyse pac
3.1- Le cas de la discrimination : l’analyse PAC

  • Contexte :

    • Discrimination

    • Fonction de perte l : {0,1}

    • F = H

    • H : espace fini

  • L’apprentissage consiste alors à éliminer toutes les hypothèsesnon cohérentes avec les données et à en choisir une parmi les restantes

    Quelle est la probabilité qu’une hypothèse de risque empirique nul    soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)


  • 3 2 le cas de la discrimination l analyse pac
    3.2- Le cas de la discrimination : l’analyse PAC

    • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f


    3 2 le cas de la discrimination l analyse pac1
    3.2- Le cas de la discrimination : l’analyse PAC

    Raisonnement par l’absurde

    • Supposons une hypothèse de risque réel > e

    • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ?

    • Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e

    • Après observation de m exemples i.i.d., elle est : (1 - e)m


    3 2 le cas de la discrimination l analyse pac2
    3.2- Le cas de la discrimination : l’analyse PAC

    Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ?

    • Événements disjoints :

      • Donc borné par : |H| (1 - e)m < | H | e-em

    • Il suffit donc d’avoir un échantillon de taille

    • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d


    3 2 le cas de la discrimination l analyse pac3
    3.2- Le cas de la discrimination : l’analyse PAC

    Pourquoi PAC ?

    • Les hypothèses qui « survivent » sont approximativement correctes (à moins de e de la fonction cible)

    • Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d)

  • Probablement Approximativement Correct


  • 3 3 les le ons
    3.3- Les leçons

    • La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur

    • Le raisonnement implique l’ensemble des hypothèsesH : argument de convergence uniforme

    • L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage


    3 4 extension l analyse de vapnik
    3.4- Extension : l’analyse de Vapnik

    • Contexte : une généralisation

      • N’importe quel type de fonctions hypothèses

      • N’importe quel type de fonction de perte (> 0 et bornée)

      • F éventuellement ≠ H (apprentissage agnostique)

      • H : espace infini

  • Ici, on va cependant se limiter au cas de la discrimination

    • Risque empirique :


  • 3 4 extension l analyse de vapnik1
    3.4- Extension : l’analyse de Vapnik

    • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille Hde fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.


    3 4 extension l analyse de vapnik2
    3.4- Extension : l’analyse de Vapnik

    • Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a :

    Terme dépendant de

    la « richesse » de H


    3 4 extension l analyse de vapnik3
    3.4- Extension : l’analyse de Vapnik

    • Problème angoissant : comment croît la fonction de croissance GH(m) ?

      • Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!!

    • Définition (Dimension de Vapnik-Chervonenkis, 1971)La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.

      Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de Xpulvérisé par H.



    3 4 un lemme sauveur le lemme de sauer 1972
    3.4- Un lemme sauveur : le lemme de Sauer (1972)

    • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :


    3 4 qu est ce que cela signifie
    3.4- Qu’est-ce que cela signifie ?

    • Cas de fonctions de discrimination et H = F

    • La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H

      • E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est :

    linéaire en dH !!


    3 4 le take home message
    3.4- Le « take-home » message

    • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie

    • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme:

      • dans le cas général

      • dans le cas où H = F



    3 5 vers d autres principes inductifs
    3.5- Vers d’autres principes inductifs

    • Reconsidérons l’équation (valable pour la discrimination et H = F)

    • Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre :

      • un risque empirique faible : bonne adéquation aux données

      • et un espace d’hypothèse d’expressivité bien réglée


    3 5 les m thodes par s lection de mod les
    3.5- Les méthodes par « sélection de modèles »

    • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles)

      • Le SRM (Structural Risk Minimization)

      • La théorie de la régularisation

      • Le MDLp

      • Les approches bayésiennes


    3 5 le srm
    3.5- Le SRM

    • La procédure s’appuie sur une structure sur H définie a priori


    3 5 la th orie de la r gularisation
    3.5- La théorie de la régularisation

    • Issue de l’étude des problèmes « mal posés » (plusieurs solutions)

    • Il faut imposer des conditions supplémentaires

      • Contraindre l’espace des paramètres si H = {fonctions paramétrées}

      • Imposer des conditions de régularité (e.g. dynamique limitée)


    3 5 le mdlp minimum description length principle
    3.5- Le MDLp (Minimum Description Length principle)

    • On suppose qu’il existe :

      • un coût associé à la transmission des données brutes (mesuré en bits) : L(x)

      • un coût associé à la transmission d’un codage (modèle des données) : L(h)

    • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données


    3 6 en d autres mots notion de biais
    3.6- En d’autres mots … Notion de biais

    Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné.

    • Biais de représentation

      • On ne peut pas apprendre sans biais

      • Plus le biais est fort, plus l’apprentissage est facile

      • Bien choisir le biais

    • Biais de préférence

      • Dû au contrôle de la recherche

      • Critère de choix entre hypothèses

        • Simplicité, complétude, intelligibilité, facilité d’évaluation, ...

      • Dû au protocole

        • Stratégie éducative (si apprentissage incrémental)


    3 6 en d autres mots r ponses qualitatives
    3.6- En d’autres mots … Réponses qualitatives

    1. De quelle information doit-on disposer ?

    • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

      1'. Quel principe inductif ?

    • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus

    • Un nouveau principe : minimiser à la fois

      • l'erreur sur l'échantillon d'apprentissage

      • ET une mesure de la richesse de H




    ad