introduction l apprentissage artificiel
Download
Skip this Video
Download Presentation
Introduction à l’ Apprentissage Artificiel

Loading in 2 Seconds...

play fullscreen
1 / 152

Introduction à l’ Apprentissage Artificiel - PowerPoint PPT Presentation


  • 247 Views
  • Uploaded on

Introduction à l’ Apprentissage Artificiel. Antoine Cornuéjols. INA-PG et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/. Le cours. 1 - 2 - 3 - 4- 5 - 6 -7-8 Documents

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Introduction à l’ Apprentissage Artificiel' - azure


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
introduction l apprentissage artificiel

Introduction à l’Apprentissage Artificiel

Antoine Cornuéjols

INA-PG

et L.R.I., Université de Paris-Sud, Orsay (France)

[email protected]

http://www.lri.fr/~antoine/

le cours
Le cours
  • 1-2-3-4-5-6-7-8
  • Documents
    • Le livre"L'apprentissage artificiel. Concepts et algorithmes" A. Cornuéjols & L. Miclet. Eyrolles. 2002.
    • Les transparents sur www.lri.fr/~antoine/ …cours apprentissage
cours plan pr vu
Cours : plan prévu

1- Introduction à l’induction (AC)

2- Apprentissage statistique (BK)

3- Apprentissage par méthodes d’ensemble (BK)

4- Apprentissage non supervisé (BK)

5- Réseaux de neurones / Validation (AC)

6- Apprentissage de séquences (AC)

7- Fouille de données (MS)

8- Fouille de données relationnelles (MS)

cours 1 plan
Cours 1: plan

1- Introduction à l’induction

1.1- Visages de l’apprentissage

1.2- Des algorithmes

1.3- Approche plus formelle de l’induction

1.4- Apprentissage par exploration

1 1 applications analyse de puces adn
1.1 Applications : Analyse de puces à ADN
  • Analyse de l’expression des gènes dans un phénomène biologique
    • Combien de gènes ?
    • Quels gènes ?
1 1 applications grand darpa challenge 200510
1.1 Applications : Grand DARPA challenge (2005)

150 mile off-road robot race across the Mojave desert

Natural and manmade hazards

No driver, no remote control

No dynamic passing

Fastest vehicle wins the race (and 2 million dollar prize)

1 1 applications apprendre tiqueter des images
“Face Recognition: Component-based versus Global Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003.1.1 Applications : Apprendre à étiqueter des images
  • Reconnaissance de visages
1 1 autres apprentissages
1.1- Autres apprentissages
  • Association
  • Imitation
  • Apprentissage de comportement :
    • Apprendre à marcher (insectoïdes de Brooks)
    • Apprendre à se comporter sur une planète
  • Apprendre à mieux jouer
    • S'adapter à l'adversaire
    • Ne pas répéter ses fautes
    • Apprendre à jouer en équipe
      • Équipes de robots
1 1 autres apprentissages20
1.1- Autres apprentissages
  • Apprentissage pour la navigation
    • Apprentissage de trajets (fourmis, abeilles)
    • Robots
  • Discrimination
    • Identification de sous-marins vs. bruits naturels
    • Identification de locuteur / de signature
    • Reconnaissance de l'écriture manuscrite, de la parole
    • Code postal
  • Catégorisation
    • SKY SURVEY
1 1 autres apprentissages21
1. 1- Autres apprentissages
  • Systèmes autonomes avec apprentissage
1 1 autres apprentissages22
1.1- Autres apprentissages
  • Révision de théorie
  • Découverte scientifique
    • Découverte de régularités (en biochimie, …)
  • Apprendre à filtrer l'information
  • Apprendre les préférences d'un utilisateur
  • Apprendre à faire des résumés
  • Apprendre à communiquer (e.g. Steels, …)
  • ...
1 1 quel objectif 5
1. 1- Quel objectif ? (5)

Et aussi

Mieux comprendre l'apprentissage :

  • Pour ne pas avoir à programmer
    • Programmation par la démonstration
    • Programmation par l'exemple (e.g. l'EBL)
    • Programmation par échantillon d'apprentissage : induction
  • Pour mieux enseigner
  • Pour savoir ce que d'autres intelligences pourraient apprendre : théorie générale de l'apprentissage
1 1 c est quoi la science de l apprentissage artificiel
1.1- C'est quoi la science de l'apprentissage artificiel ?

On étudie les apprentissages :

    • naturels
    • artificiels
  • desthéories

(s'appliquant à tout système apprenant)

  • desméthodeset desalgorithmes d'apprentissage

Implémentables sur machines

1 1 des sc narios
1. 1- Des scénarios
  • Induction
    • 1 2 3 5 …
    • 1 1 1 2 1 1 2 1 1 1 1 1 2 2 1 3 1 2 2 1 1 …
    • Comment ?
    • Pourquoi serait-il possible de faire de l’induction ?
    • Est-ce qu’un exemple supplémentaire doit augmenter la confiance dans la règle induite ?
    • Combien faut-il d’exemples ?
1 1 des sc narios26
1. 1- Des scénarios
  • Est-ce de l’apprentissage ?
    • Phénomène de mémoire, sans mémoire !?
1 1 des sc narios27
1. 1- Des scénarios
  • Séquences d’analogies
    • Quelles situations sélectionner ?
    • Dans quel ordre ?
    • Est-ce de l’apprentissage ?

a b c

a a b a b c

i j j k k k

a b d

?

?

1 1 des sc narios28
1. 1- Des scénarios
  • Soient deux exemples dont les descriptions pourraient être :
    • E1 : Un triangle rayé au-dessus d’un carré uni noir
    • E2 : Un carré uni blanc au-dessus d’un cercle rayé
  • Formuler une description générale de ces deux exemples
1 1 des sc narios29
1. 1- Des scénarios

ProblèmeQuel est le nombre a qui prolonge la séquence :

1 2 3 5 … a ?

1 1 des sc narios30
Mais alors … comment faire de l’induction ?

et que peut-être une science de l’induction ?

1. 1- Des scénarios
  • Solution(s). Quelques réponses valides :
    • a = 6. Argument : c’est la suite des entiers sauf 4.
    • a = 7. Argument : c’est la suite des nombres premiers.
    • a = 8. Argument : c’est la suite de Fibonacci
    • a = 2p. (a peut être n’importe quel nombre réel supérieur ou égal à 5) Argument : la séquence présentée est la liste ordonnée des racines du polynôme :

P = x 5 - (11 + a)x 4 + (41 + 11a)x 3 - (61 - 41a)x2 + (30 + 61a)x - 30a

qui est le développement de : (x - 1) . (x - 2) . (x - 3) . (x - 5) . (x - a)

  • GénéralisationIl est facile de démontrer ainsi que n’importe quel nombre est une prolongation correcte de n’importe quelle suite de nombre
1 1 des sc narios31
1. 1- Des scénarios
  • Exemples décrits par :
    • nombre(1 ou 2); taille (petit ou grand); forme(cercle ou carré);couleur(rouge ou vert)
  • Les objets appartiennent soit à la classe + soit à la classe -

+

1 grand carré vert

+

2 petits carrés rouges

2 grands cercles rouges

-

+

1 grand cercle vert

1 petit cercle rouge

+

1 petit carré vert

-

1 petit carré rouge

+

2 grands carrés verts

+

1 1 des sc narios33
1. 1- Des scénarios
  • Est-ce une tâche de reconnaissance de forme ? de caractères ?
  • Comment coder les exemples ?

0 1 1 1 1 1 1 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 1 1 1 11 1 1 0 1 1 1 1 0 0 1 1 1 0

  • Le choix de la représentation peut rendre l’apprentissage trivial
  • Mais comment faire ce choix ?
1 1 des sc narios34
1. 1- Des scénarios

Apprendre par coeur ? IMPOSSIBLE

  • Généraliser

Comment coder les formes ?

Apprentissage supervisé

1 1 des sc narios35
1. 1- Des scénarios
  • Extraction de caractéristiques (descripteurs, attributs)
    • Eliminer les descripteurs non pertinents
    • Introduction de nouveaux descripteurs
      • Utilisation de connaissances a priori
        • Invariance par translation
        • Invariance par changement d’échelle
      • Histogrammes
      • Combinaisons de descripteurs
    • Ajouter des descripteurs (beaucoup) !!
1 1 des sc narios36
"Erreur"

Courbe d'apprentissage

1. 1- Des scénarios
  • Quel critère de performance (de succès) ?
    • Probabilité de misclassification
    • Risque
    • Nombre d’erreurs
  • Apprentissage sur un échantillon d'apprentissage
  • Test sur une base de test

Taille échantillon

introduction l induction
Introduction à l’induction
  • Induction :

Proposer des lois générales à partir de l’observation de cas particuliers

comment d finir l apprentissage
Comment définir l’apprentissage ?
  • « Learning is any change in a system that allows it to perform better the second time on repetition of the same task or another task drawn from the same population »

[Herbert Simon, 1983]

  • « Learning is making useful changes in mind »

[Marvin Minsky, 1985]

  • « Learning is the organization of experience »

[Scott, 1983]

  • « Learning is constructing or modifying representations of what is being experienced »

[Riszard Michalski, 1986]

1 1 ingr dients de l apprentissage
1.1- Ingrédients de l’apprentissage
  • Espace des hypothèses H
  • Espace des entrées X
  • Mesure de performance
  • Optimisation / exploration de H
  • Protocole
1 1 premi res notions
1.1- Premières notions
  • Protocole
    • Passif ou actif ?
    • Incrémental (on-line) ou « tout ensemble » (off-line) ?
    • Réponses immédiates ou après votre estimation ?
  • Critère de succès
    • Nombre de mauvaises réponses ?
    • Taux de mauvaises réponses (taux d’erreur) ?
    • Nombre d’essais avant d’avoir « identifié la solution » ?
    • Taux d’erreur de votre estimation finale (qui peut être erronée)

(« Taux d’erreur en généralisation »)

1 1 notion de protocole
1.1- Notion de protocole

Le protocole règle les interactions entre les acteurs

  • Environnement :
    • Données fournies incrémentalement ou non (apprentissage en-ligne / batch)
    • Dans un ordre indifférent / hostile / favorable
  • Oracle :
    • Données semi-supervisées
    • Apprentissage multi-instances
    • Étiquettes vraies fournies avec les exemples ou seulement après prédiction de l’apprenant (risque mesuré par le nombre d’erreurs de l’apprenant : mistake-bound learning) (ou relativement au meilleur expert d’un comité :relative loss-bound models)
    • Peut fournir un contre-exemple quand l’apprenant propose une hypothèse candidate h non équivalente à la fonction cible (equivalence queries)
  • Apprenant :
    • Complètement passif : données i.i.d.
    • Peut poser des questions : fournir un exemple et demander son étiquette (membership queries)
    • Peut poser des questions sur les statistiques des exemples étiquetés (statistical queries)
    • Apprentissage actif : organise son exploration du monde
1 1 questions essentielles
1.1- Questions essentielles
  • Données et connaissances a priori
    • Quelles données sont disponibles ?
    • Que sait-on du problème ?
  • Représentation
    • Comment représenter les exemples ?
    • Comment représenter les hypothèses ?
  • Méthode et estimation
    • Quel est l’espace des hypothèses ?
    • Comment évaluer une hypothèse en fonction des exemples connus ?
  • Évaluation de la performance après apprentissage ?
  • Commentreconsidérer l’espace des hypothèses?
1 1 types d apprentissages
1.1- Types d’apprentissages
  • Apprentissage supervisé

À partir de l’échantillon d’apprentissageS= {(xi, ui)}1,mon cherche une loi de dépendance sous-jacente

      • Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi)
      • Ou bien une distribution de probabilités P(xi, ui)

afin de prédire l’avenir

1 1 l induction supervis e
1.1 - L'induction supervisée
  • Si f est une fonction continue
    • Régression
    • Estimation de densité
  • Si f est une fonction discrète
    • Classification
  • Si f est une fonction binaire (booléenne)
    • Apprentissage de concept
1 1 types d apprentissages45
1.1- Types d’apprentissages
  • Apprentissage non supervisé

De l’échantillon d’apprentissageS = {(xi)}1,mon cherche des régularités sous-jacentes

      • Sous forme d’une fonction : régression
      • Sous forme de nuages de points (e.g. mixture de gaussiennes)
      • Sous forme d’un modèle complexe (e.g. réseau bayésien)

afin de résumer, détecter des régularités, comprendre …

1 1 types d apprentissages46
1.1- Types d’apprentissages
  • Apprentissage par renforcement

Les données d’apprentissage

  • Une séquence de perceptions, d’actions et de récompenses : (st, at, rt)t = 1, ¥
    • Avec un renforcementrt
    • rt peut sanctionner des actions très antérieures à t

Le problème: inférer une application : situation perçue action afin de maximiser un gain sur le long terme

Environnement

Action

Perception

Récompense

Apprentissage de réflexes ... -> … apprentissage de planification

1 1 plusieurs niveaux d analyse
1.1- Plusieurs niveaux d’analyse ?

1. Analyse de principe, de faisabilité : que peut-on apprendre ? Sous quelles conditions ?

sans référence à un algorithme particulier !!

  • Théories mathématiques en particulier de nature statistique

2. Niveau de la réalisation / simulationComment apprendre ?

  • Algorithmes
  • Programmes
  • Réalisations et tests empiriques
cours 1 plan48
Cours 1: plan

1- Introduction à l’induction

1.1- Visages de l’apprentissage

1.2- Des algorithmes

1.3- Approche plus formelle de l’induction

1.4- Apprentissage par exploration

1 2 le perceptron crit re de performance
1. 2- Le perceptron : critère de performance
  • Critère d’optimisation (fonction d’erreur) :
    • Nb total d’erreurs de classification : NON
    • Critère du Perceptron :

Car nous voulons pour toutes les formes d’apprentissage :

      • Proportionnel, pour toutes les formes mal classées, à la distance à la surface de décision
      • Fonction continue et linéaire par morceaux
1 2 le perceptron algorithme
1. 2- Le perceptron : algorithme
  • Méthode d’exploration de H
    • Recherche par gradient
      • Minimisation de la fonction d’erreur
      • Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie.
      • Apprentissage seulement si erreur de classification
    • Algorithme :

si la forme est correctement classée : ne rien faire

sinon :

boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

    • Convergence ?
1 2 le perceptron illustration
1. 2- Le perceptron : Illustration
  • Justification de l’algorithme
    • Réduction de l’erreur
1 2 le perceptron convergence et capacit m moire
1. 2- Le perceptron : convergence et capacité mémoire
  • Questions :
    • Qu’est-ce qui est apprenable ?
      • Résultat de [Minsky & Papert,68] : séparatrices linéaires
    • Garantie de convergence ?
      • Théorème de convergence du Perceptron [Rosenblatt,62]
    • Fiabilité de l’apprentissage et nombre d’exemples
      • Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie sur ce qui est appris ?
1 3 le sc nario de base
1.3- Le scénario de base

x1, x2, ..., xm

Environnement X :

distribution de prob. F(x)

“Oracle”

Sm = (x1,u1), (x2,u2), ..., (xm,um)

Apprenant : h (x)

x1, x2, ..., xm

y1, y2, ..., ym

1 3 d finition formelle du probl me
1.3 - Définition formelle du problème
  • Hypothèse : les données empiriques caractérisent une dépendance probabilisteP entre l’espace X des descriptions et l’espace Y des étiquettes
    • Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue
    • S = {(x1,u1), (x2,u2), … (xm,um)} (XY)m
      • Échantillon d’apprentissage
      • Les observation sont i.i.d. suivant P
      • H : famille (éventuellement infinie) de fonctions h définies sur X
  • Objectif : prédire l’étiquette y connaissant l’observation x
1 3 apprendre pr diction dans x
+/- ?

-

-

-

-

+

+

+

-

+

+

-

+

+

-

-

-

X

Espace des exemples :

1.3 - Apprendre  prédiction dans X
  • Méthodes par plus proches voisins
  • Nécessité d’unenotion de distance
  • Hypothèse de continuité dans X
1 3 apprendre un jeu entre espaces
h

x

-

-

-

-

+

+

+

-

+

+

-

+

+

-

-

-

  • Comment choisir l’espace des hypothèses (i.e. le langage LH) ?
1.3- Apprendre = un jeu entre espaces
  • Cas particulier de l’apprentissage de concepts

LH

Espace des exemples : X

Espace des hypothèses : H

1 3 le crit re inductif
LH

-

h

x

-

-

-

+

+

+

-

+

+

-

+

+

-

-

X

-

H

  • Quel critère inductif ?
  • Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ?
1.3- Le critère inductif
1 3 l exploration de h
LH

-

h

h

x

x

-

-

?

?

-

h

+

+

x

+

-

+

+

-

+

+

-

-

X

-

H

  • Quelle méthode d’exploration de H ?
1.3- L’exploration de H
1 3 les interrogations fondamentales
1.3- Les interrogations fondamentales

1. Théorique : Sous quelles conditions est-il possible de résoudre le problème de l’induction ?

  • De quelle information doit-on disposer ?
    • Dans les entrées (les exemples)
    • Dans l'espace d'hypothèse
  • Quel principe inductif doit-on utiliser ?

2. Pratique : Comment explorer effectivement l’espace d’hypothèses ?

1 3 trois ingr dients trois questions
1.3- Trois ingrédients : trois questions
  • Quel critère inductif ?
    • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?
  • Quel espace d’hypothèses ?
    • Quel espace d’hypothèses est approprié ?
  • Comment explorer l’espace des hypothèses ?
    • Résolution d’un problème d’optimisation
1 3 crit re de performance
1.3- Critère de performance
  • Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation)

Loi de probabilité

jointe sur XY

Fonction de perte

Étiquette

prédite

Étiquette vraie

(ou désirée)

1 3 exemples de fonctions de perte
1.3- Exemples de fonctions de perte
  • Discrimination
  • Régression
  • Estimation de densité
slide69
Les grands principes inductifs
  • Principe de minimisation du risque empirique (ERM)
  • Principe du maximum de vraisemblance (approche bayésienne)
  • Principe de compression maximale
1 3 i le principe inductif erm
1.3- (i) Le principe inductif ERM
  • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).
  • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique
1 3 ii approche bay sienne
1.3- (ii) Approche bayésienne
  • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h)

Principe du Maximum A Posteriori(MAP):

  • On cherche l’hypothèse h la plus probable après observation des données S
    • Exemple : le 11 septembre 2001
1 3 iii principe de compression maximale
1.3- (iii) Principe de compression maximale
  • Inspiration : la théorie du codage de l’information
    • Rasoir d’Occam
    • On suppose qu’il existe :
      • un coût associé à la transmission d’un codage (modèle des données) : L(h)
      • un coût associé à la transmission des données brutes (E.D. h) : L(x|h)
    • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données
1 3 choix de l espace d hypoth ses
-

+/- ?

-

-

-

+

+

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

hi

+

-

+

+

-

+

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

+

-

hk

x

hj

x

-

-

X

Espace des exemples :

Espace des hypothèses : H

1.3- Choix de l’espace d’hypothèses
  • Apprendre (pour prédire) est impossible …

… sans limitation sur l’espace des hypothèses

1 3 notion de biais
1.3- Notion de biais

Toute connaissance qui restreint le champ des hypothèsesque l'apprenant doit considérer à un instant donné.

  • On ne peut pas apprendre sans biais
  • Plus le biais est fort, plus l’apprentissage est facile
    • Bien choisir le biais
1 3 choix de l espace d hypoth ses75
1.3- Choix de l’espace d’hypothèses
  • Il faut contrôler l’expressivité de l’espace d’hypothèses
  • Analyse statistique de l’induction [Vapnik, …]

Terme dépendant de

la « richesse » de H

1 3 r ponses qualitatives
1.3- Réponses … qualitatives

1. De quelle information doit-on disposer ?

  • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

1'. Quel principe inductif ?

  • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus
  • Un nouveau principe : minimiser à la fois
    • l'erreur sur l'échantillon d'apprentissage
    • ET une mesure de la richesse de H
1 3 r sum d finition d un probl me d apprentissage
1.3- Résumé : définition d’un problème d’apprentissage
  • Des acteurs
    • L’environnement
    • L’oracle
    • L’apprenant
  • Une tâche d’apprentissage
    • Discrimination (ou classification multiclasses) / régression / estimation de densité
  • Un principe inductif
    • ERM (et dérivés) / Bayésien / compression d’information
  • Un espace d’hypothèses (avec sélection automatique)

un protocole

d’apprentissage

  • Choix d’une méthode d’apprentissage (et d’un algorithme)
1 4 la relation de g n ralit induite dans h
1.4- La relation de généralité induite dans H

Relation de généralité dans H induite parlarelation d'inclusion dans X

1 4 le choix d une m thode d apprentissage
1.4- Le choix d’une méthode d’apprentissage

Dépend fondamentalement de l’espace des hypothèses H

  • Structuré par une relation de généralité (ordre partiel)
    • Toutes les méthodes guidées par cette relation
      • Espace des versions
      • PLI (Programmation Logique Inductive)
      • EBL, reformulation en général et révision de théorie
      • Inférence grammaticale
  • Seulement une notion de voisinage dans H
    • Méthodes de « gradient »
      • Réseaux de neurones / SVMs
      • Recuit simulé / algorithmes d’évolution simulée
      • Réseaux bayésiens / HMMs
  • Pas d’espace d’hypothèses
    • Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning)

h

x

H

1 4 autres crit res de choix
1.4- Autres critères de choix
  • Intelligibilité des résultats (hypothèses produites)
    • E.g. exit les réseaux de neurones
  • Performances en généralisation
    • Pas toujours en adéquation totale avec le point précédent
  • Coûts
    • de préparation (des données)
    • coût computationnel (coût d’une passe et nombre de passes nécessaires, …)
    • coût de l’expertise en apprentissage
    • coût de l’expertise sur le domaine
cours 1 plan82
Cours 1: plan

1- Introduction à l’induction

1.1- Visages de l’apprentissage

1.2- Des algorithmes

1.3- Approche plus formelle de l’induction

1.4- Apprentissage par exploration

2 1 le principe inductif erm
2.1- Le principe inductif ERM
  • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).
  • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique
2 2 le principe erm est il pertinent
2.2- Le principe ERM est-il pertinent ?
  • h* : hypothèse optimale dans H suivant le risque réel
  • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm
2 2 analyse du principe de minimisation du risque empirique
2.2- Analyse du principe de minimisation du risque empirique
  • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?
3 analyse statistique du principe erm
3- Analyse statistique du principe ERM
  • Étude de la corrélation entre :

et

  • Cette corrélation fait intervenir :
    • RRéel(hS) - RRéel(h*) nécessairement ≥ 0 (pourquoi ?)
    • La probabilité que cette différence soit supérieure à une borne donnée
      • car hS dépend de la représentativité de l’échantillon d’apprentissage Sm
3 pertinence consistance du principe erm
3- Pertinence (consistance) du principe ERM
  • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empiriqueREmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .
3 1 le cas de la discrimination l analyse pac
3.1- Le cas de la discrimination : l’analyse PAC
  • Contexte :
        • Discrimination
        • Fonction de perte l : {0,1}
        • F = H
        • H : espace fini
  • L’apprentissage consiste alors à éliminer toutes les hypothèsesnon cohérentes avec les données et à en choisir une parmi les restantes

Quelle est la probabilité qu’une hypothèse de risque empirique nul    soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)

3 2 le cas de la discrimination l analyse pac
3.2- Le cas de la discrimination : l’analyse PAC
  • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f
3 2 le cas de la discrimination l analyse pac95
3.2- Le cas de la discrimination : l’analyse PAC

Raisonnement par l’absurde

  • Supposons une hypothèse de risque réel > e
  • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ?
  • Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e
  • Après observation de m exemples i.i.d., elle est : (1 - e)m
3 2 le cas de la discrimination l analyse pac96
3.2- Le cas de la discrimination : l’analyse PAC

Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ?

  • Événements disjoints :
    • Donc borné par : |H| (1 - e)m < | H | e-em
  • Il suffit donc d’avoir un échantillon de taille
  • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d
3 2 le cas de la discrimination l analyse pac97
3.2- Le cas de la discrimination : l’analyse PAC

Pourquoi PAC ?

    • Les hypothèses qui « survivent » sont approximativement correctes (i.e. à moins de e de la fonction cible)
    • Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d)
  • Probablement Approximativement Correct
3 3 les le ons
3.3- Les leçons
  • La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur
  • Le raisonnement implique l’ensemble des hypothèsesH : argument de convergence uniforme
  • L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage
3 4 extension l analyse de vapnik
3.4- Extension : l’analyse de Vapnik
  • Contexte : une généralisation
        • N’importe quel type de fonctions hypothèses
        • N’importe quel type de fonction de perte (> 0 et bornée)
        • F éventuellement ≠ H (apprentissage agnostique)
        • H : espace infini
  • Ici, on va cependant se limiter au cas de la discrimination
    • Risque empirique :
3 4 extension l analyse de vapnik100
3.4- Extension : l’analyse de Vapnik
  • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille Hde fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.
3 4 extension l analyse de vapnik101
3.4- Extension : l’analyse de Vapnik
  • Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a :

Terme dépendant de

la « richesse » de H

3 4 extension l analyse de vapnik102
3.4- Extension : l’analyse de Vapnik
  • Problème angoissant : comment croît la fonction de croissance GH(m) ?
    • Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!!
  • Définition (Dimension de Vapnik-Chervonenkis, 1971)La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.

Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de Xpulvérisé par H.

3 4 un lemme sauveur le lemme de sauer 1972
3.4- Un lemme sauveur : le lemme de Sauer (1972)
  • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :
3 4 qu est ce que cela signifie
3.4- Qu’est-ce que cela signifie ?
  • Cas de fonctions de discrimination et H = F
  • La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H
    • E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est :

linéaire en dH !!

3 4 le take home message
3.4- Le « take-home » message
  • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie
  • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme:
    • dans le cas général
    • dans le cas où H = F
3 5 vers d autres principes inductifs
3.5- Vers d’autres principes inductifs
  • Reconsidérons l’équation (valable pour la discrimination et H = F)
  • Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre :
    • un risque empirique faible : bonne adéquation aux données
    • et un espace d’hypothèse d’expressivité bien réglée
3 5 les m thodes par s lection de mod les
3.5- Les méthodes par « sélection de modèles »
  • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles)
    • Le SRM (Structural Risk Minimization)
    • La théorie de la régularisation
    • Le MDLp
    • Les approches bayésiennes
3 5 le srm
3.5- Le SRM
  • La procédure s’appuie sur une structure sur H définie a priori
3 5 la th orie de la r gularisation
3.5- La théorie de la régularisation
  • Issue de l’étude des problèmes « mal posés » (plusieurs solutions)
  • Il faut imposer des conditions supplémentaires
    • Contraindre l’espace des paramètres si H = {fonctions paramétrées}
    • Imposer des conditions de régularité (e.g. dynamique limitée)
3 5 le mdlp minimum description length principle
3.5- Le MDLp (Minimum Description Length principle)
  • On suppose qu’il existe :
    • un coût associé à la transmission des données brutes (mesuré en bits) : L(x)
    • un coût associé à la transmission d’un codage (modèle des données) : L(h)
  • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données
3 6 en d autres mots notion de biais
3.6- En d’autres mots … Notion de biais

Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné.

  • Biais de représentation
    • On ne peut pas apprendre sans biais
    • Plus le biais est fort, plus l’apprentissage est facile
    • Bien choisir le biais
  • Biais de préférence
    • Dû au contrôle de la recherche
    • Critère de choix entre hypothèses
      • Simplicité, complétude, intelligibilité, facilité d’évaluation, ...
    • Dû au protocole
      • Stratégie éducative (si apprentissage incrémental)
3 6 en d autres mots r ponses qualitatives
3.6- En d’autres mots … Réponses qualitatives

1. De quelle information doit-on disposer ?

  • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

1'. Quel principe inductif ?

  • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus
  • Un nouveau principe : minimiser à la fois
    • l'erreur sur l'échantillon d'apprentissage
    • ET une mesure de la richesse de H
cours 1 plan117
Cours 1: plan

1- Introduction à l’induction

1.1- Visages de l’apprentissage

1.2- Des algorithmes

1.3- Approche plus formelle de l’induction

1.4- Apprentissage par exploration

1 4 trois questions fondamentales
1.4- Trois questions fondamentales
  • Quel critère inductif ?

Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?

  • Quel espace d’hypothèses ?

Quel espace d’hypothèses est approprié :

      • Pour la tâche
      • Pour que l’induction soit possible
  • Comment explorer l’espace des hypothèses ?

Résolution d’un problème d’optimisation :

      • recherche d’une bonne hypothèse dans un espace de possibilités afin de satisfaire le critère inductif
1 4 apprendre explorer un espace d hypoth ses
1.4- Apprendre = explorer un espace d’hypothèses
  • Comment choisir une (des) hypothèse(s) ?
  • Notion de biais de représentation
1 4 apprendre explorer un espace d hypoth ses120
Nouvel

-

exemple

-

-

hi

-

x

?

+

-

+

?

+

-

+

+

hk

x

-

+

+

x

hj

-

-

-

Espace des exemples : X

Espace des hypothèses : H

1.4- Apprendre = explorer un espace d’hypothèses
  • Exploration de l’espace d’hypothèses
  • Mesure de l’adéquation de l’hypothèse (critère de succès)
1 4 apprendre explorer un espace d hypoth ses121
1.4- Apprendre = explorer un espace d’hypothèses

Nouvel

-

exemple

-

-

hi

-

x

?

+

-

+

?

+

-

+

+

hk

x

-

+

+

x

hj

-

-

-

Espace des exemples : X

Espace des hypothèses : H

  • Exploration de l’espace d’hypothèses
  • guidée par les relations de généralités dans H
1 4 induction et g n ralisation
1.4- Induction et généralisation

Comment corriger une hypothèse défectueuse

1 4 couverture des exemples par une hypoth se
1.4- Couverture des exemples par une hypothèse
  • h1 : complète mais incorrecte
  • h2 : correcte mais incomplète
  • h3 : complète et correcte : cohérente
1 4 la relation de g n ralit induite dans h126
1.4- La relation de généralité induite dans H

Relation de généralité dans H induite parlarelation d'inclusion dans X

1 4 les op rateurs
1.4- Les opérateurs
  • Généralisation
    • Transforme une description en une description plus générale
  • Spécialisation
    • Duale de la généralisation
    • (En général : produit une description qui est une conséquence logique de la description initiale)
  • Reformulation
    • Transforme une description en une description logiquement équivalente
1 4 op rateurs de g n ralisation
1.4- Opérateurs de généralisation
  • Règle d’abandon de conjonction
    • A & B  C => A  C

ferrari & rouge  coûteux => ferrari  coûteux

  • Règle d’ajout d’alternative
    • A  C => AB  C

ferrari  coûteux => ferrari  rouge  coûteux

  • Règle d’extension du domaine de référence
    • A & [B = R]  C => A & [B = R’]  C

grand & [couleur = rouge]  coûteux => grand & [couleur rouge  bleu]  coûteux

1 4 op rateurs de g n ralisation130
Halogène

Bromine

Chlorine

1.4- Opérateurs de généralisation
  • Règle de clôture d’intervalle
    • A & [B=v1]  C & A & [B = v2]  C => A & [B = v1 ... v2]  C

grand & [coût = 100]  à acheter && grand & [coût = 150]  à acheter => grand & [coût = 100 .. 150]  à acheter

  • Règle de l’ascension dans l’arbre de hiérarchie
    • A & [B= n1]  C && A & [B= n2]  C => A & [B= N]  C

corrosif & [élément = chlorine]  toxique

corrosif & [élément = bromine]  toxique

=> corrosif & [élément = halogène]  toxique

1 4 op rateurs de g n ralisation131
1.4- Opérateurs de généralisation
  • Règle de variabilisation
    • F(a) & F(b) & ...  C => v, F(v)  C

grand(sommet_objet) & grand(fond_objet) & ...  C

=>  partie, grand(partie)  C

  • Règle de changement de conjonction en disjonction
    • A & B  C => AB  C

grand & rouge  coûteux => grand rouge coûteux

  • Règle d’extension du domaine de quantification
    •  v, F(v)C => v, F(v)  C

 partie, grand(partie)C => partie, grand(partie) C

1 4 op rateurs de g n ralisation132
1.4- Opérateurs de généralisation
  • Inversion de la résolution
    • A & B  C && ¬A & D  C => BD  C

vieux & grand  C && ¬ vieux & rouge  C => grandrouge  C

  • Règle anti-extension
    • A & [B=v1]  C && D & [B=v2]  ¬C=> [B ≠ v2]  C
  • Règle constructive de généralisation (modifiant les descripteurs)
    • A & B  C && D  C => A & D  C
1 4 repr sentation de l espace des versions
1.4- Représentation de l'espace des versions

Observation fondamentale :

L'espace des versions structuré par une relation d'ordre partiel peut être représenté par :

    • sa borne supérieure : le G-set
    • sa borne inférieure : le S-set
  • G-set = Ensemble de toutes les hypothèses les plus générales cohérentes avec les exemples connus
  • S-set = Ensemble de toutes les hypothèses les plus spécifiques cohérentes avec les exemples connus
1 4 apprentissage
1.4- Apprentissage ...

… par mise à jour de l'espace des versions

Idée :

maintenir le S-set

et le G-set

après chaque nouvel exemple

  • Algorithme d'élimination des candidats
1 4 algorithme d limination des candidats
1.4- Algorithme d'élimination des candidats

InitialiserS et G par (resp.) :

  • l'ensemble des hypothèses les plus spécifiques (les plus générales) cohérentes avec le 1er exemple positif connu.

Pour chaque nouvel exemple (positifounégatif)

  • mettre à jour S
  • mettre à jour G

Jusqu'à convergence

ou jusqu'à ce que S = G = Ø

1 4 mise jour de s
1.4- Mise à jour de S
  • xi est négatif
    • Eliminer les hypothèses de S couvrant (indûment) xi
  • xi est positif
    • Généraliser les hypothèses de S ne couvrant pas xi juste assez pour qu'elles le couvrent
    • Puis éliminer les hypothèses de S
      • couvrant un ou plusieurs exemples négatifs
      • plus générales que des hypothèses de S
1 4 mise jour de g
1.4- Mise à jour de G
  • xi est positif
    • Eliminer les hypothèses de G ne couvrant pas xi
  • xi est négatif
    • Spécialiser les hypothèses de G couvrant xi juste assez pour qu'elles ne le couvrent plus
    • Puis éliminer les hypothèses de G
      • n'étant pas plus générales qu'au moins un élément de S
      • plus spécifiques qu'au moins une autre hypothèse de G
1 4 algorithme d limination des candidats138
1.4- Algorithme d'élimination des candidats

Mise à jour des bornes S et G

1 4 propri t s de l aec
1.4- Propriétés de l'AEC
  • Incrémentalité
  • Complexité ?
  • Utilisation si non convergence ?
  • Que signifie S = G = Ø ?
  • Possibilité d'"apprentissage actif" ?
  • Que faire si les données sont bruitées ?
ce qu il faut retenir
Ce qu'il faut retenir
  • C'est surtout l'induction supervisée qui est étudiée
  • Jeu entre espace des exemples et espace des hypothèses
  • On ne peut apprendre sans biais
  • La réalisation de l'apprentissage dépend de la structuration de l'espace des hypothèses
    • sans structure : méthodes par interpolation
    • notion de distance : méthodes par gradient (approximation)
    • relation d'ordre partiel : exploration guidée (exploration)
1 5 approche actuelle les limites
L’état de l’art actuel en apprentissage:
    • Données i.i.d. (indépendant et identiquement distribué)
    • Distribution statique
    • Données étiquetées
    • Classes approximativement équilibrées
  • Versus e.g. les besoins de la robotique
    • Données résultant :
      • De séquences
      • D’un apprentissage actif
    • Contexte changeant
    • Pauvrement étiquetées

Données non i.i.d.

1.5- Approche actuelle : les limites
  • L’état de l’art actuel en apprentissage:
    • Données i.i.d. (indépendant et identiquement distribué)
    • Distribution statique
    • Données étiquetées
    • Classes approximativement équilibrées
1 5 perspective historique 1
1.5- Perspective historique (1)

Perceptron

Expériences :

tortues cybernétiques

Reconnaissance des Formes :

Théorie de la décision bayésienne

Turing

(naissance de

l'informatique)

Discriminant

linéaire (Fisher)

50s

60s

1936

20s

1 5 perspective historique 2
1.5- Perspective historique (2)

Apprentissage artificiel :

une explosion

Systèmes dédiés à une tâche :

inspiration psychologique

Induction supervisée

Arbres de décision

Algorithmes génétiques

Explanation-Based Learning

Raisonnement par cas

META-DENDRAL

2ème connexionnisme

ARCH

AM

1976

1978

1970

80s

70s

1 5 perspective historique 2146
1.5- Perspective historique (2')
  • Systèmes à usage industriels
1 5 perspective historique 3
1.5- Perspective historique (3)

Apprentissage artificiel :

une théorisation

et une mise à l'épreuve

Nouvelles méthodes :

- SVMs

- Boosting

Data mining

Text mining

Théorie de Vapnik

1995

00s

90s

1 5 perspective historique 4
1.5- Perspective historique (4)
  • Maintenant
    • Domination sans partage du paradigme dominant
      • Apprentissage comme estimation / approximation de fonction
      • Données supposées tirées aléatoirement
      • Nouveau principe inductif : toujours prendre en compte l'espace d'hypothèses
    • Nouvelles techniques d'apprentissage issues de la théorie
      • Séparateurs à Vastes Marges (SVM : Support Vector Machines)
      • Boosting
    • Prépondérance des applications de fouille dans les grandes bases de données
      • Peu structurées
      • Données fournies en vrac
      • Nouvelles mesures de performance
1 5 perspective historique l avenir
1.5- Perspective historique : l'avenir ?
  • Demain … ?
    • Retour vers des problèmes à données plus structurées
      • Exploration automatique de la toile (structure à tous les niveaux : grammatical, séquence, texte, discours, culture)
    • Nouveaux aspects
      • Nouvelles demandes :
        • Systèmes à longue durée de vie
        • Aide à l'éducation
        • Apprentissage collectif
      • Incrémentalité
      • Transferts d'une tâche à une autre, d'un domaine à un autre, d'un agent à un autre
    • Nouveaux problèmes
    • Nouvelles techniques
1 5 questions
1.5- Questions ...
  • Peut-on apprendre n'importe quoi ?
  • Peut-on apprendre à partir de rien (tabula rasae) ?
  • Suffit-il d'avoir plus de neurones pour apprendre mieux ?
  • Quel lien entre généralisation et abstraction ?
5 et programmes de recherche
5- ... et programmes de recherche
  • Phénomènes de transition de phase en induction
  • Vers une science du dynamique :
      • Quels sont les systèmes dépendants de l'ordre des entrées ?
      • Pour ceux-là, quel est l'ordre optimal de présentation des données ?
  • Apprentissage et … oubli
      • L'oubli peut-il être utile ?
  • Y a-t-il des passages obligés dans l'apprentissage de connaissances complexes ?
      • Ex : la notion d'impetus avant celle de force et d'inertie ?
ad