Introduction l apprentissage artificiel
Download
1 / 152

Introduction l Apprentissage Artificiel - PowerPoint PPT Presentation


  • 246 Views
  • Uploaded on

Introduction à l’ Apprentissage Artificiel. Antoine Cornuéjols. INA-PG et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/. Le cours. 1 - 2 - 3 - 4- 5 - 6 -7-8 Documents

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Introduction l Apprentissage Artificiel' - azure


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Introduction l apprentissage artificiel l.jpg

Introduction à l’Apprentissage Artificiel

Antoine Cornuéjols

INA-PG

et L.R.I., Université de Paris-Sud, Orsay (France)

[email protected]

http://www.lri.fr/~antoine/


Le cours l.jpg
Le cours

  • 1-2-3-4-5-6-7-8

  • Documents

    • Le livre"L'apprentissage artificiel. Concepts et algorithmes" A. Cornuéjols & L. Miclet. Eyrolles. 2002.

    • Les transparents sur www.lri.fr/~antoine/ …cours apprentissage


Cours plan pr vu l.jpg
Cours : plan prévu

1- Introduction à l’induction (AC)

2- Apprentissage statistique (BK)

3- Apprentissage par méthodes d’ensemble (BK)

4- Apprentissage non supervisé (BK)

5- Réseaux de neurones / Validation (AC)

6- Apprentissage de séquences (AC)

7- Fouille de données (MS)

8- Fouille de données relationnelles (MS)


Cours 1 plan l.jpg
Cours 1: plan

1- Introduction à l’induction

1.1- Visages de l’apprentissage

1.2- Des algorithmes

1.3- Approche plus formelle de l’induction

1.4- Apprentissage par exploration


1 1 applications analyse de puces adn l.jpg
1.1 Applications : Analyse de puces à ADN

  • Analyse de l’expression des gènes dans un phénomène biologique

    • Combien de gènes ?

    • Quels gènes ?


1 1 applications pr diction de la bioactivit de mol cules l.jpg
1.1 Applications : Prédiction de la bioactivité de molécules


1 1 applications pr diction du risque cardio vasculaire l.jpg
1.1 Applications : Prédiction du risque cardio-vasculaire


1 1 applications analyse de grilles de calcul l.jpg
1.1 Applications : Analyse de grilles de calcul


1 1 applications grand darpa challenge 2005 l.jpg
1.1 Applications : Grand DARPA challenge (2005)


1 1 applications grand darpa challenge 200510 l.jpg
1.1 Applications : Grand DARPA challenge (2005)

150 mile off-road robot race across the Mojave desert

Natural and manmade hazards

No driver, no remote control

No dynamic passing

Fastest vehicle wins the race (and 2 million dollar prize)


1 1 applications grand darpa challenge 200511 l.jpg
1.1 Applications : Grand DARPA challenge (2005)


1 1 applications grand darpa challenge 200512 l.jpg
1.1 Applications : Grand DARPA challenge (2005)



1 1 applications apprendre tiqueter des images l.jpg

“Face Recognition: Component-based versus Global Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003.

1.1 Applications : Apprendre à étiqueter des images

  • Reconnaissance de visages


1 1 applications apprendre tiqueter des images15 l.jpg
1.1 Applications : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Apprendre à étiqueter des images

  • Reconnaissance de visages


1 1 applications robot sur mars l.jpg
1.1 Applications : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Robot sur Mars


1 1 applications robots l.jpg
1.1 Applications : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Robots

  • Robot wowwee


1 1 applications agent virtuel sur la toile l.jpg
1.1 Applications : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Agent virtuel sur la Toile


1 1 autres apprentissages l.jpg
1.1- Autres apprentissages Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

  • Association

  • Imitation

  • Apprentissage de comportement :

    • Apprendre à marcher (insectoïdes de Brooks)

    • Apprendre à se comporter sur une planète

  • Apprendre à mieux jouer

    • S'adapter à l'adversaire

    • Ne pas répéter ses fautes

    • Apprendre à jouer en équipe

      • Équipes de robots


1 1 autres apprentissages20 l.jpg
1.1- Autres apprentissages Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

  • Apprentissage pour la navigation

    • Apprentissage de trajets (fourmis, abeilles)

    • Robots

  • Discrimination

    • Identification de sous-marins vs. bruits naturels

    • Identification de locuteur / de signature

    • Reconnaissance de l'écriture manuscrite, de la parole

    • Code postal

  • Catégorisation

    • SKY SURVEY


1 1 autres apprentissages21 l.jpg
1. 1- Autres apprentissages Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

  • Systèmes autonomes avec apprentissage


1 1 autres apprentissages22 l.jpg
1.1- Autres apprentissages Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

  • Révision de théorie

  • Découverte scientifique

    • Découverte de régularités (en biochimie, …)

  • Apprendre à filtrer l'information

  • Apprendre les préférences d'un utilisateur

  • Apprendre à faire des résumés

  • Apprendre à communiquer (e.g. Steels, …)

  • ...


1 1 quel objectif 5 l.jpg
1. 1- Quel objectif ? (5) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

Et aussi

Mieux comprendre l'apprentissage :

  • Pour ne pas avoir à programmer

    • Programmation par la démonstration

    • Programmation par l'exemple (e.g. l'EBL)

    • Programmation par échantillon d'apprentissage : induction

  • Pour mieux enseigner

  • Pour savoir ce que d'autres intelligences pourraient apprendre : théorie générale de l'apprentissage


1 1 c est quoi la science de l apprentissage artificiel l.jpg
1.1- C'est quoi la science de l'apprentissage artificiel ? Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

On étudie les apprentissages :

  • naturels

  • artificiels

  • desthéories

    (s'appliquant à tout système apprenant)

  • desméthodeset desalgorithmes d'apprentissage

    Implémentables sur machines


  • 1 1 des sc narios l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Induction

      • 1 2 3 5 …

      • 1 1 1 2 1 1 2 1 1 1 1 1 2 2 1 3 1 2 2 1 1 …

      • Comment ?

      • Pourquoi serait-il possible de faire de l’induction ?

      • Est-ce qu’un exemple supplémentaire doit augmenter la confiance dans la règle induite ?

      • Combien faut-il d’exemples ?


    1 1 des sc narios26 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Est-ce de l’apprentissage ?

      • Phénomène de mémoire, sans mémoire !?


    1 1 des sc narios27 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Séquences d’analogies

      • Quelles situations sélectionner ?

      • Dans quel ordre ?

      • Est-ce de l’apprentissage ?

    a b c

    a a b a b c

    i j j k k k

    a b d

    ?

    ?


    1 1 des sc narios28 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Soient deux exemples dont les descriptions pourraient être :

      • E1 : Un triangle rayé au-dessus d’un carré uni noir

      • E2 : Un carré uni blanc au-dessus d’un cercle rayé

    • Formuler une description générale de ces deux exemples


    1 1 des sc narios29 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    ProblèmeQuel est le nombre a qui prolonge la séquence :

    1 2 3 5 … a ?


    1 1 des sc narios30 l.jpg

    Mais alors … Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), comment faire de l’induction ?

    et que peut-être une science de l’induction ?

    1. 1- Des scénarios

    • Solution(s). Quelques réponses valides :

      • a = 6. Argument : c’est la suite des entiers sauf 4.

      • a = 7. Argument : c’est la suite des nombres premiers.

      • a = 8. Argument : c’est la suite de Fibonacci

      • a = 2p. (a peut être n’importe quel nombre réel supérieur ou égal à 5) Argument : la séquence présentée est la liste ordonnée des racines du polynôme :

        P = x 5 - (11 + a)x 4 + (41 + 11a)x 3 - (61 - 41a)x2 + (30 + 61a)x - 30a

        qui est le développement de : (x - 1) . (x - 2) . (x - 3) . (x - 5) . (x - a)

    • GénéralisationIl est facile de démontrer ainsi que n’importe quel nombre est une prolongation correcte de n’importe quelle suite de nombre


    1 1 des sc narios31 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Exemples décrits par :

      • nombre(1 ou 2); taille (petit ou grand); forme(cercle ou carré);couleur(rouge ou vert)

    • Les objets appartiennent soit à la classe + soit à la classe -

    +

    1 grand carré vert

    +

    2 petits carrés rouges

    2 grands cercles rouges

    -

    +

    1 grand cercle vert

    1 petit cercle rouge

    +

    1 petit carré vert

    -

    1 petit carré rouge

    +

    2 grands carrés verts

    +


    1 1 des sc narios32 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Oui

    • Oui

    • Non


    1 1 des sc narios33 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Est-ce une tâche de reconnaissance de forme ? de caractères ?

    • Comment coder les exemples ?

      0 1 1 1 1 1 1 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 1 1 1 11 1 1 0 1 1 1 1 0 0 1 1 1 0

    • Le choix de la représentation peut rendre l’apprentissage trivial

    • Mais comment faire ce choix ?


    1 1 des sc narios34 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Apprendre par coeur ? IMPOSSIBLE

    • Généraliser

      Comment coder les formes ?

    Apprentissage supervisé


    1 1 des sc narios35 l.jpg
    1. 1- Des scénarios Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Extraction de caractéristiques (descripteurs, attributs)

      • Eliminer les descripteurs non pertinents

      • Introduction de nouveaux descripteurs

        • Utilisation de connaissances a priori

          • Invariance par translation

          • Invariance par changement d’échelle

        • Histogrammes

        • Combinaisons de descripteurs

      • Ajouter des descripteurs (beaucoup) !!


    1 1 des sc narios36 l.jpg

    "Erreur" Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Courbe d'apprentissage

    1. 1- Des scénarios

    • Quel critère de performance (de succès) ?

      • Probabilité de misclassification

      • Risque

      • Nombre d’erreurs

    • Apprentissage sur un échantillon d'apprentissage

    • Test sur une base de test

    Taille échantillon


    Introduction l induction l.jpg
    Introduction à l’induction Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Induction :

      Proposer des lois générales à partir de l’observation de cas particuliers


    Comment d finir l apprentissage l.jpg
    Comment définir l’apprentissage ? Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • « Learning is any change in a system that allows it to perform better the second time on repetition of the same task or another task drawn from the same population »

      [Herbert Simon, 1983]

    • « Learning is making useful changes in mind »

      [Marvin Minsky, 1985]

    • « Learning is the organization of experience »

      [Scott, 1983]

    • « Learning is constructing or modifying representations of what is being experienced »

      [Riszard Michalski, 1986]


    1 1 ingr dients de l apprentissage l.jpg
    1.1- Ingrédients de l’apprentissage Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Espace des hypothèses H

    • Espace des entrées X

    • Mesure de performance

    • Optimisation / exploration de H

    • Protocole


    1 1 premi res notions l.jpg
    1.1- Premières notions Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Protocole

      • Passif ou actif ?

      • Incrémental (on-line) ou « tout ensemble » (off-line) ?

      • Réponses immédiates ou après votre estimation ?

    • Critère de succès

      • Nombre de mauvaises réponses ?

      • Taux de mauvaises réponses (taux d’erreur) ?

      • Nombre d’essais avant d’avoir « identifié la solution » ?

      • Taux d’erreur de votre estimation finale (qui peut être erronée)

        (« Taux d’erreur en généralisation »)


    1 1 notion de protocole l.jpg
    1.1- Notion de protocole Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Le protocole règle les interactions entre les acteurs

    • Environnement :

      • Données fournies incrémentalement ou non (apprentissage en-ligne / batch)

      • Dans un ordre indifférent / hostile / favorable

    • Oracle :

      • Données semi-supervisées

      • Apprentissage multi-instances

      • Étiquettes vraies fournies avec les exemples ou seulement après prédiction de l’apprenant (risque mesuré par le nombre d’erreurs de l’apprenant : mistake-bound learning) (ou relativement au meilleur expert d’un comité :relative loss-bound models)

      • Peut fournir un contre-exemple quand l’apprenant propose une hypothèse candidate h non équivalente à la fonction cible (equivalence queries)

    • Apprenant :

      • Complètement passif : données i.i.d.

      • Peut poser des questions : fournir un exemple et demander son étiquette (membership queries)

      • Peut poser des questions sur les statistiques des exemples étiquetés (statistical queries)

      • Apprentissage actif : organise son exploration du monde


    1 1 questions essentielles l.jpg
    1.1- Questions essentielles Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Données et connaissances a priori

      • Quelles données sont disponibles ?

      • Que sait-on du problème ?

    • Représentation

      • Comment représenter les exemples ?

      • Comment représenter les hypothèses ?

    • Méthode et estimation

      • Quel est l’espace des hypothèses ?

      • Comment évaluer une hypothèse en fonction des exemples connus ?

    • Évaluation de la performance après apprentissage ?

    • Commentreconsidérer l’espace des hypothèses?


    1 1 types d apprentissages l.jpg
    1.1- Types d’apprentissages Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Apprentissage supervisé

      À partir de l’échantillon d’apprentissageS= {(xi, ui)}1,mon cherche une loi de dépendance sous-jacente

      • Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi)

      • Ou bien une distribution de probabilités P(xi, ui)

        afin de prédire l’avenir


    1 1 l induction supervis e l.jpg
    1.1 - L'induction supervisée Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Si f est une fonction continue

      • Régression

      • Estimation de densité

    • Si f est une fonction discrète

      • Classification

    • Si f est une fonction binaire (booléenne)

      • Apprentissage de concept


    1 1 types d apprentissages45 l.jpg
    1.1- Types d’apprentissages Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Apprentissage non supervisé

      De l’échantillon d’apprentissageS = {(xi)}1,mon cherche des régularités sous-jacentes

      • Sous forme d’une fonction : régression

      • Sous forme de nuages de points (e.g. mixture de gaussiennes)

      • Sous forme d’un modèle complexe (e.g. réseau bayésien)

        afin de résumer, détecter des régularités, comprendre …


    1 1 types d apprentissages46 l.jpg
    1.1- Types d’apprentissages Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Apprentissage par renforcement

    Les données d’apprentissage

    • Une séquence de perceptions, d’actions et de récompenses : (st, at, rt)t = 1, ¥

      • Avec un renforcementrt

      • rt peut sanctionner des actions très antérieures à t

        Le problème: inférer une application : situation perçue action afin de maximiser un gain sur le long terme

    Environnement

    Action

    Perception

    Récompense

    Apprentissage de réflexes ... -> … apprentissage de planification


    1 1 plusieurs niveaux d analyse l.jpg
    1.1- Plusieurs niveaux d’analyse ? Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    1. Analyse de principe, de faisabilité : que peut-on apprendre ? Sous quelles conditions ?

    sans référence à un algorithme particulier !!

    • Théories mathématiques en particulier de nature statistique

      2. Niveau de la réalisation / simulationComment apprendre ?

    • Algorithmes

    • Programmes

    • Réalisations et tests empiriques


    Cours 1 plan48 l.jpg
    Cours 1: Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), plan

    1- Introduction à l’induction

    1.1- Visages de l’apprentissage

    1.2- Des algorithmes

    1.3- Approche plus formelle de l’induction

    1.4- Apprentissage par exploration


    1 2 algorithme des k plus proches voisins l.jpg
    1.2- Algorithme des k-plus proches voisins Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • K-Nearest Neighbours


    1 2 discrimination lin aire le perceptron l.jpg
    1.2- Discrimination linéaire : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), le Perceptron


    1 2 discrimination lin aire le perceptron51 l.jpg
    1.2- Discrimination linéaire : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), le Perceptron


    1 2 discrimination lin aire le perceptron52 l.jpg
    1.2- Discrimination linéaire : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), le Perceptron


    1 2 discrimination lin aire le perceptron53 l.jpg
    1.2- Discrimination linéaire : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), le Perceptron


    1 2 discrimination lin aire le perceptron54 l.jpg
    1.2- Discrimination linéaire : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), le Perceptron


    1 2 le perceptron crit re de performance l.jpg
    1. 2- Le perceptron : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), critère de performance

    • Critère d’optimisation (fonction d’erreur) :

      • Nb total d’erreurs de classification : NON

      • Critère du Perceptron :

        Car nous voulons pour toutes les formes d’apprentissage :

        • Proportionnel, pour toutes les formes mal classées, à la distance à la surface de décision

        • Fonction continue et linéaire par morceaux


    1 2 le perceptron algorithme l.jpg
    1. 2- Le perceptron : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), algorithme

    • Méthode d’exploration de H

      • Recherche par gradient

        • Minimisation de la fonction d’erreur

        • Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie.

        • Apprentissage seulement si erreur de classification

      • Algorithme :

        si la forme est correctement classée : ne rien faire

        sinon :

        boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

      • Convergence ?


    1 2 le perceptron illustration l.jpg
    1. 2- Le perceptron : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Illustration

    • Justification de l’algorithme

      • Réduction de l’erreur


    1 2 le perceptron convergence et capacit m moire l.jpg
    1. 2- Le perceptron : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), convergence et capacité mémoire

    • Questions :

      • Qu’est-ce qui est apprenable ?

        • Résultat de [Minsky & Papert,68] : séparatrices linéaires

      • Garantie de convergence ?

        • Théorème de convergence du Perceptron [Rosenblatt,62]

      • Fiabilité de l’apprentissage et nombre d’exemples

        • Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie sur ce qui est appris ?


    1 3 le sc nario de base l.jpg
    1.3- Le scénario de base Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    x1, x2, ..., xm

    Environnement X :

    distribution de prob. F(x)

    “Oracle”

    Sm = (x1,u1), (x2,u2), ..., (xm,um)

    Apprenant : h (x)

    x1, x2, ..., xm

    y1, y2, ..., ym


    1 3 d finition formelle du probl me l.jpg
    1.3 - Définition formelle du problème Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Hypothèse : les données empiriques caractérisent une dépendance probabilisteP entre l’espace X des descriptions et l’espace Y des étiquettes

      • Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue

      • S = {(x1,u1), (x2,u2), … (xm,um)} (XY)m

        • Échantillon d’apprentissage

        • Les observation sont i.i.d. suivant P

        • H : famille (éventuellement infinie) de fonctions h définies sur X

    • Objectif : prédire l’étiquette y connaissant l’observation x


    1 3 apprendre pr diction dans x l.jpg

    +/- Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), ?

    -

    -

    -

    -

    +

    +

    +

    -

    +

    +

    -

    +

    +

    -

    -

    -

    X

    Espace des exemples :

    1.3 - Apprendre  prédiction dans X

    • Méthodes par plus proches voisins

    • Nécessité d’unenotion de distance

    • Hypothèse de continuité dans X


    1 3 apprendre un jeu entre espaces l.jpg

    h Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    x

    -

    -

    -

    -

    +

    +

    +

    -

    +

    +

    -

    +

    +

    -

    -

    -

    • Comment choisir l’espace des hypothèses (i.e. le langage LH) ?

    1.3- Apprendre = un jeu entre espaces

    • Cas particulier de l’apprentissage de concepts

    LH

    Espace des exemples : X

    Espace des hypothèses : H


    1 3 le crit re inductif l.jpg

    L Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), H

    -

    h

    x

    -

    -

    -

    +

    +

    +

    -

    +

    +

    -

    +

    +

    -

    -

    X

    -

    H

    • Quel critère inductif ?

    • Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ?

    1.3- Le critère inductif


    1 3 l exploration de h l.jpg

    L Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), H

    -

    h

    h

    x

    x

    -

    -

    ?

    ?

    -

    h

    +

    +

    x

    +

    -

    +

    +

    -

    +

    +

    -

    -

    X

    -

    H

    • Quelle méthode d’exploration de H ?

    1.3- L’exploration de H


    1 3 les interrogations fondamentales l.jpg
    1.3- Les interrogations fondamentales Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    1. Théorique : Sous quelles conditions est-il possible de résoudre le problème de l’induction ?

    • De quelle information doit-on disposer ?

      • Dans les entrées (les exemples)

      • Dans l'espace d'hypothèse

    • Quel principe inductif doit-on utiliser ?

      2. Pratique : Comment explorer effectivement l’espace d’hypothèses ?


    1 3 trois ingr dients trois questions l.jpg
    1.3- Trois ingrédients : trois questions Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Quel critère inductif ?

      • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?

    • Quel espace d’hypothèses ?

      • Quel espace d’hypothèses est approprié ?

    • Comment explorer l’espace des hypothèses ?

      • Résolution d’un problème d’optimisation


    1 3 crit re de performance l.jpg
    1.3- Critère de performance Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation)

    Loi de probabilité

    jointe sur XY

    Fonction de perte

    Étiquette

    prédite

    Étiquette vraie

    (ou désirée)


    1 3 exemples de fonctions de perte l.jpg
    1.3- Exemples de fonctions de perte Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Discrimination

    • Régression

    • Estimation de densité


    Slide69 l.jpg

    Les grands principes inductifs Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Principe de minimisation du risque empirique (ERM)

    • Principe du maximum de vraisemblance (approche bayésienne)

    • Principe de compression maximale


    1 3 i le principe inductif erm l.jpg
    1.3- (i) Le principe inductif ERM Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).

    • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique


    1 3 ii approche bay sienne l.jpg
    1.3- (ii) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Approche bayésienne

    • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h)

      Principe du Maximum A Posteriori(MAP):

    • On cherche l’hypothèse h la plus probable après observation des données S

      • Exemple : le 11 septembre 2001


    1 3 iii principe de compression maximale l.jpg
    1.3- (iii) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Principe de compression maximale

    • Inspiration : la théorie du codage de l’information

      • Rasoir d’Occam

      • On suppose qu’il existe :

        • un coût associé à la transmission d’un codage (modèle des données) : L(h)

        • un coût associé à la transmission des données brutes (E.D. h) : L(x|h)

      • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données


    1 3 choix de l espace d hypoth ses l.jpg

    - Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    +/- ?

    -

    -

    -

    +

    +

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    +

    -

    +

    +

    -

    +

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    +

    -

    hk

    x

    hj

    x

    -

    -

    X

    Espace des exemples :

    Espace des hypothèses : H

    1.3- Choix de l’espace d’hypothèses

    • Apprendre (pour prédire) est impossible …

      … sans limitation sur l’espace des hypothèses


    1 3 notion de biais l.jpg
    1.3- Notion de biais Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Toute connaissance qui restreint le champ des hypothèsesque l'apprenant doit considérer à un instant donné.

    • On ne peut pas apprendre sans biais

    • Plus le biais est fort, plus l’apprentissage est facile

      • Bien choisir le biais


    1 3 choix de l espace d hypoth ses75 l.jpg
    1.3- Choix de l’espace d’hypothèses Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Il faut contrôler l’expressivité de l’espace d’hypothèses

    • Analyse statistique de l’induction [Vapnik, …]

    Terme dépendant de

    la « richesse » de H


    1 3 r ponses qualitatives l.jpg
    1.3- Réponses … qualitatives Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    1. De quelle information doit-on disposer ?

    • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

      1'. Quel principe inductif ?

    • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus

    • Un nouveau principe : minimiser à la fois

      • l'erreur sur l'échantillon d'apprentissage

      • ET une mesure de la richesse de H


    1 3 r sum d finition d un probl me d apprentissage l.jpg
    1.3- Résumé : Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), définition d’un problème d’apprentissage

    • Des acteurs

      • L’environnement

      • L’oracle

      • L’apprenant

    • Une tâche d’apprentissage

      • Discrimination (ou classification multiclasses) / régression / estimation de densité

    • Un principe inductif

      • ERM (et dérivés) / Bayésien / compression d’information

    • Un espace d’hypothèses (avec sélection automatique)

    un protocole

    d’apprentissage

    • Choix d’une méthode d’apprentissage (et d’un algorithme)


    1 4 relation d inclusion et relation de g n ralit l.jpg
    1.4- Relation d’inclusion et relation de généralité Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Vers la généralisation


    1 4 la relation de g n ralit induite dans h l.jpg
    1.4- La relation de généralité induite dans Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), H

    Relation de généralité dans H induite parlarelation d'inclusion dans X


    1 4 le choix d une m thode d apprentissage l.jpg
    1.4- Le choix d’une méthode d’apprentissage Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Dépend fondamentalement de l’espace des hypothèses H

    • Structuré par une relation de généralité (ordre partiel)

      • Toutes les méthodes guidées par cette relation

        • Espace des versions

        • PLI (Programmation Logique Inductive)

        • EBL, reformulation en général et révision de théorie

        • Inférence grammaticale

    • Seulement une notion de voisinage dans H

      • Méthodes de « gradient »

        • Réseaux de neurones / SVMs

        • Recuit simulé / algorithmes d’évolution simulée

        • Réseaux bayésiens / HMMs

    • Pas d’espace d’hypothèses

      • Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning)

    h

    x

    H


    1 4 autres crit res de choix l.jpg
    1.4- Autres critères de choix Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Intelligibilité des résultats (hypothèses produites)

      • E.g. exit les réseaux de neurones

    • Performances en généralisation

      • Pas toujours en adéquation totale avec le point précédent

    • Coûts

      • de préparation (des données)

      • coût computationnel (coût d’une passe et nombre de passes nécessaires, …)

      • coût de l’expertise en apprentissage

      • coût de l’expertise sur le domaine


    Cours 1 plan82 l.jpg
    Cours 1: Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), plan

    1- Introduction à l’induction

    1.1- Visages de l’apprentissage

    1.2- Des algorithmes

    1.3- Approche plus formelle de l’induction

    1.4- Apprentissage par exploration


    2 1 le principe inductif erm l.jpg
    2.1- Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Le principe inductif ERM

    • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).

    • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique


    2 2 le principe erm est il pertinent l.jpg
    2.2- Le principe ERM est-il pertinent ? Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • h* : hypothèse optimale dans H suivant le risque réel

    • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm


    2 2 analyse du principe de minimisation du risque empirique l.jpg
    2.2- Analyse du principe de minimisation du risque empirique Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?


    2 3 les facteurs le compromis biais variance l.jpg
    2.3- Les facteurs : le Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), compromis biais-variance


    2 3 les facteurs le compromis biais variance87 l.jpg
    2.3- Les facteurs : le Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), compromis biais-variance


    3 analyse statistique du principe erm l.jpg
    3- Analyse statistique du principe ERM Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Étude de la corrélation entre :

    et

    • Cette corrélation fait intervenir :

      • RRéel(hS) - RRéel(h*) nécessairement ≥ 0 (pourquoi ?)

      • La probabilité que cette différence soit supérieure à une borne donnée

        • car hS dépend de la représentativité de l’échantillon d’apprentissage Sm


    3 analyse statistique du principe erm suite l.jpg
    3- Analyse statistique du principe ERM (suite) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    3 analyse statistique du principe erm suite90 l.jpg
    3- Analyse statistique du principe ERM (suite) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    3 analyse statistique du principe erm suite91 l.jpg
    3- Analyse statistique du principe ERM (suite) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    3 pertinence consistance du principe erm l.jpg
    3- Pertinence Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), (consistance) du principe ERM

    • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empiriqueREmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .


    3 1 le cas de la discrimination l analyse pac l.jpg
    3.1- Le cas de la discrimination : l’analyse PAC Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Contexte :

      • Discrimination

      • Fonction de perte l : {0,1}

      • F = H

      • H : espace fini

  • L’apprentissage consiste alors à éliminer toutes les hypothèsesnon cohérentes avec les données et à en choisir une parmi les restantes

    Quelle est la probabilité qu’une hypothèse de risque empirique nul    soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)


  • 3 2 le cas de la discrimination l analyse pac l.jpg
    3.2- Le cas de la discrimination : l’analyse PAC Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f


    3 2 le cas de la discrimination l analyse pac95 l.jpg
    3.2- Le cas de la discrimination : l’analyse PAC Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Raisonnement par l’absurde

    • Supposons une hypothèse de risque réel > e

    • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ?

    • Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e

    • Après observation de m exemples i.i.d., elle est : (1 - e)m


    3 2 le cas de la discrimination l analyse pac96 l.jpg
    3.2- Le cas de la discrimination : l’analyse PAC Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ?

    • Événements disjoints :

      • Donc borné par : |H| (1 - e)m < | H | e-em

    • Il suffit donc d’avoir un échantillon de taille

    • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d


    3 2 le cas de la discrimination l analyse pac97 l.jpg
    3.2- Le cas de la discrimination : l’analyse PAC Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Pourquoi PAC ?

    • Les hypothèses qui « survivent » sont approximativement correctes (i.e. à moins de e de la fonction cible)

    • Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d)

  • Probablement Approximativement Correct


  • 3 3 les le ons l.jpg
    3.3- Les leçons Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur

    • Le raisonnement implique l’ensemble des hypothèsesH : argument de convergence uniforme

    • L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage


    3 4 extension l analyse de vapnik l.jpg
    3.4- Extension : l’analyse de Vapnik Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Contexte : une généralisation

      • N’importe quel type de fonctions hypothèses

      • N’importe quel type de fonction de perte (> 0 et bornée)

      • F éventuellement ≠ H (apprentissage agnostique)

      • H : espace infini

  • Ici, on va cependant se limiter au cas de la discrimination

    • Risque empirique :


  • 3 4 extension l analyse de vapnik100 l.jpg
    3.4- Extension : l’analyse de Vapnik Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille Hde fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.


    3 4 extension l analyse de vapnik101 l.jpg
    3.4- Extension : l’analyse de Vapnik Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a :

    Terme dépendant de

    la « richesse » de H


    3 4 extension l analyse de vapnik102 l.jpg
    3.4- Extension : l’analyse de Vapnik Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Problème angoissant : comment croît la fonction de croissance GH(m) ?

      • Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!!

    • Définition (Dimension de Vapnik-Chervonenkis, 1971)La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.

      Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de Xpulvérisé par H.


    3 4 extension l analyse de vapnik103 l.jpg
    3.4- Extension : l’analyse de Vapnik Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    3 4 un lemme sauveur le lemme de sauer 1972 l.jpg
    3.4- Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Un lemme sauveur : le lemme de Sauer (1972)

    • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :


    3 4 qu est ce que cela signifie l.jpg
    3.4- Qu’est-ce que cela signifie ? Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Cas de fonctions de discrimination et H = F

    • La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H

      • E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est :

    linéaire en dH !!


    3 4 le take home message l.jpg
    3.4- Le « take-home » message Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie

    • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme:

      • dans le cas général

      • dans le cas où H = F


    3 4 quelques exemples de dimensions de vc l.jpg
    3.4- Quelques exemples de dimensions de VC Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    3 5 vers d autres principes inductifs l.jpg
    3.5- Vers d’autres principes inductifs Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Reconsidérons l’équation (valable pour la discrimination et H = F)

    • Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre :

      • un risque empirique faible : bonne adéquation aux données

      • et un espace d’hypothèse d’expressivité bien réglée


    3 5 les m thodes par s lection de mod les l.jpg
    3.5- Les méthodes par « sélection de modèles » Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles)

      • Le SRM (Structural Risk Minimization)

      • La théorie de la régularisation

      • Le MDLp

      • Les approches bayésiennes


    3 5 le srm l.jpg
    3.5- Le SRM Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • La procédure s’appuie sur une structure sur H définie a priori


    3 5 la th orie de la r gularisation l.jpg
    3.5- La théorie de la régularisation Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Issue de l’étude des problèmes « mal posés » (plusieurs solutions)

    • Il faut imposer des conditions supplémentaires

      • Contraindre l’espace des paramètres si H = {fonctions paramétrées}

      • Imposer des conditions de régularité (e.g. dynamique limitée)


    3 5 le mdlp minimum description length principle l.jpg
    3.5- Le MDLp Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), (Minimum Description Length principle)

    • On suppose qu’il existe :

      • un coût associé à la transmission des données brutes (mesuré en bits) : L(x)

      • un coût associé à la transmission d’un codage (modèle des données) : L(h)

    • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données


    3 6 en d autres mots notion de biais l.jpg
    3.6- En d’autres mots … Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Notion de biais

    Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné.

    • Biais de représentation

      • On ne peut pas apprendre sans biais

      • Plus le biais est fort, plus l’apprentissage est facile

      • Bien choisir le biais

    • Biais de préférence

      • Dû au contrôle de la recherche

      • Critère de choix entre hypothèses

        • Simplicité, complétude, intelligibilité, facilité d’évaluation, ...

      • Dû au protocole

        • Stratégie éducative (si apprentissage incrémental)


    3 6 en d autres mots r ponses qualitatives l.jpg
    3.6- En d’autres mots … Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Réponses qualitatives

    1. De quelle information doit-on disposer ?

    • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

      1'. Quel principe inductif ?

    • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus

    • Un nouveau principe : minimiser à la fois

      • l'erreur sur l'échantillon d'apprentissage

      • ET une mesure de la richesse de H


    3 7 le no free lunch theorem l.jpg
    3.7- Le no-free-lunch theorem Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    3 7 le no free lunch theorem116 l.jpg
    3.7- Le no-free-lunch theorem Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    Cours 1 plan117 l.jpg
    Cours 1: Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), plan

    1- Introduction à l’induction

    1.1- Visages de l’apprentissage

    1.2- Des algorithmes

    1.3- Approche plus formelle de l’induction

    1.4- Apprentissage par exploration


    1 4 trois questions fondamentales l.jpg
    1.4- Trois questions fondamentales Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Quel critère inductif ?

      Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?

    • Quel espace d’hypothèses ?

      Quel espace d’hypothèses est approprié :

      • Pour la tâche

      • Pour que l’induction soit possible

  • Comment explorer l’espace des hypothèses ?

    Résolution d’un problème d’optimisation :

    • recherche d’une bonne hypothèse dans un espace de possibilités afin de satisfaire le critère inductif


  • 1 4 apprendre explorer un espace d hypoth ses l.jpg
    1.4- Apprendre = explorer un espace d’hypothèses Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Comment choisir une (des) hypothèse(s) ?

    • Notion de biais de représentation


    1 4 apprendre explorer un espace d hypoth ses120 l.jpg

    Nouvel Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    -

    exemple

    -

    -

    hi

    -

    x

    ?

    +

    -

    +

    ?

    +

    -

    +

    +

    hk

    x

    -

    +

    +

    x

    hj

    -

    -

    -

    Espace des exemples : X

    Espace des hypothèses : H

    1.4- Apprendre = explorer un espace d’hypothèses

    • Exploration de l’espace d’hypothèses

    • Mesure de l’adéquation de l’hypothèse (critère de succès)


    1 4 apprendre explorer un espace d hypoth ses121 l.jpg
    1.4- Apprendre = explorer un espace d’hypothèses Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Nouvel

    -

    exemple

    -

    -

    hi

    -

    x

    ?

    +

    -

    +

    ?

    +

    -

    +

    +

    hk

    x

    -

    +

    +

    x

    hj

    -

    -

    -

    Espace des exemples : X

    Espace des hypothèses : H

    • Exploration de l’espace d’hypothèses

    • guidée par les relations de généralités dans H


    1 4 induction et g n ralisation l.jpg
    1.4- Induction et généralisation Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Comment corriger une hypothèse défectueuse


    1 4 couverture des exemples par une hypoth se l.jpg
    1.4- Couverture des exemples par une hypothèse Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • h1 : complète mais incorrecte

    • h2 : correcte mais incomplète

    • h3 : complète et correcte : cohérente


    1 4 relation d inclusion et relation de g n ralit124 l.jpg
    1.4- Relation d’inclusion et relation de généralité Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Vers la généralisation


    1 4 relation d inclusion et relation de g n ralit125 l.jpg
    1.4- Relation d’inclusion et relation de généralité Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Vers la spécialisation


    1 4 la relation de g n ralit induite dans h126 l.jpg
    1.4- La relation de généralité induite dans Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), H

    Relation de généralité dans H induite parlarelation d'inclusion dans X


    1 4 treillis de g n ralisation dans h l.jpg
    1.4- Treillis de généralisation dans Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), H

    Ordre partiel dans H


    1 4 les op rateurs l.jpg
    1.4- Les opérateurs Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Généralisation

      • Transforme une description en une description plus générale

    • Spécialisation

      • Duale de la généralisation

      • (En général : produit une description qui est une conséquence logique de la description initiale)

    • Reformulation

      • Transforme une description en une description logiquement équivalente


    1 4 op rateurs de g n ralisation l.jpg
    1.4- Opérateurs de généralisation Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Règle d’abandon de conjonction

      • A & B  C => A  C

        ferrari & rouge  coûteux => ferrari  coûteux

    • Règle d’ajout d’alternative

      • A  C => AB  C

        ferrari  coûteux => ferrari  rouge  coûteux

    • Règle d’extension du domaine de référence

      • A & [B = R]  C => A & [B = R’]  C

        grand & [couleur = rouge]  coûteux => grand & [couleur rouge  bleu]  coûteux


    1 4 op rateurs de g n ralisation130 l.jpg

    Halogène Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    Bromine

    Chlorine

    1.4- Opérateurs de généralisation

    • Règle de clôture d’intervalle

      • A & [B=v1]  C & A & [B = v2]  C => A & [B = v1 ... v2]  C

        grand & [coût = 100]  à acheter && grand & [coût = 150]  à acheter => grand & [coût = 100 .. 150]  à acheter

    • Règle de l’ascension dans l’arbre de hiérarchie

      • A & [B= n1]  C && A & [B= n2]  C => A & [B= N]  C

        corrosif & [élément = chlorine]  toxique

        corrosif & [élément = bromine]  toxique

        => corrosif & [élément = halogène]  toxique


    1 4 op rateurs de g n ralisation131 l.jpg
    1.4- Opérateurs de généralisation Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Règle de variabilisation

      • F(a) & F(b) & ...  C => v, F(v)  C

        grand(sommet_objet) & grand(fond_objet) & ...  C

        =>  partie, grand(partie)  C

    • Règle de changement de conjonction en disjonction

      • A & B  C => AB  C

        grand & rouge  coûteux => grand rouge coûteux

    • Règle d’extension du domaine de quantification

      •  v, F(v)C => v, F(v)  C

         partie, grand(partie)C => partie, grand(partie) C


    1 4 op rateurs de g n ralisation132 l.jpg
    1.4- Opérateurs de généralisation Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Inversion de la résolution

      • A & B  C && ¬A & D  C => BD  C

        vieux & grand  C && ¬ vieux & rouge  C => grandrouge  C

    • Règle anti-extension

      • A & [B=v1]  C && D & [B=v2]  ¬C=> [B ≠ v2]  C

    • Règle constructive de généralisation (modifiant les descripteurs)

      • A & B  C && D  C => A & D  C


    1 4 repr sentation de l espace des versions l.jpg
    1.4- Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Représentation de l'espace des versions

    Observation fondamentale :

    L'espace des versions structuré par une relation d'ordre partiel peut être représenté par :

    • sa borne supérieure : le G-set

    • sa borne inférieure : le S-set

  • G-set = Ensemble de toutes les hypothèses les plus générales cohérentes avec les exemples connus

  • S-set = Ensemble de toutes les hypothèses les plus spécifiques cohérentes avec les exemples connus


  • 1 4 apprentissage l.jpg
    1.4- Apprentissage ... Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    … par mise à jour de l'espace des versions

    Idée :

    maintenir le S-set

    et le G-set

    après chaque nouvel exemple

    • Algorithme d'élimination des candidats


    1 4 algorithme d limination des candidats l.jpg
    1.4- Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Algorithme d'élimination des candidats

    InitialiserS et G par (resp.) :

    • l'ensemble des hypothèses les plus spécifiques (les plus générales) cohérentes avec le 1er exemple positif connu.

      Pour chaque nouvel exemple (positifounégatif)

    • mettre à jour S

    • mettre à jour G

      Jusqu'à convergence

      ou jusqu'à ce que S = G = Ø


    1 4 mise jour de s l.jpg
    1.4- Mise à jour de S Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • xi est négatif

      • Eliminer les hypothèses de S couvrant (indûment) xi

    • xi est positif

      • Généraliser les hypothèses de S ne couvrant pas xi juste assez pour qu'elles le couvrent

      • Puis éliminer les hypothèses de S

        • couvrant un ou plusieurs exemples négatifs

        • plus générales que des hypothèses de S


    1 4 mise jour de g l.jpg
    1.4- Mise à jour de G Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • xi est positif

      • Eliminer les hypothèses de G ne couvrant pas xi

    • xi est négatif

      • Spécialiser les hypothèses de G couvrant xi juste assez pour qu'elles ne le couvrent plus

      • Puis éliminer les hypothèses de G

        • n'étant pas plus générales qu'au moins un élément de S

        • plus spécifiques qu'au moins une autre hypothèse de G


    1 4 algorithme d limination des candidats138 l.jpg
    1.4- Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Algorithme d'élimination des candidats

    Mise à jour des bornes S et G


    1 4 propri t s de l aec l.jpg
    1.4- Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Propriétés de l'AEC

    • Incrémentalité

    • Complexité ?

    • Utilisation si non convergence ?

    • Que signifie S = G = Ø ?

    • Possibilité d'"apprentissage actif" ?

    • Que faire si les données sont bruitées ?


    1 4 exemple le syst me lex 1 l.jpg
    1.4- Exemple : le système LEX (1) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    1 4 exemple le syst me lex 2 l.jpg
    1.4- Exemple : le système LEX (2) Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    Ce qu il faut retenir l.jpg
    Ce qu'il faut retenir Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • C'est surtout l'induction supervisée qui est étudiée

    • Jeu entre espace des exemples et espace des hypothèses

    • On ne peut apprendre sans biais

    • La réalisation de l'apprentissage dépend de la structuration de l'espace des hypothèses

      • sans structure : méthodes par interpolation

      • notion de distance : méthodes par gradient (approximation)

      • relation d'ordre partiel : exploration guidée (exploration)


    1 5 approche actuelle les limites l.jpg

    • L’état de l’art actuel en apprentissage: Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

      • Données i.i.d. (indépendant et identiquement distribué)

      • Distribution statique

      • Données étiquetées

      • Classes approximativement équilibrées

    • Versus e.g. les besoins de la robotique

      • Données résultant :

        • De séquences

        • D’un apprentissage actif

      • Contexte changeant

      • Pauvrement étiquetées

    Données non i.i.d.

    1.5- Approche actuelle : les limites

    • L’état de l’art actuel en apprentissage:

      • Données i.i.d. (indépendant et identiquement distribué)

      • Distribution statique

      • Données étiquetées

      • Classes approximativement équilibrées


    1 5 perspective historique 1 l.jpg
    1.5- Perspective historique Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), (1)

    Perceptron

    Expériences :

    tortues cybernétiques

    Reconnaissance des Formes :

    Théorie de la décision bayésienne

    Turing

    (naissance de

    l'informatique)

    Discriminant

    linéaire (Fisher)

    50s

    60s

    1936

    20s


    1 5 perspective historique 2 l.jpg
    1.5- Perspective historique Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), (2)

    Apprentissage artificiel :

    une explosion

    Systèmes dédiés à une tâche :

    inspiration psychologique

    Induction supervisée

    Arbres de décision

    Algorithmes génétiques

    Explanation-Based Learning

    Raisonnement par cas

    META-DENDRAL

    2ème connexionnisme

    ARCH

    AM

    1976

    1978

    1970

    80s

    70s


    1 5 perspective historique 2146 l.jpg
    1.5- Perspective historique Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), (2')

    • Systèmes à usage industriels


    1 5 perspective historique 3 l.jpg
    1.5- Perspective historique Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), (3)

    Apprentissage artificiel :

    une théorisation

    et une mise à l'épreuve

    Nouvelles méthodes :

    - SVMs

    - Boosting

    Data mining

    Text mining

    Théorie de Vapnik

    1995

    00s

    90s


    1 5 perspective historique 4 l.jpg
    1.5- Perspective historique Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), (4)

    • Maintenant

      • Domination sans partage du paradigme dominant

        • Apprentissage comme estimation / approximation de fonction

        • Données supposées tirées aléatoirement

        • Nouveau principe inductif : toujours prendre en compte l'espace d'hypothèses

      • Nouvelles techniques d'apprentissage issues de la théorie

        • Séparateurs à Vastes Marges (SVM : Support Vector Machines)

        • Boosting

      • Prépondérance des applications de fouille dans les grandes bases de données

        • Peu structurées

        • Données fournies en vrac

        • Nouvelles mesures de performance


    1 5 perspective historique l avenir l.jpg
    1.5- Perspective historique : l'avenir ? Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Demain … ?

      • Retour vers des problèmes à données plus structurées

        • Exploration automatique de la toile (structure à tous les niveaux : grammatical, séquence, texte, discours, culture)

      • Nouveaux aspects

        • Nouvelles demandes :

          • Systèmes à longue durée de vie

          • Aide à l'éducation

          • Apprentissage collectif

        • Incrémentalité

        • Transferts d'une tâche à une autre, d'un domaine à un autre, d'un agent à un autre

      • Nouveaux problèmes

      • Nouvelles techniques


    1 5 o en est on l.jpg
    1.5 - Où en est-on ? Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),


    1 5 questions l.jpg
    1.5- Questions ... Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Peut-on apprendre n'importe quoi ?

    • Peut-on apprendre à partir de rien (tabula rasae) ?

    • Suffit-il d'avoir plus de neurones pour apprendre mieux ?

    • Quel lien entre généralisation et abstraction ?


    5 et programmes de recherche l.jpg
    5- ... et programmes de recherche Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio),

    • Phénomènes de transition de phase en induction

    • Vers une science du dynamique :

      • Quels sont les systèmes dépendants de l'ordre des entrées ?

      • Pour ceux-là, quel est l'ordre optimal de présentation des données ?

  • Apprentissage et … oubli

    • L'oubli peut-il être utile ?

  • Y a-t-il des passages obligés dans l'apprentissage de connaissances complexes ?

    • Ex : la notion d'impetus avant celle de force et d'inertie ?


  • ad