Introduction l apprentissage artificiel l.jpg
This presentation is the property of its rightful owner.
Sponsored Links
1 / 152

Introduction à l’ Apprentissage Artificiel PowerPoint PPT Presentation


  • 191 Views
  • Uploaded on
  • Presentation posted in: General

Introduction à l’ Apprentissage Artificiel. Antoine Cornuéjols. INA-PG et L.R.I., Université de Paris-Sud, Orsay (France) [email protected] http://www.lri.fr/~antoine/. Le cours. 1 - 2 - 3 - 4- 5 - 6 -7-8 Documents

Download Presentation

Introduction à l’ Apprentissage Artificiel

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Introduction l apprentissage artificiel l.jpg

Introduction à l’Apprentissage Artificiel

Antoine Cornuéjols

INA-PG

et L.R.I., Université de Paris-Sud, Orsay (France)

[email protected]

http://www.lri.fr/~antoine/


Le cours l.jpg

Le cours

  • 1-2-3-4-5-6-7-8

  • Documents

    • Le livre"L'apprentissage artificiel. Concepts et algorithmes" A. Cornuéjols & L. Miclet. Eyrolles. 2002.

    • Les transparents sur www.lri.fr/~antoine/ …cours apprentissage


Cours plan pr vu l.jpg

Cours : plan prévu

1- Introduction à l’induction (AC)

2- Apprentissage statistique (BK)

3- Apprentissage par méthodes d’ensemble (BK)

4- Apprentissage non supervisé (BK)

5- Réseaux de neurones / Validation (AC)

6- Apprentissage de séquences (AC)

7- Fouille de données (MS)

8- Fouille de données relationnelles (MS)


Cours 1 plan l.jpg

Cours 1: plan

1- Introduction à l’induction

1.1- Visages de l’apprentissage

1.2- Des algorithmes

1.3- Approche plus formelle de l’induction

1.4- Apprentissage par exploration


1 1 applications analyse de puces adn l.jpg

1.1 Applications : Analyse de puces à ADN

  • Analyse de l’expression des gènes dans un phénomène biologique

    • Combien de gènes ?

    • Quels gènes ?


1 1 applications pr diction de la bioactivit de mol cules l.jpg

1.1 Applications : Prédiction de la bioactivité de molécules


1 1 applications pr diction du risque cardio vasculaire l.jpg

1.1 Applications : Prédiction du risque cardio-vasculaire


1 1 applications analyse de grilles de calcul l.jpg

1.1 Applications : Analyse de grilles de calcul


1 1 applications grand darpa challenge 2005 l.jpg

1.1 Applications : Grand DARPA challenge (2005)


1 1 applications grand darpa challenge 200510 l.jpg

1.1 Applications : Grand DARPA challenge (2005)

150 mile off-road robot race across the Mojave desert

Natural and manmade hazards

No driver, no remote control

No dynamic passing

Fastest vehicle wins the race (and 2 million dollar prize)


1 1 applications grand darpa challenge 200511 l.jpg

1.1 Applications : Grand DARPA challenge (2005)


1 1 applications grand darpa challenge 200512 l.jpg

1.1 Applications : Grand DARPA challenge (2005)


1 1 applications sky survey l.jpg

1.1 Applications : SKY SURVEY


1 1 applications apprendre tiqueter des images l.jpg

“Face Recognition: Component-based versus Global Approaches” (B. Heisele, P. Ho, J. Wu and T. Poggio), Computer Vision and Image Understanding, Vol. 91, No. 1/2, 6-21, 2003.

1.1 Applications : Apprendre à étiqueter des images

  • Reconnaissance de visages


1 1 applications apprendre tiqueter des images15 l.jpg

1.1 Applications : Apprendre à étiqueter des images

  • Reconnaissance de visages


1 1 applications robot sur mars l.jpg

1.1 Applications : Robot sur Mars


1 1 applications robots l.jpg

1.1 Applications : Robots

  • Robot wowwee


1 1 applications agent virtuel sur la toile l.jpg

1.1 Applications : Agent virtuel sur la Toile


1 1 autres apprentissages l.jpg

1.1- Autres apprentissages

  • Association

  • Imitation

  • Apprentissage de comportement :

    • Apprendre à marcher (insectoïdes de Brooks)

    • Apprendre à se comporter sur une planète

  • Apprendre à mieux jouer

    • S'adapter à l'adversaire

    • Ne pas répéter ses fautes

    • Apprendre à jouer en équipe

      • Équipes de robots


1 1 autres apprentissages20 l.jpg

1.1- Autres apprentissages

  • Apprentissage pour la navigation

    • Apprentissage de trajets (fourmis, abeilles)

    • Robots

  • Discrimination

    • Identification de sous-marins vs. bruits naturels

    • Identification de locuteur / de signature

    • Reconnaissance de l'écriture manuscrite, de la parole

    • Code postal

  • Catégorisation

    • SKY SURVEY


1 1 autres apprentissages21 l.jpg

1. 1- Autres apprentissages

  • Systèmes autonomes avec apprentissage


1 1 autres apprentissages22 l.jpg

1.1- Autres apprentissages

  • Révision de théorie

  • Découverte scientifique

    • Découverte de régularités (en biochimie, …)

  • Apprendre à filtrer l'information

  • Apprendre les préférences d'un utilisateur

  • Apprendre à faire des résumés

  • Apprendre à communiquer (e.g. Steels, …)

  • ...


1 1 quel objectif 5 l.jpg

1. 1- Quel objectif ? (5)

Et aussi

Mieux comprendre l'apprentissage :

  • Pour ne pas avoir à programmer

    • Programmation par la démonstration

    • Programmation par l'exemple (e.g. l'EBL)

    • Programmation par échantillon d'apprentissage : induction

  • Pour mieux enseigner

  • Pour savoir ce que d'autres intelligences pourraient apprendre : théorie générale de l'apprentissage


1 1 c est quoi la science de l apprentissage artificiel l.jpg

1.1- C'est quoi la science de l'apprentissage artificiel ?

On étudie les apprentissages :

  • naturels

  • artificiels

  • desthéories

    (s'appliquant à tout système apprenant)

  • desméthodeset desalgorithmes d'apprentissage

    Implémentables sur machines


  • 1 1 des sc narios l.jpg

    1. 1- Des scénarios

    • Induction

      • 1 2 3 5 …

      • 1 1 1 2 1 1 2 1 1 1 1 1 2 2 1 3 1 2 2 1 1 …

      • Comment ?

      • Pourquoi serait-il possible de faire de l’induction ?

      • Est-ce qu’un exemple supplémentaire doit augmenter la confiance dans la règle induite ?

      • Combien faut-il d’exemples ?


    1 1 des sc narios26 l.jpg

    1. 1- Des scénarios

    • Est-ce de l’apprentissage ?

      • Phénomène de mémoire, sans mémoire !?


    1 1 des sc narios27 l.jpg

    1. 1- Des scénarios

    • Séquences d’analogies

      • Quelles situations sélectionner ?

      • Dans quel ordre ?

      • Est-ce de l’apprentissage ?

    a b c

    a a b a b c

    i j j k k k

    a b d

    ?

    ?


    1 1 des sc narios28 l.jpg

    1. 1- Des scénarios

    • Soient deux exemples dont les descriptions pourraient être :

      • E1 : Un triangle rayé au-dessus d’un carré uni noir

      • E2 : Un carré uni blanc au-dessus d’un cercle rayé

    • Formuler une description générale de ces deux exemples


    1 1 des sc narios29 l.jpg

    1. 1- Des scénarios

    ProblèmeQuel est le nombre a qui prolonge la séquence :

    1 2 3 5 … a ?


    1 1 des sc narios30 l.jpg

    Mais alors … comment faire de l’induction ?

    et que peut-être une science de l’induction ?

    1. 1- Des scénarios

    • Solution(s). Quelques réponses valides :

      • a = 6.Argument : c’est la suite des entiers sauf 4.

      • a = 7.Argument : c’est la suite des nombres premiers.

      • a = 8.Argument : c’est la suite de Fibonacci

      • a = 2p. (a peut être n’importe quel nombre réel supérieur ou égal à 5) Argument : la séquence présentée est la liste ordonnée des racines du polynôme :

        P = x 5 - (11 + a)x 4 + (41 + 11a)x 3 - (61 - 41a)x2 + (30 + 61a)x - 30a

        qui est le développement de : (x - 1) . (x - 2) . (x - 3) . (x - 5) . (x - a)

    • GénéralisationIl est facile de démontrer ainsi que n’importe quel nombre est une prolongation correcte de n’importe quelle suite de nombre


    1 1 des sc narios31 l.jpg

    1. 1- Des scénarios

    • Exemples décrits par :

      • nombre(1 ou 2); taille (petit ou grand); forme(cercle ou carré);couleur(rouge ou vert)

    • Les objets appartiennent soit à la classe + soit à la classe -

    +

    1 grand carré vert

    +

    2 petits carrés rouges

    2 grands cercles rouges

    -

    +

    1 grand cercle vert

    1 petit cercle rouge

    +

    1 petit carré vert

    -

    1 petit carré rouge

    +

    2 grands carrés verts

    +


    1 1 des sc narios32 l.jpg

    1. 1- Des scénarios

    • Oui

    • Oui

    • Non


    1 1 des sc narios33 l.jpg

    1. 1- Des scénarios

    • Est-ce une tâche de reconnaissance de forme ? de caractères ?

    • Comment coder les exemples ?

      0 1 1 1 1 1 1 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 1 1 1 11 1 1 0 1 1 1 1 0 0 1 1 1 0

    • Le choix de la représentation peut rendre l’apprentissage trivial

    • Mais comment faire ce choix ?


    1 1 des sc narios34 l.jpg

    1. 1- Des scénarios

    Apprendre par coeur ? IMPOSSIBLE

    • Généraliser

      Comment coder les formes ?

    Apprentissage supervisé


    1 1 des sc narios35 l.jpg

    1. 1- Des scénarios

    • Extraction de caractéristiques (descripteurs, attributs)

      • Eliminer les descripteurs non pertinents

      • Introduction de nouveaux descripteurs

        • Utilisation de connaissances a priori

          • Invariance par translation

          • Invariance par changement d’échelle

        • Histogrammes

        • Combinaisons de descripteurs

      • Ajouter des descripteurs (beaucoup) !!


    1 1 des sc narios36 l.jpg

    "Erreur"

    Courbe d'apprentissage

    1. 1- Des scénarios

    • Quel critère de performance (de succès) ?

      • Probabilité de misclassification

      • Risque

      • Nombre d’erreurs

    • Apprentissage sur un échantillon d'apprentissage

    • Test sur une base de test

    Taille échantillon


    Introduction l induction l.jpg

    Introduction à l’induction

    • Induction :

      Proposer des lois générales à partir de l’observation de cas particuliers


    Comment d finir l apprentissage l.jpg

    Comment définir l’apprentissage ?

    • « Learning is any change in a system that allows it to perform better the second time on repetition of the same task or another task drawn from the same population »

      [Herbert Simon, 1983]

    • « Learning is making useful changes in mind »

      [Marvin Minsky, 1985]

    • « Learning is the organization of experience »

      [Scott, 1983]

    • « Learning is constructing or modifying representations of what is being experienced »

      [Riszard Michalski, 1986]


    1 1 ingr dients de l apprentissage l.jpg

    1.1- Ingrédients de l’apprentissage

    • Espace des hypothèses H

    • Espace des entrées X

    • Mesure de performance

    • Optimisation / exploration de H

    • Protocole


    1 1 premi res notions l.jpg

    1.1- Premières notions

    • Protocole

      • Passif ou actif ?

      • Incrémental (on-line) ou « tout ensemble » (off-line) ?

      • Réponses immédiates ou après votre estimation ?

    • Critère de succès

      • Nombre de mauvaises réponses ?

      • Taux de mauvaises réponses (taux d’erreur) ?

      • Nombre d’essais avant d’avoir « identifié la solution » ?

      • Taux d’erreur de votre estimation finale (qui peut être erronée)

        (« Taux d’erreur en généralisation »)


    1 1 notion de protocole l.jpg

    1.1- Notion de protocole

    Le protocole règle les interactions entre les acteurs

    • Environnement :

      • Données fournies incrémentalement ou non (apprentissage en-ligne / batch)

      • Dans un ordre indifférent / hostile / favorable

    • Oracle :

      • Données semi-supervisées

      • Apprentissage multi-instances

      • Étiquettes vraies fournies avec les exemples ou seulement après prédiction de l’apprenant (risque mesuré par le nombre d’erreurs de l’apprenant : mistake-bound learning) (ou relativement au meilleur expert d’un comité :relative loss-bound models)

      • Peut fournir un contre-exemple quand l’apprenant propose une hypothèse candidate h non équivalente à la fonction cible (equivalence queries)

    • Apprenant :

      • Complètement passif : données i.i.d.

      • Peut poser des questions : fournir un exemple et demander son étiquette (membership queries)

      • Peut poser des questions sur les statistiques des exemples étiquetés (statistical queries)

      • Apprentissage actif : organise son exploration du monde


    1 1 questions essentielles l.jpg

    1.1- Questions essentielles

    • Données et connaissances a priori

      • Quelles données sont disponibles ?

      • Que sait-on du problème ?

    • Représentation

      • Comment représenter les exemples ?

      • Comment représenter les hypothèses ?

    • Méthode et estimation

      • Quel est l’espace des hypothèses ?

      • Comment évaluer une hypothèse en fonction des exemples connus ?

    • Évaluation de la performance après apprentissage ?

    • Commentreconsidérer l’espace des hypothèses?


    1 1 types d apprentissages l.jpg

    1.1- Types d’apprentissages

    • Apprentissage supervisé

      À partir de l’échantillon d’apprentissageS= {(xi, ui)}1,mon cherche une loi de dépendance sous-jacente

      • Par exemple une fonction h aussi proche possible de f (fonction cible) tq : ui = f(xi)

      • Ou bien une distribution de probabilités P(xi, ui)

        afin de prédire l’avenir


    1 1 l induction supervis e l.jpg

    1.1 - L'induction supervisée

    • Si f est une fonction continue

      • Régression

      • Estimation de densité

    • Si f est une fonction discrète

      • Classification

    • Si f est une fonction binaire (booléenne)

      • Apprentissage de concept


    1 1 types d apprentissages45 l.jpg

    1.1- Types d’apprentissages

    • Apprentissage non supervisé

      De l’échantillon d’apprentissageS = {(xi)}1,mon cherche des régularités sous-jacentes

      • Sous forme d’une fonction : régression

      • Sous forme de nuages de points (e.g. mixture de gaussiennes)

      • Sous forme d’un modèle complexe (e.g. réseau bayésien)

        afin de résumer, détecter des régularités, comprendre …


    1 1 types d apprentissages46 l.jpg

    1.1- Types d’apprentissages

    • Apprentissage par renforcement

    Les données d’apprentissage

    • Une séquence de perceptions, d’actions et de récompenses : (st, at, rt)t = 1, ¥

      • Avec un renforcementrt

      • rt peut sanctionner des actions très antérieures à t

        Le problème: inférer une application : situation perçue action afin de maximiser un gain sur le long terme

    Environnement

    Action

    Perception

    Récompense

    Apprentissage de réflexes ... -> … apprentissage de planification


    1 1 plusieurs niveaux d analyse l.jpg

    1.1- Plusieurs niveaux d’analyse ?

    1. Analyse de principe, de faisabilité : que peut-on apprendre ? Sous quelles conditions ?

    sans référence à un algorithme particulier !!

    • Théories mathématiques en particulier de nature statistique

      2. Niveau de la réalisation / simulationComment apprendre ?

    • Algorithmes

    • Programmes

    • Réalisations et tests empiriques


    Cours 1 plan48 l.jpg

    Cours 1: plan

    1- Introduction à l’induction

    1.1- Visages de l’apprentissage

    1.2- Des algorithmes

    1.3- Approche plus formelle de l’induction

    1.4- Apprentissage par exploration


    1 2 algorithme des k plus proches voisins l.jpg

    1.2- Algorithme des k-plus proches voisins

    • K-Nearest Neighbours


    1 2 discrimination lin aire le perceptron l.jpg

    1.2- Discrimination linéaire : le Perceptron


    1 2 discrimination lin aire le perceptron51 l.jpg

    1.2- Discrimination linéaire : le Perceptron


    1 2 discrimination lin aire le perceptron52 l.jpg

    1.2- Discrimination linéaire : le Perceptron


    1 2 discrimination lin aire le perceptron53 l.jpg

    1.2- Discrimination linéaire : le Perceptron


    1 2 discrimination lin aire le perceptron54 l.jpg

    1.2- Discrimination linéaire : le Perceptron


    1 2 le perceptron crit re de performance l.jpg

    1. 2- Le perceptron : critère de performance

    • Critère d’optimisation (fonction d’erreur) :

      • Nb total d’erreurs de classification : NON

      • Critère du Perceptron :

        Car nous voulons pour toutes les formes d’apprentissage :

        • Proportionnel, pour toutes les formes mal classées, à la distance à la surface de décision

        • Fonction continue et linéaire par morceaux


    1 2 le perceptron algorithme l.jpg

    1. 2- Le perceptron : algorithme

    • Méthode d’exploration de H

      • Recherche par gradient

        • Minimisation de la fonction d’erreur

        • Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie.

        • Apprentissage seulement si erreur de classification

      • Algorithme :

        si la forme est correctement classée : ne rien faire

        sinon :

        boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

      • Convergence ?


    1 2 le perceptron illustration l.jpg

    1. 2- Le perceptron : Illustration

    • Justification de l’algorithme

      • Réduction de l’erreur


    1 2 le perceptron convergence et capacit m moire l.jpg

    1. 2- Le perceptron : convergence et capacité mémoire

    • Questions :

      • Qu’est-ce qui est apprenable ?

        • Résultat de [Minsky & Papert,68] : séparatrices linéaires

      • Garantie de convergence ?

        • Théorème de convergence du Perceptron [Rosenblatt,62]

      • Fiabilité de l’apprentissage et nombre d’exemples

        • Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie sur ce qui est appris ?


    1 3 le sc nario de base l.jpg

    1.3- Le scénario de base

    x1, x2, ..., xm

    Environnement X :

    distribution de prob. F(x)

    “Oracle”

    Sm = (x1,u1), (x2,u2), ..., (xm,um)

    Apprenant : h (x)

    x1, x2, ..., xm

    y1, y2, ..., ym


    1 3 d finition formelle du probl me l.jpg

    1.3 - Définition formelle du problème

    • Hypothèse : les données empiriques caractérisent une dépendance probabilisteP entre l’espace X des descriptions et l’espace Y des étiquettes

      • Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue

      • S = {(x1,u1), (x2,u2), … (xm,um)} (XY)m

        • Échantillon d’apprentissage

        • Les observation sont i.i.d. suivant P

        • H : famille (éventuellement infinie) de fonctions h définies sur X

    • Objectif : prédire l’étiquette y connaissant l’observation x


    1 3 apprendre pr diction dans x l.jpg

    +/- ?

    -

    -

    -

    -

    +

    +

    +

    -

    +

    +

    -

    +

    +

    -

    -

    -

    X

    Espace des exemples :

    1.3 - Apprendre  prédiction dans X

    • Méthodes par plus proches voisins

    • Nécessité d’unenotion de distance

    • Hypothèse de continuité dans X


    1 3 apprendre un jeu entre espaces l.jpg

    h

    x

    -

    -

    -

    -

    +

    +

    +

    -

    +

    +

    -

    +

    +

    -

    -

    -

    • Comment choisir l’espace des hypothèses (i.e. le langage LH) ?

    1.3- Apprendre = un jeu entre espaces

    • Cas particulier de l’apprentissage de concepts

    LH

    Espace des exemples : X

    Espace des hypothèses : H


    1 3 le crit re inductif l.jpg

    LH

    -

    h

    x

    -

    -

    -

    +

    +

    +

    -

    +

    +

    -

    +

    +

    -

    -

    X

    -

    H

    • Quel critère inductif ?

    • Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ?

    1.3- Le critère inductif


    1 3 l exploration de h l.jpg

    LH

    -

    h

    h

    x

    x

    -

    -

    ?

    ?

    -

    h

    +

    +

    x

    +

    -

    +

    +

    -

    +

    +

    -

    -

    X

    -

    H

    • Quelle méthode d’exploration de H ?

    1.3- L’exploration de H


    1 3 les interrogations fondamentales l.jpg

    1.3- Les interrogations fondamentales

    1. Théorique : Sous quelles conditions est-il possible de résoudre le problème de l’induction ?

    • De quelle information doit-on disposer ?

      • Dans les entrées (les exemples)

      • Dans l'espace d'hypothèse

    • Quel principe inductif doit-on utiliser ?

      2. Pratique : Comment explorer effectivement l’espace d’hypothèses ?


    1 3 trois ingr dients trois questions l.jpg

    1.3- Trois ingrédients : trois questions

    • Quel critère inductif ?

      • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?

    • Quel espace d’hypothèses ?

      • Quel espace d’hypothèses est approprié ?

    • Comment explorer l’espace des hypothèses ?

      • Résolution d’un problème d’optimisation


    1 3 crit re de performance l.jpg

    1.3- Critère de performance

    • Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation)

    Loi de probabilité

    jointe sur XY

    Fonction de perte

    Étiquette

    prédite

    Étiquette vraie

    (ou désirée)


    1 3 exemples de fonctions de perte l.jpg

    1.3- Exemples de fonctions de perte

    • Discrimination

    • Régression

    • Estimation de densité


    Slide69 l.jpg

    Les grands principes inductifs

    • Principe de minimisation du risque empirique (ERM)

    • Principe du maximum de vraisemblance (approche bayésienne)

    • Principe de compression maximale


    1 3 i le principe inductif erm l.jpg

    1.3- (i) Le principe inductif ERM

    • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).

    • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique


    1 3 ii approche bay sienne l.jpg

    1.3- (ii) Approche bayésienne

    • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h)

      Principe du Maximum A Posteriori(MAP):

    • On cherche l’hypothèse h la plus probable après observation des données S

      • Exemple : le 11 septembre 2001


    1 3 iii principe de compression maximale l.jpg

    1.3- (iii) Principe de compression maximale

    • Inspiration : la théorie du codage de l’information

      • Rasoir d’Occam

      • On suppose qu’il existe :

        • un coût associé à la transmission d’un codage (modèle des données) : L(h)

        • un coût associé à la transmission des données brutes (E.D. h) : L(x|h)

      • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données


    1 3 choix de l espace d hypoth ses l.jpg

    -

    +/- ?

    -

    -

    -

    +

    +

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    hi

    +

    -

    +

    +

    -

    +

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    x

    +

    -

    hk

    x

    hj

    x

    -

    -

    X

    Espace des exemples :

    Espace des hypothèses : H

    1.3- Choix de l’espace d’hypothèses

    • Apprendre (pour prédire) est impossible …

      … sans limitation sur l’espace des hypothèses


    1 3 notion de biais l.jpg

    1.3- Notion de biais

    Toute connaissance qui restreint le champ des hypothèsesque l'apprenant doit considérer à un instant donné.

    • On ne peut pas apprendre sans biais

    • Plus le biais est fort, plus l’apprentissage est facile

      • Bien choisir le biais


    1 3 choix de l espace d hypoth ses75 l.jpg

    1.3- Choix de l’espace d’hypothèses

    • Il faut contrôler l’expressivité de l’espace d’hypothèses

    • Analyse statistique de l’induction [Vapnik, …]

    Terme dépendant de

    la « richesse » de H


    1 3 r ponses qualitatives l.jpg

    1.3- Réponses … qualitatives

    1.De quelle information doit-on disposer ?

    • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

      1'. Quel principe inductif ?

    • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus

    • Un nouveau principe : minimiser à la fois

      • l'erreur sur l'échantillon d'apprentissage

      • ET une mesure de la richesse de H


    1 3 r sum d finition d un probl me d apprentissage l.jpg

    1.3- Résumé : définition d’un problème d’apprentissage

    • Des acteurs

      • L’environnement

      • L’oracle

      • L’apprenant

    • Une tâche d’apprentissage

      • Discrimination (ou classification multiclasses) / régression / estimation de densité

    • Un principe inductif

      • ERM (et dérivés) / Bayésien / compression d’information

    • Un espace d’hypothèses (avec sélection automatique)

    un protocole

    d’apprentissage

    • Choix d’une méthode d’apprentissage (et d’un algorithme)


    1 4 relation d inclusion et relation de g n ralit l.jpg

    1.4- Relation d’inclusion et relation de généralité

    Vers la généralisation


    1 4 la relation de g n ralit induite dans h l.jpg

    1.4- La relation de généralité induite dans H

    Relation de généralité dans H induite parlarelation d'inclusion dans X


    1 4 le choix d une m thode d apprentissage l.jpg

    1.4- Le choix d’une méthode d’apprentissage

    Dépend fondamentalement de l’espace des hypothèses H

    • Structuré par une relation de généralité (ordre partiel)

      • Toutes les méthodes guidées par cette relation

        • Espace des versions

        • PLI (Programmation Logique Inductive)

        • EBL, reformulation en général et révision de théorie

        • Inférence grammaticale

    • Seulement une notion de voisinage dans H

      • Méthodes de « gradient »

        • Réseaux de neurones / SVMs

        • Recuit simulé / algorithmes d’évolution simulée

        • Réseaux bayésiens / HMMs

    • Pas d’espace d’hypothèses

      • Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning)

    h

    x

    H


    1 4 autres crit res de choix l.jpg

    1.4- Autres critères de choix

    • Intelligibilité des résultats (hypothèses produites)

      • E.g. exit les réseaux de neurones

    • Performances en généralisation

      • Pas toujours en adéquation totale avec le point précédent

    • Coûts

      • de préparation (des données)

      • coût computationnel (coût d’une passe et nombre de passes nécessaires, …)

      • coût de l’expertise en apprentissage

      • coût de l’expertise sur le domaine


    Cours 1 plan82 l.jpg

    Cours 1: plan

    1- Introduction à l’induction

    1.1- Visages de l’apprentissage

    1.2- Des algorithmes

    1.3- Approche plus formelle de l’induction

    1.4- Apprentissage par exploration


    2 1 le principe inductif erm l.jpg

    2.1- Le principe inductif ERM

    • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).

    • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique


    2 2 le principe erm est il pertinent l.jpg

    2.2- Le principe ERM est-il pertinent ?

    • h* : hypothèse optimale dans H suivant le risque réel

    • hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm


    2 2 analyse du principe de minimisation du risque empirique l.jpg

    2.2- Analyse du principe de minimisation du risque empirique

    • Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit l’hypothèse minimisant le risque empirique sur un échantillon Sm ?


    2 3 les facteurs le compromis biais variance l.jpg

    2.3- Les facteurs : le compromis biais-variance


    2 3 les facteurs le compromis biais variance87 l.jpg

    2.3- Les facteurs : le compromis biais-variance


    3 analyse statistique du principe erm l.jpg

    3- Analyse statistique du principe ERM

    • Étude de la corrélation entre :

    et

    • Cette corrélation fait intervenir :

      • RRéel(hS) - RRéel(h*) nécessairement ≥ 0 (pourquoi ?)

      • La probabilité que cette différence soit supérieure à une borne donnée

        • car hS dépend de la représentativité de l’échantillon d’apprentissage Sm


    3 analyse statistique du principe erm suite l.jpg

    3- Analyse statistique du principe ERM (suite)


    3 analyse statistique du principe erm suite90 l.jpg

    3- Analyse statistique du principe ERM (suite)


    3 analyse statistique du principe erm suite91 l.jpg

    3- Analyse statistique du principe ERM (suite)


    3 pertinence consistance du principe erm l.jpg

    3- Pertinence (consistance) du principe ERM

    • On dit que le principe ERM est pertinent (ou consistant) si le risque réel inconnu R(hS) et le risque empiriqueREmp(hS) convergent vers la même limite R(h*) lorsque la taille m de l’échantillon S tend vers .


    3 1 le cas de la discrimination l analyse pac l.jpg

    3.1- Le cas de la discrimination : l’analyse PAC

    • Contexte :

      • Discrimination

      • Fonction de perte l : {0,1}

      • F = H

      • H : espace fini

  • L’apprentissage consiste alors à éliminer toutes les hypothèsesnon cohérentes avec les données et à en choisir une parmi les restantes

    Quelle est la probabilité qu’une hypothèse de risque empirique nul    soit de fait de risque réel ≥ e ? (0 ≤ e ≤ 1)


  • 3 2 le cas de la discrimination l analyse pac l.jpg

    3.2- Le cas de la discrimination : l’analyse PAC

    • Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe dans la zone d’erreur entre herr et la fonction cible f


    3 2 le cas de la discrimination l analyse pac95 l.jpg

    3.2- Le cas de la discrimination : l’analyse PAC

    Raisonnement par l’absurde

    • Supposons une hypothèse de risque réel > e

    • Quelle est la probabilité que son risque empirique soit nul après observation d’un échantillon de m exemples tirés i.i.d. suivant la distribution DX ?

    • Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - e

    • Après observation de m exemples i.i.d., elle est : (1 - e)m


    3 2 le cas de la discrimination l analyse pac96 l.jpg

    3.2- Le cas de la discrimination : l’analyse PAC

    Quelle est la probabilité qu’une hypothèse au moins dans H « survive » ?

    • Événements disjoints :

      • Donc borné par : |H| (1 - e)m < | H | e-em

    • Il suffit donc d’avoir un échantillon de taille

    • pour que le risque réel de l’hypothèse hS minimisant le risque empirique soit borné par e avec une probabilité 1 - d


    3 2 le cas de la discrimination l analyse pac97 l.jpg

    3.2- Le cas de la discrimination : l’analyse PAC

    Pourquoi PAC ?

    • Les hypothèses qui « survivent » sont approximativement correctes (i.e. à moins de e de la fonction cible)

    • Avec une certitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - d)

  • Probablement Approximativement Correct


  • 3 3 les le ons l.jpg

    3.3- Les leçons

    • La cardinalité de H (en un certain sens la « richesse » de H) intervient directement dans la borne d’erreur

    • Le raisonnement implique l’ensemble des hypothèsesH : argument de convergence uniforme

    • L’idée directrice de la démonstration consiste à borner la probabilité qu’une zone d’erreur de poids > e ne soit pas atteinte par un exemple au moins de l’échantillon d’apprentissage


    3 4 extension l analyse de vapnik l.jpg

    3.4- Extension : l’analyse de Vapnik

    • Contexte : une généralisation

      • N’importe quel type de fonctions hypothèses

      • N’importe quel type de fonction de perte (> 0 et bornée)

      • F éventuellement ≠ H (apprentissage agnostique)

      • H : espace infini

  • Ici, on va cependant se limiter au cas de la discrimination

    • Risque empirique :


  • 3 4 extension l analyse de vapnik100 l.jpg

    3.4- Extension : l’analyse de Vapnik

    • Définition (Fonction de croissance) : La fonction de croissance GH d’une famille Hde fonctions h à valeurs dans {0,1} associe à tout entier positif m le nombre maximal de dichotomies réalisées par les fonctions de H sur un ensemble de m points de X.


    3 4 extension l analyse de vapnik101 l.jpg

    3.4- Extension : l’analyse de Vapnik

    • Théorème (Vapnik, 98) : Pour toute valeur de d dans ]0,1], simultanément pour toutes les fonctions h de H, avec une probabilité au moins de 1 - d, on a :

    Terme dépendant de

    la « richesse » de H


    3 4 extension l analyse de vapnik102 l.jpg

    3.4- Extension : l’analyse de Vapnik

    • Problème angoissant : comment croît la fonction de croissance GH(m) ?

      • Si elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique (ERM) !!!

    • Définition (Dimension de Vapnik-Chervonenkis, 1971)La dimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.

      Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la taille du plus grand sous-ensemble de Xpulvérisé par H.


    3 4 extension l analyse de vapnik103 l.jpg

    3.4- Extension : l’analyse de Vapnik


    3 4 un lemme sauveur le lemme de sauer 1972 l.jpg

    3.4- Un lemme sauveur : le lemme de Sauer (1972)

    • Si H est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors, pour m supérieur à dH, sa fonction de croissance est bornée :


    3 4 qu est ce que cela signifie l.jpg

    3.4- Qu’est-ce que cela signifie ?

    • Cas de fonctions de discrimination et H = F

    • La convergence du risque empirique vers le risque réel est exponentiellement rapide, et ceci pour toutes les fonctions de H

      • E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par d est :

    linéaire en dH !!


    3 4 le take home message l.jpg

    3.4- Le « take-home » message

    • Pour que le principe ERM soit pertinent, il faut que la dimension de Vapnik-Chervonenkis dH soit finie

    • Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0 comme:

      • dans le cas général

      • dans le cas où H = F


    3 4 quelques exemples de dimensions de vc l.jpg

    3.4- Quelques exemples de dimensions de VC


    3 5 vers d autres principes inductifs l.jpg

    3.5- Vers d’autres principes inductifs

    • Reconsidérons l’équation (valable pour la discrimination et H = F)

    • Plutôt que de chercher seulement l’hypothèse minimisant le risque empirique (valable seulement si m/dH très grand), il faut aussi tenir compte des caractéristiques de l’espace des hypothèses H, et chercher une hypothèse satisfaisant au mieux un compromis entre :

      • un risque empirique faible : bonne adéquation aux données

      • et un espace d’hypothèse d’expressivité bien réglée


    3 5 les m thodes par s lection de mod les l.jpg

    3.5- Les méthodes par « sélection de modèles »

    • Méthodes cherchant à régler le compromis par réglage automatique de l’espace d’hypothèses (modèles)

      • Le SRM (Structural Risk Minimization)

      • La théorie de la régularisation

      • Le MDLp

      • Les approches bayésiennes


    3 5 le srm l.jpg

    3.5- Le SRM

    • La procédure s’appuie sur une structure sur H définie a priori


    3 5 la th orie de la r gularisation l.jpg

    3.5- La théorie de la régularisation

    • Issue de l’étude des problèmes « mal posés » (plusieurs solutions)

    • Il faut imposer des conditions supplémentaires

      • Contraindre l’espace des paramètres si H = {fonctions paramétrées}

      • Imposer des conditions de régularité (e.g. dynamique limitée)


    3 5 le mdlp minimum description length principle l.jpg

    3.5- Le MDLp (Minimum Description Length principle)

    • On suppose qu’il existe :

      • un coût associé à la transmission des données brutes (mesuré en bits) : L(x)

      • un coût associé à la transmission d’un codage (modèle des données) : L(h)

    • On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données


    3 6 en d autres mots notion de biais l.jpg

    3.6- En d’autres mots … Notion de biais

    Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné.

    • Biais de représentation

      • On ne peut pas apprendre sans biais

      • Plus le biais est fort, plus l’apprentissage est facile

      • Bien choisir le biais

    • Biais de préférence

      • Dû au contrôle de la recherche

      • Critère de choix entre hypothèses

        • Simplicité, complétude, intelligibilité, facilité d’évaluation, ...

      • Dû au protocole

        • Stratégie éducative (si apprentissage incrémental)


    3 6 en d autres mots r ponses qualitatives l.jpg

    3.6- En d’autres mots … Réponses qualitatives

    1.De quelle information doit-on disposer ?

    • Compromis entre taille de l'échantillon d'apprentissage nécessaire ET "richesse" de l'espace d'hypothèses

      1'. Quel principe inductif ?

    • Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en pariant que l'erreur sera également minimisée sur les exemples non vus

    • Un nouveau principe : minimiser à la fois

      • l'erreur sur l'échantillon d'apprentissage

      • ET une mesure de la richesse de H


    3 7 le no free lunch theorem l.jpg

    3.7- Le no-free-lunch theorem


    3 7 le no free lunch theorem116 l.jpg

    3.7- Le no-free-lunch theorem


    Cours 1 plan117 l.jpg

    Cours 1: plan

    1- Introduction à l’induction

    1.1- Visages de l’apprentissage

    1.2- Des algorithmes

    1.3- Approche plus formelle de l’induction

    1.4- Apprentissage par exploration


    1 4 trois questions fondamentales l.jpg

    1.4- Trois questions fondamentales

    • Quel critère inductif ?

      Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?

    • Quel espace d’hypothèses ?

      Quel espace d’hypothèses est approprié :

      • Pour la tâche

      • Pour que l’induction soit possible

  • Comment explorer l’espace des hypothèses ?

    Résolution d’un problème d’optimisation :

    • recherche d’une bonne hypothèse dans un espace de possibilités afin de satisfaire le critère inductif


  • 1 4 apprendre explorer un espace d hypoth ses l.jpg

    1.4- Apprendre = explorer un espace d’hypothèses

    • Comment choisir une (des) hypothèse(s) ?

    • Notion de biais de représentation


    1 4 apprendre explorer un espace d hypoth ses120 l.jpg

    Nouvel

    -

    exemple

    -

    -

    hi

    -

    x

    ?

    +

    -

    +

    ?

    +

    -

    +

    +

    hk

    x

    -

    +

    +

    x

    hj

    -

    -

    -

    Espace des exemples : X

    Espace des hypothèses : H

    1.4- Apprendre = explorer un espace d’hypothèses

    • Exploration de l’espace d’hypothèses

    • Mesure de l’adéquation de l’hypothèse (critère de succès)


    1 4 apprendre explorer un espace d hypoth ses121 l.jpg

    1.4- Apprendre = explorer un espace d’hypothèses

    Nouvel

    -

    exemple

    -

    -

    hi

    -

    x

    ?

    +

    -

    +

    ?

    +

    -

    +

    +

    hk

    x

    -

    +

    +

    x

    hj

    -

    -

    -

    Espace des exemples : X

    Espace des hypothèses : H

    • Exploration de l’espace d’hypothèses

    • guidée par les relations de généralités dans H


    1 4 induction et g n ralisation l.jpg

    1.4- Induction et généralisation

    Comment corriger une hypothèse défectueuse


    1 4 couverture des exemples par une hypoth se l.jpg

    1.4- Couverture des exemples par une hypothèse

    • h1 : complète mais incorrecte

    • h2 : correcte mais incomplète

    • h3 : complète et correcte : cohérente


    1 4 relation d inclusion et relation de g n ralit124 l.jpg

    1.4- Relation d’inclusion et relation de généralité

    Vers la généralisation


    1 4 relation d inclusion et relation de g n ralit125 l.jpg

    1.4- Relation d’inclusion et relation de généralité

    Vers la spécialisation


    1 4 la relation de g n ralit induite dans h126 l.jpg

    1.4- La relation de généralité induite dans H

    Relation de généralité dans H induite parlarelation d'inclusion dans X


    1 4 treillis de g n ralisation dans h l.jpg

    1.4- Treillis de généralisation dans H

    Ordre partiel dans H


    1 4 les op rateurs l.jpg

    1.4- Les opérateurs

    • Généralisation

      • Transforme une description en une description plus générale

    • Spécialisation

      • Duale de la généralisation

      • (En général : produit une description qui est une conséquence logique de la description initiale)

    • Reformulation

      • Transforme une description en une description logiquement équivalente


    1 4 op rateurs de g n ralisation l.jpg

    1.4- Opérateurs de généralisation

    • Règle d’abandon de conjonction

      • A & B  C => A  C

        ferrari & rouge  coûteux => ferrari  coûteux

    • Règle d’ajout d’alternative

      • A  C => AB  C

        ferrari  coûteux => ferrari  rouge  coûteux

    • Règle d’extension du domaine de référence

      • A & [B = R]  C => A & [B = R’]  C

        grand & [couleur = rouge]  coûteux => grand & [couleur rouge  bleu]  coûteux


    1 4 op rateurs de g n ralisation130 l.jpg

    Halogène

    Bromine

    Chlorine

    1.4- Opérateurs de généralisation

    • Règle de clôture d’intervalle

      • A & [B=v1]  C & A & [B = v2]  C => A & [B = v1 ... v2]  C

        grand & [coût = 100]  à acheter && grand & [coût = 150]  à acheter => grand & [coût = 100 .. 150]  à acheter

    • Règle de l’ascension dans l’arbre de hiérarchie

      • A & [B= n1]  C && A & [B= n2]  C => A & [B= N]  C

        corrosif & [élément = chlorine]  toxique

        corrosif & [élément = bromine]  toxique

        => corrosif & [élément = halogène]  toxique


    1 4 op rateurs de g n ralisation131 l.jpg

    1.4- Opérateurs de généralisation

    • Règle de variabilisation

      • F(a) & F(b) & ...  C => v, F(v)  C

        grand(sommet_objet) & grand(fond_objet) & ...  C

        =>  partie, grand(partie)  C

    • Règle de changement de conjonction en disjonction

      • A & B  C => AB  C

        grand & rouge  coûteux => grand rouge coûteux

    • Règle d’extension du domaine de quantification

      •  v, F(v)C => v, F(v)  C

         partie, grand(partie)C => partie, grand(partie) C


    1 4 op rateurs de g n ralisation132 l.jpg

    1.4- Opérateurs de généralisation

    • Inversion de la résolution

      • A & B  C && ¬A & D  C => BD  C

        vieux & grand  C && ¬ vieux & rouge  C => grandrouge  C

    • Règle anti-extension

      • A & [B=v1]  C && D & [B=v2]  ¬C=> [B ≠ v2]  C

    • Règle constructive de généralisation (modifiant les descripteurs)

      • A & B  C && D  C=> A & D  C


    1 4 repr sentation de l espace des versions l.jpg

    1.4- Représentation de l'espace des versions

    Observation fondamentale :

    L'espace des versions structuré par une relation d'ordre partiel peut être représenté par :

    • sa borne supérieure : le G-set

    • sa borne inférieure : le S-set

  • G-set = Ensemble de toutes les hypothèses les plus générales cohérentes avec les exemples connus

  • S-set = Ensemble de toutes les hypothèses les plus spécifiques cohérentes avec les exemples connus


  • 1 4 apprentissage l.jpg

    1.4- Apprentissage ...

    … par mise à jour de l'espace des versions

    Idée :

    maintenir le S-set

    et le G-set

    après chaque nouvel exemple

    • Algorithme d'élimination des candidats


    1 4 algorithme d limination des candidats l.jpg

    1.4- Algorithme d'élimination des candidats

    InitialiserS et G par (resp.) :

    • l'ensemble des hypothèses les plus spécifiques (les plus générales) cohérentes avec le 1er exemple positif connu.

      Pour chaque nouvel exemple (positifounégatif)

    • mettre à jour S

    • mettre à jour G

      Jusqu'à convergence

      ou jusqu'à ce que S = G = Ø


    1 4 mise jour de s l.jpg

    1.4- Mise à jour de S

    • xi est négatif

      • Eliminer les hypothèses de S couvrant (indûment) xi

    • xi est positif

      • Généraliser les hypothèses de S ne couvrant pas xi juste assez pour qu'elles le couvrent

      • Puis éliminer les hypothèses de S

        • couvrant un ou plusieurs exemples négatifs

        • plus générales que des hypothèses de S


    1 4 mise jour de g l.jpg

    1.4- Mise à jour de G

    • xi est positif

      • Eliminer les hypothèses de G ne couvrant pas xi

    • xi est négatif

      • Spécialiser les hypothèses de G couvrant xi juste assez pour qu'elles ne le couvrent plus

      • Puis éliminer les hypothèses de G

        • n'étant pas plus générales qu'au moins un élément de S

        • plus spécifiques qu'au moins une autre hypothèse de G


    1 4 algorithme d limination des candidats138 l.jpg

    1.4- Algorithme d'élimination des candidats

    Mise à jour des bornes S et G


    1 4 propri t s de l aec l.jpg

    1.4- Propriétés de l'AEC

    • Incrémentalité

    • Complexité ?

    • Utilisation si non convergence ?

    • Que signifie S = G = Ø ?

    • Possibilité d'"apprentissage actif" ?

    • Que faire si les données sont bruitées ?


    1 4 exemple le syst me lex 1 l.jpg

    1.4- Exemple : le système LEX (1)


    1 4 exemple le syst me lex 2 l.jpg

    1.4- Exemple : le système LEX (2)


    Ce qu il faut retenir l.jpg

    Ce qu'il faut retenir

    • C'est surtout l'induction supervisée qui est étudiée

    • Jeu entre espace des exemples et espace des hypothèses

    • On ne peut apprendre sans biais

    • La réalisation de l'apprentissage dépend de la structuration de l'espace des hypothèses

      • sans structure : méthodes par interpolation

      • notion de distance : méthodes par gradient (approximation)

      • relation d'ordre partiel : exploration guidée (exploration)


    1 5 approche actuelle les limites l.jpg

    • L’état de l’art actuel en apprentissage:

      • Données i.i.d. (indépendant et identiquement distribué)

      • Distribution statique

      • Données étiquetées

      • Classes approximativement équilibrées

    • Versus e.g. les besoins de la robotique

      • Données résultant :

        • De séquences

        • D’un apprentissage actif

      • Contexte changeant

      • Pauvrement étiquetées

    Données non i.i.d.

    1.5- Approche actuelle : les limites

    • L’état de l’art actuel en apprentissage:

      • Données i.i.d. (indépendant et identiquement distribué)

      • Distribution statique

      • Données étiquetées

      • Classes approximativement équilibrées


    1 5 perspective historique 1 l.jpg

    1.5- Perspective historique (1)

    Perceptron

    Expériences :

    tortues cybernétiques

    Reconnaissance des Formes :

    Théorie de la décision bayésienne

    Turing

    (naissance de

    l'informatique)

    Discriminant

    linéaire (Fisher)

    50s

    60s

    1936

    20s


    1 5 perspective historique 2 l.jpg

    1.5- Perspective historique (2)

    Apprentissage artificiel :

    une explosion

    Systèmes dédiés à une tâche :

    inspiration psychologique

    Induction supervisée

    Arbres de décision

    Algorithmes génétiques

    Explanation-Based Learning

    Raisonnement par cas

    META-DENDRAL

    2ème connexionnisme

    ARCH

    AM

    1976

    1978

    1970

    80s

    70s


    1 5 perspective historique 2146 l.jpg

    1.5- Perspective historique (2')

    • Systèmes à usage industriels


    1 5 perspective historique 3 l.jpg

    1.5- Perspective historique (3)

    Apprentissage artificiel :

    une théorisation

    et une mise à l'épreuve

    Nouvelles méthodes :

    - SVMs

    - Boosting

    Data mining

    Text mining

    Théorie de Vapnik

    1995

    00s

    90s


    1 5 perspective historique 4 l.jpg

    1.5- Perspective historique (4)

    • Maintenant

      • Domination sans partage du paradigme dominant

        • Apprentissage comme estimation / approximation de fonction

        • Données supposées tirées aléatoirement

        • Nouveau principe inductif : toujours prendre en compte l'espace d'hypothèses

      • Nouvelles techniques d'apprentissage issues de la théorie

        • Séparateurs à Vastes Marges (SVM : Support Vector Machines)

        • Boosting

      • Prépondérance des applications de fouille dans les grandes bases de données

        • Peu structurées

        • Données fournies en vrac

        • Nouvelles mesures de performance


    1 5 perspective historique l avenir l.jpg

    1.5- Perspective historique : l'avenir ?

    • Demain … ?

      • Retour vers des problèmes à données plus structurées

        • Exploration automatique de la toile (structure à tous les niveaux : grammatical, séquence, texte, discours, culture)

      • Nouveaux aspects

        • Nouvelles demandes :

          • Systèmes à longue durée de vie

          • Aide à l'éducation

          • Apprentissage collectif

        • Incrémentalité

        • Transferts d'une tâche à une autre, d'un domaine à un autre, d'un agent à un autre

      • Nouveaux problèmes

      • Nouvelles techniques


    1 5 o en est on l.jpg

    1.5 - Où en est-on ?


    1 5 questions l.jpg

    1.5- Questions ...

    • Peut-on apprendre n'importe quoi ?

    • Peut-on apprendre à partir de rien (tabula rasae) ?

    • Suffit-il d'avoir plus de neurones pour apprendre mieux ?

    • Quel lien entre généralisation et abstraction ?


    5 et programmes de recherche l.jpg

    5- ... et programmes de recherche

    • Phénomènes de transition de phase en induction

    • Vers une science du dynamique :

      • Quels sont les systèmes dépendants de l'ordre des entrées ?

      • Pour ceux-là, quel est l'ordre optimal de présentation des données ?

  • Apprentissage et … oubli

    • L'oubli peut-il être utile ?

  • Y a-t-il des passages obligés dans l'apprentissage de connaissances complexes ?

    • Ex : la notion d'impetus avant celle de force et d'inertie ?


  • Login