les svm s parateurs vastes marges support vector machines l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Les SVM : Séparateurs à Vastes Marges (Support Vector Machines) PowerPoint Presentation
Download Presentation
Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Loading in 2 Seconds...

play fullscreen
1 / 74

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines) - PowerPoint PPT Presentation


  • 769 Views
  • Uploaded on

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines). Antoine Cornuéjols IIE & CNRS - Université de Paris-Sud, Orsay antoine@lri.fr http://www.lri.fr/~antoine. Plan. 1- Introduction à l’induction 2- Ingrédients de l’apprentissage supervisé 3- Les SVMs

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)' - paul2


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
les svm s parateurs vastes marges support vector machines

Les SVM :Séparateurs à Vastes Marges(Support Vector Machines)

Antoine Cornuéjols

IIE & CNRS - Université de Paris-Sud, Orsay

antoine@lri.fr http://www.lri.fr/~antoine

slide2
Plan

1- Introduction à l’induction

2- Ingrédients de l’apprentissage supervisé

3- Les SVMs

4- Applications

5- Bilan

introduction l induction
Introduction à l’induction
  • Induction :

Proposer des lois générales à partir de l’observation de cas particuliers

types d apprentissages
Types d’apprentissages
  • Apprentissage supervisé
  • Apprentissage non supervisé
  • Apprentissage par renforcement
apprentissage supervis 1
Apprentissage supervisé (1)

À partir d’un échantillon d’apprentissageS= {(xi, ui)}1,mchercher une loi de dépendance sous-jacente

  • Par exemple une fonction h (hypothèse) aussi proche que possible de f (fonction cible) tq : ui = f(xi)
  • Ou bien une distribution de probabilités P(xi, ui)

afin de prédire l’avenir

apprentissage supervis 2
Apprentissage supervisé (2)
  • Si f est une fonction continue
    • Régression
    • Estimation de densité
  • Si f est une fonction discrète
    • Classification
  • Si f est une fonction binaire(booléenne)
    • Apprentissage de concept
apprentissage non supervis
Apprentissage non supervisé

D’un échantillon d’apprentissageS = {(xi)}1,mchercher des régularités sous-jacentes

  • Sous forme d’une fonction : régression
  • Sous forme de nuages de points (e.g. mixture de gaussiennes)
  • Sous forme d’un modèle complexe (e.g. réseau bayésien)

afin de résumer, détecter des régularités, comprendre …

app supervis le sc nario de base
App. Supervisé : le scénario de base

x1, x2, ..., xm

Environnement X :

distribution de prob. F(x)

“Oracle”

Sm = (x1,u1), (x2,u2), ..., (xm,um)

y1, y2, ..., ym

Apprenant : h (x)

x1, x2, ..., xm

apprendre pr diction dans x

+/- ?

-

-

-

-

+

+

+

-

+

+

-

+

+

-

-

-

X

Espace des exemples :

Apprendre  prédiction dans X
  • Méthodes par plus proches voisins
  • Nécessité d’unenotion de distance
  • Hypothèse de continuité dans X
apprendre un jeu entre espaces

h

x

-

-

-

-

+

+

+

-

+

+

-

+

+

-

-

-

  • Comment choisir l’espace des hypothèses (i.e. le langage LH) ?
Apprendre = un jeu entre espaces
  • Cas particulier de l’apprentissage de concepts

LH

Espace des exemples : X

Espace des hypothèses : H

le crit re inductif

LH

-

h

x

-

-

-

+

+

+

-

+

+

-

+

+

-

-

X

-

H

  • Quel critère inductif ?
  • Qu’est-ce qu’une hypothèse optimale étant donné l’échantillon d’apprentissage ?
Le critère inductif
l exploration de h

LH

-

h

h

x

x

-

-

?

?

-

h

+

+

x

+

-

+

+

-

+

+

-

-

X

-

H

  • Quelle méthode d’exploration de H ?
L’exploration de H
trois ingr dients trois questions
Trois ingrédients : trois questions
  • Quel critère inductif ?
    • Quelle hypothèse devrait-on choisir étant donné l’échantillon d’apprentissage ?
  • Quel espace d’hypothèses ?
    • Quel espace d’hypothèses est approprié ?
  • Comment explorer l’espace des hypothèses ?
    • Résolution d’un problème d’optimisation
crit re de performance
Critère de performance
  • Objectif : trouver une hypothèse hH minimisant le risque réel(espérance de risque, erreur en généralisation)

Loi de probabilité

jointe sur XY

Fonction de perte

Étiquette

prédite

Étiquette vraie

(ou désirée)

exemples de fonctions de perte
Exemples de fonctions de perte
  • Discrimination
  • Régression
  • Estimation de densité
slide16

Les grands principes inductifs

  • Principe de minimisation du risque empirique (ERM)
  • Principe du maximum de vraisemblance (approche bayésienne)
  • Principe de compression maximale
i le principe inductif erm
(i) Le principe inductif ERM
  • On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(X,Y).
  • Le principe ERM (minimisation du risque empirique) prescrit de chercher l’hypothèsehH minimisant le risque empirique
ii approche bay sienne
(ii) Approche bayésienne
  • On suppose qu’il existe une distribution de probabilités a priori sur l’espace H : pH(h)

Principe du Maximum A Posteriori(MAP):

  • On cherche l’hypothèse h la plus probable après observation des données S
    • Exemple : le 11 septembre 2001
iii principe de compression maximale
(iii) Principe de compression maximale
  • Inspiration : la théorie du codage de l’information
    • Rasoir d’Occam
    • On suppose qu’il existe :
      • un coût associé à la transmission d’un codage (modèle des données) : L(h)
      • un coût associé à la transmission des données brutes (E.D. h) : L(x|h)
    • On cherche le modèle (ou l’hypothèse) permettant la transmission la plus économique de l’échantillon de données
choix de l espace d hypoth ses
Choix de l’espace d’hypothèses
  • Il faut contrôler l’expressivité de l’espace d’hypothèses
  • Analyse statistique de l’induction [Vapnik, …]

Terme dépendant de

la « richesse » de H

d finition d un probl me d apprentissage
Définition d’un problème d’apprentissage
  • Des acteurs
    • L’environnement
    • L’oracle
    • L’apprenant
  • Une tâche d’apprentissage
    • Discrimination (ou classification multiclasses) / régression / estimation de densité
  • Un principe inductif
    • ERM (et dérivés) / Bayésien / compression d’information
  • Un espace d’hypothèses (avec sélection automatique)

un protocole

d’apprentissage

  • Choix d’une méthode d’apprentissage (et d’un algorithme)
la relation de g n ralit induite dans h
La relation de généralité induite dans H

Relation de généralité dans H induite parlarelation d'inclusion dans X

le choix d une m thode d apprentissage
Le choix d’une méthode d’apprentissage

Dépend fondamentalement de l’espace des hypothèses H

  • Structuré par une relation de généralité (ordre partiel)
    • Toutes les méthodes guidées par cette relation
      • Espace des versions
      • PLI (Programmation Logique Inductive)
      • EBL, reformulation, révision de théorie
      • Inférence grammaticale
  • Seulement une notion de voisinage dans H
    • Méthodes de « gradient »
      • Réseaux de neurones / SVMs
      • Recuit simulé / algorithmes d’évolution simulée
      • Réseaux bayésiens / HMMs
  • Pas d’espace d’hypothèses
    • Méthodes de plus proches voisins (Raisonnement par cas / Instance-based learning)

h

x

H

hyperplans s parateurs
Hyperplans séparateurs
  • Tâche de classification
    • Cas de la séparation linéaire

- On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b

- La surface de séparation est donc l’hyperplan :

- Elle est valide si

- L’hyperplan est dit sous forme canonique lorsque

ou encore

optimisation de la marge28
Optimisation de la marge
  • La distance d’un point à l’hyperplan est :
  • L’hyperplan optimal est celui pour lequel la distance aux points les plus proches (marge) est maximale. Cette distance vaut
  • Maximiser la marge revient donc à minimiser ||w|| sous contraintes:
svms un probl me d optimisation quadratique

EXPRESSION

PRIMAIRE

SVMs : un problème d’optimisation quadratique
  • Il faut donc déterminerwetw0minimisant :

(afin de maximiser le pouvoir de généralisation)

  • sous les contraintes (hyperplan séparateur) :
r solution de la forme primaire du probl me
Résolution de la forme primaire du problème

d : dimension de l’espace d’entrée

Il faut régler d + 1 paramètres

  • Possible quand d est assez petit avec des méthodes d'optimisation quadratique
  • Impossible quand d est grand (> qqs 103)
transformation du probl me d optimisation

EXPRESSION

DUALE

Transformation du problème d’optimisation
  • Méthode des multiplicateurs de Lagrange
  • Problème dual
propri t s de la forme duale
Propriétés de la forme duale
  • La conversion est possible car les fonctions de coût et les contraintes sont strictement convexes (Th. de Kuhn-Tucker)
  • La complexité du problème d'optimisation est
    • µm (taille de l'échantillon d'apprentissage)
    • et non µd( taille de l'espace d'entrée X )
    • Possible d'obtenir des solutions pour des problèmes impliquant ≈ 105 exemples
solution du probl me d optimisation

* : estimé

(xS,uS) étant

n'importe quel

point de support

Solution du problème d’optimisation

Propriété1 : seuls les i correspondant aux points les plus proches sont non-nuls. On parle de points de support(exemples critiques).

Propriété 2 : seuls interviennent les produits scalaires entre les observations x dans le problème d’optimisation.

probl mes non lin airement s parables dans x
Problèmes non linéairement séparables dans X

La majorité des problèmes !!!

Idée :

Si on projette dans un espace de redescription de très grande dimension ??

  • Presque toujours le problème devient linéairement séparable

Mais :

  • Fléau de la dimensionalité
  • dVC explose !!?
svm et redescription
SVM et redescription

Espace des

représentations

internes

Espace

d'entrées X

Espace

de sortie

F

h

x

y

Séparation

linéaire

Redescription

non linéaire

petite digression
Petite digression …

… La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)

la redescription des entr es illustration
La redescription des entrées : illustration
  • Soit un espace d’entrée à 2 dimensions
  • Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes d’ordre 6
  • Nouvel espace de descripteurs à 16 dimensions (fonctions de base):
le nouveau probl me d optimisation
Le nouveau problème d’optimisation
  • Soit  : X -> (X), on peut remplacer partout x par (x)
  • Si  est bien choisie, K(x, x’) = (x).(x’) peut être facile à calculer et le problème devient :
solution du nouveau probl me d optimisation
Solution du nouveau problème d’optimisation
  • La fonction de décision devient :
  • Soit dans la forme duale :

n : nb de fcts

de base

(peut être

très grand)

mS : nb de points

de support

les conditions de mercer
Les conditions de Mercer
  • Si on prend une fonction K symétrique, il existe une fonction  tq:
    • ssi, pour toute fonction f telle que :
    • l’on a :
  • Si cette condition est vérifiée, on peut appliquer les SVMs
  • MAIS cela ne dit pas comment construire 
fonctions noyau usuelles 1 2
Fonctions noyau usuelles (1/2)
  • Polynomiale :

Les polynomes de degré qont pour fonction noyau associée :

  • RBF :

Les fcts à base radiale :

ont pour fct noyau associée :

  • Sigmoïde :

Les réseaux de neurones à fcts d'activation :

ont pour fct noyau associée :

fonctions noyau usuelles 2 2
Fonctions noyau usuelles (2/2)
  • Construction à partir de fonctions noyau de base(Propriétés de clôture)
      • K(x,z) = K1(x,z) + K2(x,z)
      • K(x,z) = aK1(x,z)
      • K(x,z) = K1(x,z) . K2(x,z)
  • Construction de fonctions noyau dédiées
    • Splines Bm
    • Expansion de Fourrier
    • Ondelettes
    • ...
les fonctions noyau
Les fonctions noyau
  • … encodent :
    • Une mesure de similarité sur les données
    • La forme fonctionnelle des fonctions de décision
    • Le type de régularisation réalisée
      • (ex : les fcts gaussiennes favorisent les solutions régulières)
    • Le type de covariance dans l’espace des entrées
      • (ex : fcts noyau invariantes par rotation)
    • Sorte de distribution de probabilité a priori sur l’espace des hypothèses
illustration l e cas du xor
Illustration : le cas du XOR

Fonction noyau polynomiale de d° 2 :

K(x,x') = [1 + (xT . x')]2

soit : K(x,xi ) = 1 + x12xi12 + 2 x1x2xi1xi2 + x22xi22 + 2x1xi1 + 2x2xi2

correspondant à la projection F :

[1, x12, √2 x1x2, x22, √2 x1, √2 x2 ] T

illustration l e cas du xor47
Illustration : le cas du XOR
  • L'optimisation de Q(a) en fonction des multiplicateurs de Lagrange conduit au système d'équations :
  • La valeur optimale des multiplicateurs de Lagrange est :
illustration l e cas du xor48
Illustration : le cas du XOR
  • Les 4 exemples sont donc des exemples critiques ("support vectors") (i , ai ≠ 0)
  • La fonction de décision s’écrit :
illustration l e cas du xor49
Illustration : le cas du XOR

En revenant dans l’espace d’origine :

Le vecteur poids optimal est :

soit :

illustration l e cas du xor50
Illustration : le cas du XOR

L'hyperplan optimal correspond à :

illustration l e cas du xor51
Illustration : le cas du XOR

Séparatrice dans l'espace d'entrée

D(x) = -x1x2

Séparatrice dans l'espace F(X)

(espace à 6 dimensions)

cas du probl me non s parable marges douces
Cas du problème non séparable : marges douces
  • On introduit des variables “ressort” qui pénalisent l’erreur commise :
  • Le problème dual a la même forme à l’exception d’une constante C
la mise en pratique
La mise en pratique
  • Il faut choisir :
    • Le type de fonction noyau K
      • Sa forme
      • Ses paramètres
    • La valeur de la constante C
  • La sélection rigoureuse de ces paramètres exige une estimation de la dimension de Vapnik-Chervonenkis et l’application de la borne de généralisation 
    • Dans le cas séparable, il est possible de déterminer ces paramètres
    • Dans le cas non séparable, il faut tester avec des méthodes empiriques pour faire le meilleur choix
exemple
Exemple

: exemple +

• : exemple -

Dans cercle : points de support

Fct noyau polynomiale de degré 3

Démo :

http://svm.research.bell-labs.com/

http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

effet des param tres de contr le
Effet des paramètres de contrôle
  • Apprentissage de deux classes
    • exemples tirés uniformément sur l'échiquier
  • SVM à fonctions noyau gaussienne
  • Ici deux valeurs de s
    • En haut : petite valeur
    • En bas : grande valeur
  • Les gros points sont des exemples critiques
    • Plus en haut qu'en bas
  • Dans les deux cas : Remp = 0
param tres de contr le les fonctions noyau
Paramètres de contrôle : les fonctions noyau
  • http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
  • 47 exemples (22 +, 25 -)
  • Exemples critiques : 4 + et 3 -
  • Icifonction polynomialede degré 5etC = 10000
param tres de contr le les fonctions noyau58
Paramètres de contrôle : les fonctions noyau
  • 47 exemples (22 +, 25 -)
  • Exemples critiques : 4 + et 3 -

(5-, 4+)

(5-, 4+)

(3-, 4+)

Icifonction polynomialede degré 2, 5, 8 etC = 10000

(10-, 11+)

(8-, 6+)

(4-, 5+)

Icifonction Gaussiennede s = 2, 5, 10, 20 etC = 10000

ajout de quelques points
Ajout de quelques points ...
  • http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
  • 47 + 8 exemples (30 +, 25 -)
  • Exemples critiques : 5 + et 8 -
  • Icifonction polynomialede degré 5etC = 10000
domaines d application des svms
Domaines d’application des SVMs
  • Traitement d’images
      • Reconnaissance de caractères manuscrits
      • Reconnaissance de scènes naturelles
      • Reconnaissance de visages
    • Entrées : image bidimensionnelle en couleur ou en niveaux de gris
    • Sortie : classe (chiffre / personne)
domaines d application des svms61
Domaines d’application des SVMs
  • Images : 256 * 256 (100 niveaux de gris)
  • Codées en : 16 * 16 (niveaux de gris) + mêmes par 4 opérateurs différentiels à une dimension (|,-,/,\) = 1280 pixels (5 * 16 * 16)
  • 25 objets pris sous 25, 89 ou 100 points de vue (ens. d’apprentissage)

[Thèse B. Schölkopf, 1997]

domaines d application des svms62
Domaines d’application des SVMs
  • Résultats avec noyaux polynomiaux
application images couleurs
Application : images couleurs
  • Base d’images Corel Stock Photo Collection
      • 200 catégories
      • 100 images / catégorie
  • Codage
    • Pixel = vecteur dans espace à trois dimensions (RGB)
    • Image = histogramme (fraction des pixels d’une couleur donnée)

Invariant / nombreuses opérations

  • Noyau :

(fonction c2)

domaines d application des svms64
Domaines d’application des SVMs
  • Catégorisation de textes
      • Classification d’e-mails
      • Classification de pages web
    • Entrées : document (texte ou html)
      • Approche « sac de mots »
      • Document = vecteur de mots (lemmatisés pondérés par tf-idf)
    • Sortie : catégorie (thème, spam/non-spam)
    • Noyau :
      • Produit scalaire des vecteurs
      • C = ¥ (marge dure)
domaines d application des svms65
Domaines d’application des SVMs
  • Diagnostic médical
      • Évaluation du risque de cancer
      • Détection d’arythmie cardiaque
      • Évaluation du risque d’accidents cardio-vasculaires à moins de 6 ans
    • Entrées : état du patient (sexe, age, bilan sanguin, …)
    • Sortie :
      • Classe : à risque ou non
      • Probabilité d’accident à échéance donnée
domaines d application des svms66
Domaines d’application des SVMs
  • Dans les deux cas :
    • Pas d’information de structure
    • Seulement des informations globales
domaines d application des svms67
Domaines d’application des SVMs
  • Étude de séquences en bio-informatique
      • Biologie structurale prédictive (prédiction de structure secondaire du génome)
      • Identification de régions codantes de l’ADN génomique
      • Phylogénie …
    • Entrées : chaînes d’acides aminées
    • Sortie :
      • Structure secondaire
      • Intron / exon
      • Ancêtre
    • Noyau relationnel :
      • Modèle génératif (chaînes de Markov : insertion, délétion, remplacement, …)
impl mentation des svms
Implémentation des SVMs
  • Minimisation de fonctions différentiables convexes à plusieurs variables
    • Pas d’optima locaux
    • Mais :
      • Problèmes de stockage de la matrice noyau (si milliers d’exemples)
      • Long dans ce cas
    • D’où mise au point de méthodes spécifiques
      • Gradient sophistiqué
      • Méthodes itératives, optimisation par morceaux
    • Plusieurs packages publics disponibles
      • SVMTorch
      • SVMLight
      • SMO
extensions
Extensions
  • Classification multi-classes
  • Régression
  • Détection de « nouveautés »
  • Analyse en composantes principales par noyaux
svm et r gression
SVM et régression
  • Fonction de perte :
  • Régression linéaire :
  • Soit à minimiser :
  • Généralisation :
svm et apprentissage non supervis
SVM et apprentissage non supervisé
  • Détection de « nouveautés »

On cherche à séparer au maximum le nuage de points de l’origine

pourquoi a marche
Pourquoi ça marche ?

La marge est liée à la capacité en généralisation

  • Normalement, la classe des hyperplans de Rd est de dH = d + 1
  • Mais la classe des hyperplans de marge est bornée par : dH ≤ Min (R2c, d) + 1

où R est le rayon de la plus petite sphère englobant l'échantillon d'apprentissage S

  • Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X
bilan
Bilan
  • SVMs très utilisés
    • Méthode générale
    • Facile d’emploi
  • Résultatsen général équivalents et souvent meilleurs
  • Stimulent tout un ensemble de travaux sur des méthodes à base de noyaux (kernel-based methods)
  • Limites
    • Problèmes i.i.d. (données indépendantes et identiquement distribuées)
sources documentaires
Sources documentaires
  • Ouvrages / articles
    • Cornuéjols & Miclet (02) : Apprentisage artificiel. Concepts et algorithmes. Eyrolles, 2002.
    • Cristianini & Shawe-Taylor (00) : Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000.
    • Herbrich (02) : Learning kernel classifiers. MIT Press, 2002.
    • Schölkopf, Burges & Smola (eds) (98) : Advances in Kernel Methods : Support Vector Learning. MIT Press, 1998.
    • Schölkopf & Smola (02) : Learning with kernels. MIT Press, 2002.
    • Smola, Bartlett, Schölkopf & Schuurmans (00) : Advances in large margin classifiers. MIT Press, 2000.
    • Vapnik (95) : The nature of statistical learning. Springer-Verlag, 1995.
  • Sites web
    • http://www.kernel-machines.org/(point d’entrée)
    • http://www.support-vector.net(point d’entrée)