1 / 96

RECONNAISSANCE DE FORMES

RECONNAISSANCE DE FORMES. approche statistique pour les objets « simples » : mesure sur des objets par exemple en chaîne de production « bons » et « mauvais ». B. approche structurelle : description d’objets complexes sous forme de

gershom
Download Presentation

RECONNAISSANCE DE FORMES

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. RECONNAISSANCE DE FORMES • approche statistique pour les objets « simples » : mesure sur des objets • par exemple en chaîne de production « bons » et « mauvais » B. approche structurelle : description d’objets complexes sous forme de graphes liant des objets plus simples pour représenter ces objets complexes ECRITURE MANUSCRITE SIGNATURE VISAGES, BIOMETRIE OBJETS ET ENVIRONNEMENT EN ROBOTIQUE idée à retenir : tout cela ne marche pas très bien les approches sont encore élémentaires ; on ne sait pas encore mimer le fonctionnement cérébral

  2. A. approche statistique approche standard en reconnaissance de formes d’objets « simples » (classification) un objet analysé à reconnaître est représenté sous la forme d’un vecteur de paramètres nécessité d’un apprentissage dans le même espace, on dispose de formes types, apprises au préalable correspondant aux objets à reconnaître reconnaître l’objet c’est décider que le vecteur caractérisant l’objet analysé à reconnaître est suffisamment proche d’un des vecteur mémorisés lors de l’apprentissage approche probabiliste ; théorie de la décision (critère de bayes et de neyman pearson) problèmes : bruit, préanalyse incorrecte (contours, régions) fluctuations importantes d’un objet à l’autre http://www.ee.columbia.edu/~sfchang/course/spr/

  3. Approche statistique Reconnaissance de formes Un objet est décrit comme un ensemble de paramètres (un vecteur de dimension réduite) longueur largeur

  4. Il y a des fluctuations d’un objet à l’autre Chaque groupe (classe) est associée à un nuage de points Comment décide t on de l’appartenance à une classe ? longueur longueur L L R R largeur largeur Formalisation probabiliste

  5. séparation de l’espace des paramètres en régions mesure de paramètres objet représenté par un vecteur

  6. représenter les classes sous forme de densités de probabilités

  7. maximiser la probabilité d’appartenance à une classe

  8. Probabilité d’appartenance à un des deux groupes

  9. Seuil s en dessous duquel on décide que x appartient à la classe L s Evaluation de la probabilité d’erreur Rapport de vraisemblance Extension : test d’hypothèse en statistique (critère de Neyman Pearson)

  10. Notions de Théorie de la Décision décider si un élément caractérisé par un vecteur de paramètres appartient à une classe ou à une autre séparatrice

  11. probabilité d’erreur évaluer le coût des erreurs de décision en déduire le critère de décision deux approches classiques élémentaire : Bayes plus élaboré : Neyman Pearson

  12. Approche bayesienne y réel, peut être produit uniquement par une cause u qui ne prend que les valeurs 0 ou 1 ; probabilités pour que u = 0 ou 1, q0 et q1,  connues Si la cause est u = 0 , la loi de probabilité de y est p(y|u = 0)  si la cause est u = 1 , la loi de probabilité de y est p(y|u = 1)

  13. Le problème de la décision : on a mesuré y ; choisir parmi les deux propositions (d = 0 et d = 1): ‘y a été causé par u = 0’ ou ‘y a été causé par’ u = 1 ; il faut se donner une fonction de pénalité : les quatre coûts associés aux situations possibles c(0|0) quand on choisit d = 0 et que la vraie valeur est u = 0 c(0|1) quand on choisit d = 0 et que la vraie valeur est u = 1 c(1|0) quand on choisit d = 1 et que la vraie valeur est u = 0 c(1|1) quand on choisit d = 1 et que la vraie valeur est u = 1

  14. Pour une valeur de y mesurée, on choisira d = 0 si le coût associé à ce choix est moins élevé que le coût associé au choix d = 1 Calcul de la valeur moyenne du coût associé au choix u = 0 en tenant compte du fait que cette valeur de y a pu avoir une des deux causes

  15. u=0 & d=0 p(y|u=0).q0 p(y|u=0).q0 u=0 & d=1 p(y|u=1).q1 u=1 & d=1 u=1 & d=0 p(y|u=1).q1 les probabilités associées les quatre possibilités de choix

  16. d = 1 d = 0 c(1|0) p(y|u=0).q0 + c(1|1)p(y|u=1).q1 c(0|0) p(y|u=0).q0+ c(0|1)p(y|u=1).q1 Les coûts moyens associés aux décisions sont obtenus en considérant pour chaque décision les probabilités des valeurs possibles de u : On choisit d = 0 si, en moyenne, cela coûte moins que de choisir d = 1, c(0|0) p(y|u=0).q0+ c(0|1)p(y|u=1).q1 < c(1|0) p(y|u=0).q0 + c(1|1)p(y|u=1).q1,

  17. c(0|0) p(y|u=0).q0+ c(0|1)p(y|u=1).q1< c(1|0) p(y|u=0).q0 + c(1|1)p(y|u=1).q1, (c(0|1) - c(1|1))p(y|u=1).q1< (c(1|0) - c(0|0) )p(y|u=0).q0 . hypothèse : coûts des mauvaises décisions plus élevés que coûts des décisions correctes (c(0|0)< c(1|0) et c(1|1)< c(0|1)), on choisira d = 0 lorsque

  18. Un exemple : deux lois de probabilités conditionnelles gaussiennes

  19. choix des valeurs des pénalités Pour minimiser le critère, on choisira l’hypothèse u = 1 si y est dans l’intervalle (ymin=0.87 , ymax=1.21) ; si y est en dehors de cet intervalle, on choisira u = 0.

  20. probabilité de détection correcte probabilité d’erreur (fausse alarme)

  21. Règle de Bayes : définition des probabilités conditionnelles On écrit de deux manières différentes p(u = 0| y) peut être écrit en fonction de p(y|u = 0)  la probabilité p(y) s’écrit en fonction des probabilités conditionnelles et on en déduit .

  22. Critère de Neyman Pearson probabilités a priori des causes q0 = p(u=0) et q1 = p(u=1) inconnues. décider si une mesure x correspond à l’émission d’une donnée u = 0, et dans ce cas la densité de probabilité de x est p0(x) ; ou si elle correspond à l’émission u = 1, et dans ce cas la densité de probabilité de x est p1(x) ; maximiser la probabilité de détection correcte (ici u=1) sous la contrainte que la probabilité de fausse alarme ne dépasse pas un seuil fixé a priori

  23. les densités de probabilités des événements : rouge : il y a erreur vert : la détection est correcte quand faut il décider qu’il y a effectivement détection? (elle ne peut pas toujours être correcte) calcul sur un domaine xmin<xmax des probabilités de fausse alarme et de détection correcte

  24. calcul sur un domaine xmin<xmax des probabilités de fausse alarme et de détection correcte xmin xmin xmax<xmin xmax<xmin probabilité de fausse alarme probabilité de décision correcte xmax xmax

  25. domaine où la probabilité de fausse alarme est en dessous d’un seuil fixé à 0.1 sur ce domaine : probabilité de détection correcte xmin xmin xmax<xmin xmax<xmin xmax xmax probabilité de fausse alarme probabilité de décision correcte sur la frontière (pfa =0.1niveau rouge sur la figure de gauche) on trouve le maximum de la probabilité de décision correcte

  26. Critère de Neyman Pearson probabilités a priori des causes q0 = p(u=0) et q1 = p(u=1) inconnues. décider si une mesure x correspond à l’émission d’une donnée u = 0, et dans ce cas la densité de probabilité de x est p0(x) ; ou si elle correspond à l’émission u = 1, et dans ce cas la densité de probabilité de x est p1(x) ; on décidera que d = 1 si dépasse un seuil s donné de la manière suivante 

  27. maximiser la probabilité pdc de détection correcte (d = 1 quand u = 1) ; ( la probabilité pem d’un événement manqué (d = 0 alors que u = 1)  vaut 1 - pdc;) pour chaque mesure x,  considérer la probabilité pfa d’une fausse alarme (d = 1 alors que u = 0) probabilité de fausse alarme pfa : probabilité que u = 0 alors que dépasse le seuil s pfaest l’intégrale de la densité de probabilité p0(x)  calculée pour l’ensemble des valeurs (domaine D) de x pour lequel ce seuil est dépassé 

  28. les probabilités a priori des causes ne sont pas prises en compte ; Exemple de densités de probabilité et de leur rapport utilisé pour illustrer l’approche de Neyman Pearson si le seuil s est choisi égal à 2, on décide d = 1 lorsque x est dans l’interv. (0.7, 1.4) probabilité de détection correcte probabilité de fausse alarme = 0.158

  29. Neyman Pearson : on se donne un seuila que cette probabilité de fausse alarme pfa ne doit pas dépasser et on en déduit le seuil s utilisé dans la décision cas où r(x) (rapport des densités de probabilités) est une fonction croissante puis décroissante le domaine D se réduit à un segment borne inférieure xmin borne supérieure xmax dans l’intervalle [xmin, xmax] : r(x) > s une fois a fixé maximiser la probabilité de décision correcte

  30. comment ajuster s et par conséquent les bornes xmin et xmax pour maximiser la probabilité de décision correcte, tout en assurant que la probabilité de fausse alarme ne dépasse pas le seuil a. illustration sur un exemple (lois gaussiennes) si s est fixé : calculer les valeurs xmin et xmax entre lesquelles on décidera d=1 Le dépassement du seuil par le rapport des deux lois :

  31. soit, en logarithmes : en fonction des puissances de x Les deux valeurs du dépassement du seuil sont racines d’une équation du deuxième degré

  32. pour tous les seuils s calculer xmin et xmax - en déduire la proba de fausse alarme - trouver la valeur de s pour laquelle cette pfa atteint la borne qu’on s’est fixé (calcul complémentaire pdc)

  33. Valeur des limites xmin et xmax du domaine de décision d =1, en fonction du seuil s probabilité de fausse alarme et probabilité de détection correcte en fonction du seuil s. Si la probabilité de fausse alarme est de 0.1, on choisira un seuil de décision à 4.5, ce qui correspondra aux bornes xmin = 0.824 et xmax = 1.259 et une probabilité de décision correcte de 0.709

  34. longueur L Dans le cas multidimensionnel Séparatrices entre les Nuages de points (souvent, mais pas nécessairement Des droites ou des plans) R largeur gaussiennes dans un espace de dimension élevée distance de mahalanobis

  35. essayer de quantifier les décisions correctes (hypothèses 1 et 2 les erreurs (1 ou lieu de 2 ou 2 au lieu de 1) à partir des probabilités d’erreur et les conséquences de ces fausses décisions (par exemple risque de faux diagnostic médical) règle de probas à ne pas oublier : ‘‘ la loi des grands nombres ne s’applique pas aux petits ! ’’

  36. analyse en composantes principales réduire le nombre de composantes d’un vecteur en essayant de garder l’information la plus pertinente pour ne pas détériorer la discrimination entre classes

  37. (vecteurs propres de la matrice de covariance)

  38. apprentissage Trouver les paramètres des lois de probabilités des classes ou les séparatrices de ces classes A. Si un « superviseur » connaît les classes d’échantillons test On déduit de ces échantillons les moyennes et les variances caractérisant les différentes classes ; voir les enseignements sur les estimations de paramètres B. génération automatique de la description des classe envisageable si les classes sont assez bien séparées (voir la présentation sur les champs de Markov) à appliquer avec précaution ; éviter de traiter des vecteurs de grande dimension

  39. première classification par les k-means chaque échantillon (x,y) a une valeur f (x,y) initialisation affecter un numéro de classe i à chaque échantillon au hasard boucle calculer la moyenne sur les valeurs des échantillons (centre ci) de chacune des classes pour chaque échantillon, affecter maintenant le numéro de la classe dont le centre ci est le plus proche de cet échantillon ; test d’arrêt réitérer ce processus jusqu’à stabilisation la distance de chaque échantillon à chacun des centres de classe ci est calculée d (x,y, ci)

  40. http://en.wikipedia.org/wiki/K-means_clustering convergence non garantie !

  41. méthodologie générale de l’apprentissage ’’expectation maximization’’ http://en.wikipedia.org/wiki/Expectation-maximization_algorithm http://www.ee.columbia.edu/~sfchang/course/spr/

  42. nombre de gaussienne K fixé a priori on recherche un maximum local calcul itératif : Catherine Aaron Université Paris I http://samos.univ-paris1.fr/archives/ftp/preprints/samos212.pdf

  43. http://www.ee.columbia.edu/~sfchang/course/spr/

  44. Introduction aux \Support Vector Machines" (SVM) http://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdf

  45. Support Vector Machines" (SVM) 1. transformation non linéaire des données pour trouver une séparation linéaire des données d’apprentissage dans un nouvel espace 2. chercher un hyperplan dont la distance minimale aux exemples d’apprentissage est maximale H. Mohamadally B. Fomani, U. Versailles St Quentin

  46. SYNTHESE

  47. B. Approche structurelle Un objet complexe est décrit comme un mot composé de lettres d’un alphabet prédéfini et des relations de position entre ces lettres Mais ... lettres manquantes, relations de position erronées ... Distances entre graphes rechercher dans la base des graphes, celui qui est le plus proche du graphe déduit des données analysées http://www.cs.bilkent.edu.tr/~saksoy/courses/cs551-Spring2008/slides/cs551_structural.pdf Schalkoff, Pattern Recognition: Statistical, Structural and Neural Approaches, 1992

  48. http://wwwisg.cs.uni-magdeburg.de/bv/files/LV/Pattern_Recognition/VL/L12_Structural%20Pattern%20Recognition.pdfhttp://wwwisg.cs.uni-magdeburg.de/bv/files/LV/Pattern_Recognition/VL/L12_Structural%20Pattern%20Recognition.pdf

  49. A gauche, et se prolongeant en dessous, la clef n°162 (marcher vite) sous sa forme simplifiée (trois ou quatre traits, suivant comment on le dessine). Le bloc interne qu'il isole est une composition verticale. Sous le bloc interne, quatre traits qui forment la clef n° 61 (coeur) Au dessus de ce même bloc, la clef 116 (trou), cinq traits. Le bloc interne est une composition horizontale. A gauche, une clef de quatre traits qui est soit la clef n°74 (lune), soit plus probablement la clef n° 130 (chair). A droite, une clef de deux traits, la clef n° 18 (couteau), qui en position latérale se trace simplement sous forme de deux traits verticaux. Enfin, le bloc interne est une composition verticale en triptyque, où un caractère est encadré par deux exemplaires d'un autre. Au centre, une autre superposition verticale de la clef n° 149 (mot), sept traits, et de la clef n° 187 (cheval) de neuf traits. Cette combinaison ne figure pas dans les dictionnaires courants. De part et d'autre, une superposition verticale de la clef n° 52 (petit), de trois traits, et de la clef n° 168 (long) de huit traits. Cette combinaison ne figure pas non plus dans les dictionnaires courants.

More Related