1 / 25

Apprentissage de Concepts & l’Algorithme Espace des Versions

Chapitre 2. Apprentissage de Concepts & l’Algorithme Espace des Versions. Introduction. Central à l’apprentissage : Induction de fonctions générales à partir d'exemples spécifiques L’apprentissage de Concepts:

Download Presentation

Apprentissage de Concepts & l’Algorithme Espace des Versions

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chapitre 2 Apprentissage de Concepts & l’AlgorithmeEspace des Versions

  2. Introduction • Central à l’apprentissage: Induction de fonctions générales à partir d'exemples spécifiques • L’apprentissage de Concepts: • Acquisition de définitiond’unecatégoriegénérale à partir d’1 échantillond’exemplesd’apprentissage + et – de la catégorie (Oiseau, Voiture, Chaise, etc.) • Chaque concept peut être considéré comme une fonction booléenne (par exemple « vrai » pour « oiseau », faux pour les autres animaux) • Apprentissage de Concepts: • Rechercher dans l'espace des hypothèses possibles celle qui correspond le mieux aux exemples d’apprentissage • Inférer 1 fonction à valeur booléenne à partir d'exemples d’apprentissagede l’entrée et la sortie de cette fonction • La recherchepeutprendre en considération la structure de l’espace des hypothèses • AlgorithmesGénéral-à-spécifique

  3. Apprendre quoi? • Classification de Fonctions • Apprendre des fonctionscachées : estimer des paramètres (“fitting” parameters) • Apprentissage de Concepts (e.g., chaise, visage, jeu) • Diagnostic, pronosticmédical, évaluation de risques, fraude, systèmes mécaniques • Modèles • Cartes (de navigation) • Distribution • Modèles de Langages (e.g., automates/grammaires) • Compétences • Jeux • Planification • Raisonnement (acquisition de représentation à utiliser dans le raisonnement) • Définitions de Clusters pour la reconnaissance de formes • Formesd’objets • DéfinitionsFonctionellesoutaxonomiques • Beaucoup de Problèmespeuventêtreréduits à la Classification

  4. Supervisé • Qu’est-ce qui estappris? Fonctionl de cassification; autresmodèles • Entrées et sorties? Apprentissage: • Comment? Présentationd’exemples à l’apprenant (par un instructeur) • Non supervisé • Définition de cluster, ou la fonction de quantification vectorielle (dictionnaire) • Apprendre: • Formation, segmentation, et étiquetage de clusters sur la base d’observations, mesures • Renforcement • Politique de contrôle (fonction d’1ensemble d’états du monde  actions) • Apprentissage: • feedback (différé) des valeurs des récompenses à des agents sur la base d'actions sélectionnées; modèle mis à jour sur la base de récompenses, état (partiellement) observable Comment Apprendre?

  5. Apprentissage de Concept (Supervisé) • Etantdonnés: exemplesd’ apprentissage<x, f(x)> et unefonctioninconnuef • Trouver: unebonne approximation de f • Exemples • Diagnostic de maladies • x = propriétés du patient (antécédents médicaux, symptômes, tests de laboratoire) • f = maladie (ou thérapie recommandée) • Evaluation de risques • x = propriétés des consommateurs, facteurs (démographie, historique des incidents) • f = niveau de risque (coût prévu) • Pilotage automatique • x = image bitmap de la surface de la route devant le véhicule • f = degrés de rotation du volant • Étiquetagemorpho-syntaxique (Part Of Speech tagging) • Détéction de fraude/intrusion • Analyse des « journaux d’accès au pages » (logging) sur le Web

  6. Exemplesd’Apprentissage du Concept EnjoySport • Spécification des Exemples • Similaire à la définition d’un type de données • 6 attributs: Sky, Temp, Humidité, Vent, Eau (température), Prévisionmétéo • Attributs à valeurs nominales (symboliques) - type de données énumératif • Concept Binaire • Problème d'apprentissage supervisé: Décrire le Concept Général • Apprendre le concept EnjoySportn’importequel jour selon les valeurs des attributs

  7. Représentationd’Hypothèses • Quelle représentation d’hypothèse à adopter pour l'apprenant? • Plusieursreprésentationspossibles • Hypothèseh : • Conjonctionde contraintesd’attributs • e.g. Conjonction de 6 contraintessur les valeurs des attributs • Si toute instance x satisfait toutes les contraintes de l’hypothèse h, alors h classe x comme étant un exemple positif (h (x) = 1) • Valeurs des Contraintes • Valeursspécifiques (e.g., Water = Warm) • Pas importantes (Don’t care , e.g., “Water = ?”), i.e. toutevaleurest acceptable • Aucunevaleurpermise (e.g., “Water = Ø”)

  8. Représentationd’Hypothèses (cont.) • ExempleHypothèsepourEnjoySport • Sky AirTemp Humidity Wind Water Forecast <Sunny ? ? Strong ? Same> • Est-ce compatible avec les exemples d’apprentissage? (Apprécier le Sport seulement les «jours ensoleillés », avec « vents forts » et « même prévision ») • Quelles sont les quelques hypothèses qui sont compatibles avec les exemples? • Hypothèse la plus générale (Most general Hypothesis) • < ? , ? , ? , ? , ? , ? > chaque jour est un exemplepositif • Hypothèse la plus spécifique (Most specific hypothesis) • < ∅ , ∅ , ∅ , ∅ , ∅ , ∅ > aucun jour n’est un exemplepositif • Résumé de la tâche d'apprentissage de concepts • Apprendre l'ensemble des jours pour lesquels EnjoySport = yes • Utilisez une hypothèse pour cela sous la forme d’une conjonction de contraintes

  9. Etantdonnés • Instances X: jourspossibles, chacundécrit par des attributs • Sky (valeursSunny, Cloudy, Rainy) • AirTemp(valeursWarm, Cold) • Humidity (valeursNormal, High) • Wind (valeursStrong, Weak) • Water (valeursWarm, Cool) • Forecast (valeursSame, Change) • HypothèsesH: chaque hypothèse est décrite par une conjonction de contraintes sur les attributs (valeur?, ou∅, ouvaleurspécifique) (e.g., <?, Cold, High, ?, ?, ?>) • Concept cible c: EnjoySport: X  {0,1} • Exemplesd’apprentissageD: exemplespositifs et négatifs de la fonctioncible Tâche d‘Apprentissage de Concepts Prototypiques

  10. Déterminer • Hypothèseh  Htellequeh(x) = c(x) pour tout x  X • Exemplesd’apprentissage • L’ensemble des exemples d’apprentissagec(x) présentés à l'apprenant sous la forme <x, c(x)> (c (x) = 1 positif) • D: ensemble des exemples d’apprentissagedisponibles • hypothèse: pas de valeurs manquantes X • bruit dans les valeurs de c (étiquettes contradictoires)?

  11. Apprentissage de Concepts en tantqueRecherche • Apprentissage de concept Ξ tâche de recherche à travers un grand espace d'hypothèses • La représentation de l’hypothèse définit implicitement l'espace des hypothèses  définit tout ce que le programme peut apprendre! e.g. Tâched’apprentissageEnjoySport : Sky  3 valeurs; AirTemp  2 valeurs; etc. Donc X contient • 3 * 2 * 2 * 2 * 2 * 2 = 96 instances distinctes • 5 * 4 * 4 * 4 * 4 * 4 = 5120 hypothèsessyntaxiquementdistinctesdans H Puisque ∅ dans une hypothèse classe une instance comme négative, le nombre d’hypothèses sémantiquement distinctes est 973 (les problèmes d'apprentissage ont généralement des espaces beaucoup plus grands) • Algorithmes pour des explorations efficaces de l’espace?

  12. Hypothèsed’ApprentissageInductif • HypothèseFondamentale de l’ApprentissageInductif • Déclaration informelle • Toute hypothèse qui est jugée bien approximer la fonction cible sur un ensemble d'exemples d’apprentissage suffisamment large approximera bien cette fonction cible sur d'autres exemples non observés • Définitions différées: suffisamment large, bonne approximation, non observés • Ultérieurement: Comment trouvercettehypothèse?

  13. Instances, Hypothèses, et la Relation d’OrdrePartielMoins-Spécifique-Que h1 = < Sunny, ? , ? , Strong , ? , ? > h2 = < Sunny, ? , ? , ? , ? , ? > • h2 impose moins de contraintessur les instances que h1 • Toute instance classifiée +ve par h1 sera aussiclassifiée +ve par h2 Définitions: • Définition: Pour toute instance x dans X et hypothèse h dans H, on dit que x satisfait h, si et seulement si h (x) = 1 • Définition:Soit hjet hk deux fonctions booléennes définies sur X. On dit que hjest plus_générale-ou-égale_àhk (écrite hj≥ghk) si et seulement si • De façonsimilaire on définit la relation plus_générale_que. • ≥gdéfinitune relation d’ordrepartiel (i.e. une structure) surl’espace des hypothèses H • Algorithmesd’apprentissage qui utilisent la structure à leuravantage?

  14. h1 h3 x1 h2 x2 Instances, Hypothèses, et la Relation d’OrdrePartielMoins-Spécifique-Que Instances X HypothèsesH Spécifique Général h1 = <Sunny, ?, ?, Strong, ?, ?> h2 = <Sunny, ?, ?, ?, ?, ?> h3 = <Sunny, ?, ?, ?, Cool, ?> x1 = <Sunny, Warm, High, Strong, Cool, Same> x2 = <Sunny, Warm, High, Light, Warm, Same> h2 P h1 h2 P h3 P Less-Specific-Than  More-General-Than

  15. L’AlgorithmeFind-S : TrouveruneHypothèseMaximalementSpécifique • Commence avec l’hypothèse de H la plus spécifique possible, puis généralise à chaque fois qu'il ne parvient pas à couvrir un exemple positif observé durant l’apprentissage • 1. Initialiserhavec l’hypothèse la plus spécifique de H • H: l'espace des hypothèses, ensemble muni d’un ordre partiel sous la relation Moins-spécifique-que (Less-Specific-Than) • 2. Pour chaque instance d’apprentissage positive x • Pour chaque contrainte aidanshsur un attribut • SI la contrainteaidanshestsatisfaite par x • ALORS ne rien faire SINON remplaceraidansh par la contraintesuivante plus générale qui estsatisfaite par x • 3. Output: hypothèseh

  16. x3 h0 - h1 h2,3 x1 x2 + + x4 h4 + Exploration de l‘Espace des Hypothèses par Find-S Instances X HypothèsesH h0= <Ø, Ø, Ø, Ø, Ø, Ø> h1= <Sunny, Warm, Normal, Strong, Warm, Same> h2= <Sunny, Warm, ?, Strong, Warm, Same> h3= <Sunny, Warm, ?, Strong, Warm, Same> h4= <Sunny, Warm, ?, Strong, ?, ?> x1 = <Sunny, Warm, Normal, Strong, Warm, Same>, + x2 = <Sunny, Warm, High, Strong, Warm, Same>, + x3 = <Rainy, Cold, High, Strong, Warm, Change>, - x4 = <Sunny, Warm, High, Strong, Cool, Change>, +

  17. L’AlgorithmeFind-S • Avantages de Find-S • Choisit un h maximalement spécifique consistant avec les exemples d’apprentissage positifs • (chaque étape de généralisation est la plus spécifique qui soit consistante avec les exemples d’apprentissage observés jusqu'à ce point) • L’hypothèse finale sera également consistante avec les exemples négatifs (pour peu que les exemples d’apprentissage fournis soient corrects) • Faiblesses de Find-S • Ne peut dire s’il a convergé vers le concept cible correct . (A-t-il trouvé la seule hypothèse consistante avec les données ou y’en a-t-il beaucoup d'autres?) • Pourquoi l'hypothèse la plus spécifique? (Et pas la plus générale, ou d'autres?) • Impossible de dire quand les données sont inconsistantes. (Erreurs? Bruit?) • Selon H, il pourrait y avoir plusieurs hypothèses maximalement spécifiques. Find-S doit être étendu de telle sorte à pouvoir faire un backtracking à une autre hypothèse que celle trouvée?

  18. Espaces de Versions (Version Space) • L’idéeclédansl’Algorithme Candidate-Elimination: • Son output est une description de TOUTES les hypothèses consistantes avec les exemples d’apprentissage (sans énumeration) (Espace des Versions) • Représente les hypothèses les plus générales et les plus spécifiques • Définition: Unehypothèse h estconsistante avec un ensemble d’exemples d’apprentissage Dssih(x) = c(x) pour tout exemple<x , c(x) >dansD. Consistant(h, D)  < x, c(x) > D , h(x) = c(x) (différente de satisfaitoùxsatisfaithquandh(x) = 1, indépendamment du fait quexest un exemplepositifounégatif) • Définition : L’Espace des Versions , dénoté VSH,D, défini sur l’espace des hypothèses H et les exemples d’apprentissage D, est le sous-ensemble d'hypothèses de H consistantes avec ces exemples. VSH,D { h  H | Consistant (h, D) }

  19. Representation d’Espaces de Versions • Définition: FrontièreGénérale • La Frontière générale G, par rapport à l’espace H d'hypothèses et exemples d’apprentissage D, est l'ensemble des hypothèses de H maximalement générales et consistantes avec D. • Définition: FrontièreSpécifique • La Frontière spécifique S, par rapport à l’espace H d'hypothèses et exemples d’apprentissage D, est l'ensemble des hypothèses de H minimalement générales (i.e. maximalement spécifiques ) et consistantes avec D. • Espace des versions (Version Space) • Chaque élément de l’espace des versions se situe entre S et G • oùveut dire plus généraleque (more-general-than) c’est-à-dire moinsspécifique • que (less-specific-than )

  20. AlgorithmeCandidate-Elimination • 1. Initialisation G ens. (singleton) contenantl’hyp. la plus généraledeH, dénoté{<?, … , ?>} S  ensemble des hypothèses les plus spécifiques de H, dénoté {<Ø, … , Ø>} • 2. Pour chaqueexempled’apprentissaged SI dest un exemplepositif (mise à jour de S, Update-S) • Retirer de G toute hypothèse inconsistante avec d Pour chaque hypothèse s de S qui n'est pas consistante avec d • Retirer s de S • Ajouter à S toutes les généralisations minimales h de s telles que • 1. hestconsistante avec d • 2. Il existe un membre de G qui est plus généralqueh • Retirer de S toute hypothèse qui est plus générale qu’une autre hypothèse de S

  21. Candidate Elimination Algorithm [2] • (continued) • SI dest un exemplenégatif (mise à jour de G, Update-G) • Retirer de S toute hypothèse inconsistante avec d Pour chaque hypothèse g de G qui n'est pas consistante avec d • Retirer g de G • Ajouter à G toutes les spécialisationsminimales h de g telles que • 1. hestconsistante avec d • 2. Il existe un membre de S qui est plus spécifiquequeh • Retirer de G toute hypothèse qui est moins générale qu’une autre hypothèse de G

  22. S0 <Ø, Ø, Ø, Ø, Ø, Ø> S1 <Sunny, Warm, Normal, Strong, Warm, Same> S2 <Sunny, Warm, ?, Strong, Warm, Same> = S3 S4 <Sunny, Warm, ?, Strong, ?, ?> <Sunny, ?, ?, Strong, ?, ?> <Sunny, Warm, ?, ?, ?, ?> <?, Warm, ?, Strong, ?, ?> G4 <Sunny, ?, ?, ?, ?, ?> <?, Warm, ?, ?, ?, ?> <Sunny, ?, ?, ?, ?, ?> <?, Warm, ?, ?, ?, ?> <?, ?, ?, ?, ?, Same> G3 G0 = G1 = G2 <?, ?, ?, ?, ?, ?> Exemple: Déroulement de l’algorithme d1: <Sunny, Warm, Normal, Strong, Warm, Same, Yes> d2: <Sunny, Warm, High, Strong, Warm, Same, Yes> d3: <Rainy, Cold, High, Strong, Warm, Change, No> d4: <Sunny, Warm, High, Strong, Cool, Change, Yes>

  23. Propriétés de l’algorithme • La frontière S de l'espace des versions résume les exemples positifs rencontrés précédemment • S peut être utilisé pour déterminer si une hypothèse donnée est compatible avec des exemples • Toute hypothèse plus générale que S couvrira tout exemple que S couvre (et donc tout exemple positif passé) • La frontière G de l'espace des versions résume les exemples négatifs rencontrés précédemment • Toute hypothèse plus spécifiqueque G doit nécessairement être consistante avec les exemples négatifs passés • L’espace des versions est indépendant de l'ordre dans lequel les exemples d’apprentissage sont présentés

  24. Convergence de l’ Alg. Candidate-Elimination • l’ Algorithme Candidate-Elimination Converge si • Il n’y a pas d'erreurs dans les exemples d’apprentissage • Une hypothèse h de H qui décrit correctement le concept cible existe • Le concept cible est appris de façon exacte quand S et G convergent vers la même hypothèse unique • Supposons qu’il y ait une erreur dans un exemple (faux négatif) • L’Alg. supprimera le concept cible correct du VS  S et G finissent par converger vers un VS vide

More Related