Apprentissage semi-supervisé

Apprentissage semi-supervisé Extrait de : http://www.public.asu.edu/~jye02

m n Position du Problème Données avec labels Labels des données (0 ou 1) But : prédire les labels des données sans labels X y Données sans labels

Apprentissage Semi-supervisé Classification Clustering Apprentissage semi-supervisé Apprentissage semi-supervisé pour améliorer les performances en combinant les données avec labels (peu) et sans labels (beaucoup) • Classification semi-supervisée (discrimination) : entraîner sur des données avec labels et exploiter les données (beaucoup) sans labels pour améliorer les performances • Clustering semi-supervisé : clustering des données sans labels en s'aidant des données avec labels ou paires de contraintes

Hypothèse de classe • Hypothèse de base pour la plupart des algorithmes d'apprentissage semi-supervisés • Points proches ont probablement le même label de classe • Deux points qui sont connectés par un chemin traversant des régions de forte densités doivent avoir le même label. Autrement dit les frontières de décision doivent appartenir à des régions de faible densité.

Classification Inductive vs.Transductive • Transductive : Fournit le label uniquement pour les données disponibles non labellisées • La sortie de la méthode n'est pas un classifieur • Inductive: Produit non seulement des labels pour données non labellisées, mais aussi produit un classifieur

Exemple de Classification Semi-Supervisée . . . .

Exemple de Classification Semi-Supervisée . . . . . . . . . . . . . . . . . . . .

Deux approches algorithmiques • Méthodes à base de classifieur. On part de l'état initial d'un classifieur et on l'améliore d'une manière itérative : • EM semi-supervisé • Co-Training • Mélange d'information complet ou incomplet de données • Méthodes à base de données. Découvrir la géométrie inhérente dans les données et l'exploiter pour rechercher un bon classifieur : Algorithmes à base de graphes • Régularisation manifold • Mélange harmonique • Régularisation d'information • hypothèses: • Connu : un ensemble de classes de données avec labels • But : améliorer la classification des exemples dans ces catégories connues

Clustering Semi-Supervisé • Connaissance du domaine • Information partielle • Appliquer certaines contraintes (must-links et cannot links) • Approches • Search-based Semi-Supervised Clustering • Modifier l'algorithme clustering en y intégrant les contraintes (must-links, cannot-links) • Similarity-based Semi-Supervised Clustering • Modifier la mesure de similarités basée sur les contraintes • Combinaison des deux.

Clustering Semi-Supervisé : Exemple 1 . . . . . . . . . . . . . . . . . . . .

Clustering Semi-Supervisé : Exemple 2 . . . . . . . . . . . . . . . . . . . .

Clustering semi-supervisé : • Entrée : • Un ensemble d'objets sans labels, chacun est décrit par un ensemble d'attributs (numériques ou catégoriels) • Une faible connaissance du domaine • Sortie : • Partitionnement des objets en k classes • Objectif : • Similarité intra-cluster maximum • Similarité inter-cluster minimum • Une grande consistance entre partition et connaissances du domaine

Pourquoi clustering semi-supervisé ? • Pourquoi clustering seul insuffiant ? • Les classes obtenues peuvent ne pas être ceux demandées • Parfois, il y a plusieurs choix de groupements • Pourquoi discrimination seule insuffisante ? • Parfois on n'a pas assez de données avec labels • Applications potentielles • Bioinformatique (clustering gêne et protéine) • Construction de hiérarchies de documents • Catégorisation de News/email • catégorisation d'Images

Classification semi-supervisée c'est quoi ? • Utilise un faible nombre de données avec labels pour labelliser un grand nombre de données sans labels • Labelliser est coûteux • Idée de base • Données similaires doivent avoir le même label de classe • Exemples • Classification pages Web • Classification de documents • Classification de protéines

K-Means Semi-Supervisé • Seeded K-Means: • Labeled data provided by user are used for initialization: initial center for cluster i is the mean of the seed points having label i. • Seed points are only used for initialization, and not in subsequent steps. • Constrained K-Means: • Labeled data provided by user are used to initialize K-Means algorithm. • Cluster labels of seed data are kept unchanged in the cluster assignment steps, and only the labels of the non-seed data are re-estimated.

Seeded K-Means Use labeled data to find the initial centroids and then run K-Means. The labels for seeded points may change.

Constrained K-Means Use labeled data to find the initial centroids and then run K-Means. The labels for seeded points will not change.

Constrained K-Means Example

Constrained K-Means ExampleInitialize Means Using Labeled Data x x

Constrained K-Means ExampleAssign Points to Clusters x x

x x Constrained K-Means ExampleRe-estimate Means and Converge

COP K-Means • COP K-Means [Wagstaff et al.: ICML01] is K-Means with must-link (must be in same cluster) and cannot-link (cannot be in same cluster) constraints on data points. • Initialization: Cluster centers are chosen randomly, but as each one is chosen any must-link constraints that it participates in are enforced (so that they cannot later be chosen as the center of another cluster). • Algorithm: During cluster assignment step in COP-K-Means, a point is assigned to its nearest cluster without violating any of its constraints. If no such assignment exists, abort.

Illustration Determine its label Must-link x x Assign to the red class

Illustration Determine its label x x Cannot-link Assign to the red class

Illustration Determine its label Must-link x x Cannot-link The clustering algorithm fails

COP K-Means Algorithm

PC K-Means, Basu, et al. w is the penalty matrix Other search-based algorithms Kernel-based semi-supervised clustering, Kulis, et al. Kernel K-Means reward

Overview of spectral clustering • Compute the similarity matrix W and D. • Form • Form the matrix Y consisting of the first K eigenvectors of • Normalize Y so that all the rows have unit lengths. • Run K-Means on the rows to get the K clusters. (Ng, Jordan, and Weiss , NIPS’02) or • Apply an iterative optimization to get the partition matrix. (Yu and Shi, ICCV’03)

Semi-supervised spectral clustering • Compute the similarity matrix W and D. • For each pair of must-link (i,j), assign • For each pair of cannot-link (i,j), assign • Form the matrix • Form the matrix Y consisting of the first K eigenvectors of • Normalize Y so that all the rows have unit lengths. • Run K-Means on the rows to get the K clusters. (Ng, Jordan, and Weiss , NIPS’02) or • Apply an iterative optimization to get the partition matrix. (Yu and Shi, ICCV’03)

Harmonic approach • Paper: Semi-Supervised Learning Using Gaussian Fields and Harmonic functions. Zhu and et al. • Basics • Build the weighted graph • The labels on the labeled data are fixed • Determine the labels of the unlabeled data based on the cluster Assumption

Define a real-valued function f: V  R on G with certain properties. Goal: determine the label of unlabeled data by f. Intuition: Nearby points in the graph have the same label. is small Large weight Intuition Optimization problem: Compute optimal f such that E(f) is minimized, subject to the constraint that the values of f on labeled data are fixed.

Intuition Non-differentiable f: discrete Determine the labels via thresholding The values of f on labeled data are fixed.

Define a real-valued function f: V  R on G with certain properties. Goal: determine the label of unlabeled data by f. Intuition: Nearby points in the graph have the same label. is small Large weight Main idea Optimization problem: Compute optimal f such that E(f) is minimized, subject to the constraint that the values of f on labeled data are fixed.

The optimization problem: The optimal solution f is harmonic: is the combinatorial laplacian. where Harmonic function on unlabeled points

Optimal solution in matrix form

Conclusion • Domaine assez vaste : • Clustering : K-means, Mixture, HMRF, Kernel K-means • Projection : LLE, ISOMAP, Kernel PCA, ... • On doit se consacrer à un champ particulier selon sa sensibilité • Passer aux applications pour mettre en exergue la validité des approches

Apprentissage semi-supervisé