1 / 19

Cours 3

Cours 3. Classification Résumé de textes. Classific ation et regroupement. Objectif : classer des documents - en fonction de classes prédéfinies ( classification supervisée ), exemples : routage vers des destinataires, ou filtrage (2 classes : retenus ou rejetés)

khuyen
Download Presentation

Cours 3

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Cours 3 Classification Résumé de textes

  2. Classification et regroupement Objectif : classer des documents - en fonction de classes prédéfinies (classification supervisée), exemples : routage vers des destinataires, ou filtrage (2 classes : retenus ou rejetés) - ou par ressemblance entre eux, sans classes prédéfinies (regroupement non supervisé) Principe Dans le modèle vectoriel, une classe est représentée par le barycentre des k éléments dj de la classe Pour 1iN, Bi = 1jkmi,j/k

  3. Classification et regroupement Le barycentre est un vecteur dont la norme (longueur) dépend de celle des vecteurs On normalise les vecteurs avant de calculer le barycentre : Pour 1iN, Bi = 1jkmi,j/k Le barycentre d'un ensemble de vecteurs normalisés n'est pas nécessairement normalisé Exemple : deux vecteurs orthogonaux Ensuite, on normalise le barycentre

  4. Exemple Barycentre de d1 et d2 : b1 d1 d2 d3 b1 cinéma 0 5 0 0,60 football 4 4 0 0,80 rugby 0 0 3 0 ... ... ... ... ... b1 est normalisé : 0,602 + 0,802 = 1 En considérant que chaque vecteur donne une direction dans l'espace, celle de b1 est "entre" celles de d1 et d2

  5. Classification Algorithme des k plus proches voisins Entrée : des documents déjà distribués en classes disjointes ; un nouveau document d à classer ; un entier k Sortie : la classe du nouveau document j := k tant quej>0 parmi les documents déjà classés trouver les j plus proches voisins de d trouver la ou les classes les plus représentées parmi ces voisins si on trouve une seule classe, renvoyer cette classe sinonj := j - 1

  6. Exemple Classe football : d1 et d2, barycentre : b1 Classe rugby : d3, barycentre : b2 d1 d2 d3 b1 b2 d4 d5 cinéma 0 5 0 0,60 0 2 4 football 4 4 0 0,80 0 1 1 rugby 0 0 3 0 1 6 2 ... ... ... ... ... ... ... ... On veut classer d4 et d5 similarités de d4 : 0,31 0,95 classe r. similarités de d5 : 0,84 0,45 classe f.

  7. Classification Terminaison de l'algorithme L'algorithme se termine au plus tard quand j = 1 et dans ce cas on renvoie la classe du plus proche voisin

  8. Regroupement Algorithme de regroupement des k moyennes Entrée : un ensemble de documents représentés par des vecteurs ; un entier k Sortie : une partition des documents en k groupes choisir aléatoirement k vecteursm1, m2, ..., mk faire classer les vecteurs en k groupes en associant chaque vecteur au mi le plus similaire pour toutide 1 àk mi:= le barycentre des vecteurs du groupe i tant que il y a eu au moins un mi modifié Ne donne pas toujours la meilleure solution Faire tourner plusieurs fois et prendre la meilleure solution

  9. Regroupement Évaluation Pour chaque partition de l'ensemble de documents, on peut calculer à l'aide du modèle vectoriel : - la similarité moyenne de deux documents de la même classe (similarité intra-classe) - la similarité moyenne de deux documents de classes différentes (similarité inter-classe) Un regroupement est bon s'il a une similarité intra-classe élevée et une similarité inter-classe basse

  10. Regroupement Nombre de groupes La qualité du regroupement a tendance à augmenter avec le nombre de groupes Avec un document par groupe, le regroupement est parfait... mais pas utile Choisir le nombre de groupes Exécuter l'algorithme avec différentes valeurs de k Comparer la qualité des regroupements obtenus Choisir k tel que l'amélioration en passant de k-1 à k soit particulièrement importante, et l'amélioration en passant de k à k+1 peu importante

  11. Résumé Objectif Produire un résumé d'un document On utilise un ensemble de documents, comme dans la recherche d'informations, pour définir la pondération par pertinence des tokens-mots Principe On veut par exemple que le résumé fasse environ 20 % du document en nombre de phrases, soit k phrases On considère le document comme une séquence de phrases Chaque phrase est représentée par un vecteur On calcule la pertinence de chaque phrase (voir plus loin) On sélectionne les k phrases les plus pertinentes On les présente dans l'ordre du texte

  12. Résumé Définition de la pertinence d'une phrase On calcule les coordonnées du vecteur avec et sans la formule TFIDF - avec TFIDF : mi log D/d(i) - avec seulement le nombre d'occurrences de chaque token-mot : mi Pertinence d'une phrase : (1iNmi log D/d(i)) / 1iNmi C'est la moyenne des log D/d(i), pondérée par les mi

  13. Exemples http://swesum.nada.kth.se/index-eng.html

  14. Texte original (1/3) L'Egypte encore couronnée 11/02/2008 | Mise à jour : 13:26 | .A l'issue d'un match dominé de bout en bout, l'Egypte a logiquement pris le meilleur sur le Cameroun en finale de la Coupe d'Afrique des Nations (1-0) et remporte son 6e titre dans cette compétition. Compte rendu du matchLa 26e finale de la Coupe d'Afrique des Nations opposait les deux formations les plus titrées du continent, l'Egypte et le Cameroun. Deux équipes qui s'étaient déjà rencontrées au premier tour, avec un succès des Pharaons à la clé (4-2). Tenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens partaient donc logiquement favoris. Kameni sauve le CamerounLes hommes de Hassan Chehata ne tardaient pas à confirmer leur statut sur le terrain. Abd Rabo menaçait une première fois Kameni sur coup-franc (7e), rapidement suivi par Moawad (9e). Le portier de l'Espanyol Barcelone devait encore s'employer sur une frappe d'Abu Treka de loin (12e), puis à bout portant (19e). Les vagues rouges revenaient inlassablement sur les buts camerounais, et après une nouvelle offensive, Fathi tirait dans un angle fermé et ne trouvait pas le cadre (22e). Les Lions Indomptables, bien timides dans le jeu, ne parvenaient pas à

  15. Texte original (2/3) inquiéter El Hadary, hormis sur une accélération d'Eto'o, dont le tir était trop croisé (35e). C'était en fait encore Kameni qui s'illustrait sur un face-à-face avec Moawad (36e). Alors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0). Song, héros malheureuxOn retrouvait la même physionomie en deuxième période, avec une Egypte largement dominatrice, mais impuissante face à Kameni. Le gardien des Lions était encore à la parade sur une frappe puissante d'Hosny Abd Rabo (54e), et lorsqu'il était battu, le poteau venait le suppléer, sur une tête de l'ancien Strasbourgeois (61e). Mais au moment où le Cameroun refaisait surface, la contre-attaque de Zidan faisait mouche. Le joueur d'Hambourg réussissait à résister au retour de Song pour servir Abou Treka complètement seul. Le meneur de jeu des Pharaons ne manquait pas son duel (1-0, 77e). Malgré une fin de match à l'avantage des Camerounais, les coéquipiers de Samuel Eto'o ne parvenaient pas à revenir. El Hadary signait même une parade décisive sur un tir de M'Bia (87e). L'Egypte tenait bon pour s'offrir un deuxième sacre consécutif, le sixième en tout. Pour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions.

  16. Texte original (3/3) Le jeu et les joueursDans son 3-5-2 habituel, Hassan Chehata ne changeait pas une équipe qui gagne et alignait ainsi le 11 titulaire face à la Côte d'Ivoire. Solide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif. Pour le Cameroun, Otto Pfister alignait une équipe assez défensive, avec le seul Eto'o en pointe. Dans un dispositif proche du 4-3-3, les Lions Indomptables n'ont jamais réussi à entrer dans le match, en étant dominés dans tous les secteurs du jeu. Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

  17. Résumé obtenu L'Egypte encore couronnée Tenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens partaient donc logiquement favoris. Kameni sauve le CamerounAlors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0). Song, héros malheureuxPour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions. Le jeu et les joueursSolide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif. Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

  18. Texte original La création de l’établissement public Université Paris-Est s’inscrit dans la dynamique engagée par le Groupement d’intérêt public du Polytechnicum de Marne la Vallée, en réponse aux démarches menées par les ministères chargés de l’Equipement et de l’Enseignement supérieur pour constituer un pôle scientifique et technique. Son développement s'appuie également sur une association privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien. L’université Paris-Est, structurée en grands départements, intègre dans un même ensemble interdisciplinaire recherche et enseignement généraux, technologiques et professionnels.Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra d’atteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel. L’établissement comprend actuellement cinq membres fondateurs :L’Ecole des ponts, l’université de Marne la Vallée, L'Université Paris 12 Val-de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.

  19. Résumé obtenu Son développement s'appuie également sur une association privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien. Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra d’atteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel. L’Ecole des ponts, l’université de Marne la Vallée, L'Université Paris 12 Val-de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.

More Related