1 / 39

Création de résumé automatique

Création de résumé automatique. Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril 2003. Qu’est-ce qu’un résumé?.

lalaine
Download Presentation

Création de résumé automatique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril 2003

  2. Qu’est-ce qu’un résumé? • Une transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source. - Karen Sparck Jones

  3. Fonction AutoSummarize de MS Office

  4. Caractéristiques d’un résumé • Indicatif ou Informatif • Indicatif: indique la nature du texte (teaser) • Informatif: tente de se substituer au texte • Extrait ou abrégé • Extrait: phrases ou passages tirés du texte • Abrégé: reformule, compresse le texte • Court ou long • Taux de compression =

  5. Mécanique de construction d’un résumé • Document → Repr. interne du document • Repr. interne du document→ Repr. interne du résumé • Repr. interne du résumé → Texte du résumé

  6. Facteurs contextuels • Facteurs d’entrée • Influence l’analyse • Facteurs d’intention • Influence les transformations • Facteurs de sortie • Influence la forme du résumé

  7. Facteurs d’entrée - analyse (1) • Forme • Structure • Échelle • Type de langue • Genre littéraire • Today on MSN • Latest war updates • Iraqis swim Tigris to flee • Saddam's notorious cousin may be dead • Why isn't cash obsolete? • Your Week • Online tax helper, $30 • How to make DVD flicks • 6 steps to sexier legs

  8. Facteur d’entrée -analyse (2) • Type de sujet • Ordinaire (connaisances générales) • Code de la route • Spécialisé (informatique, recherche d’information) • Précision/Rappel • Restreint (étudiant du cours ift6255) • Date d’examen

  9. Facteurs d’entrée - analyse (3) • Multiplicité • Simple • Article de journal, rapport de recherche • Multiple • Journal au complet, tous les rapports d’un laboratoire de recherche

  10. Facteurs d’intention - transformation • Situation • Précis, flou; qui, pourquoi, comment • Audience • Ciblée, non ciblée • Utilisation • Tâche: recherche, sommaire, mémoire, invite

  11. Facteurs de sortie - construction • Contenu • Tous les sujets, le sujet central, information partielle; couverture • Format • Prose, informations tabulaires, phrases disparates • Style • Indicatif, informatif, critique, recapitulatif

  12. Approches étalon • Approche aléatoire • On sélectionne n phrases au hasard dans le document • Approche en-tête • On sélectionne les n premières phrases du document

  13. Approche basée sur la RI • Luhn 1958 • Extrait = phrases significatives • Une phrase significative contient des mots significatifs (mots-clés) • Mots significatifs = entre A et B

  14. Approches basée sur la structure du texte (1) • Edmundson 69 • Mots-repères (cues) • Mots-bonus: greatest, significant, … • Mots-malus: hardly, impossible, … • Mots-titre • Mots-clés se trouvant dans le titre et les sous-titres

  15. Approches basée sur la structure du texte (2) • Positionnement • Début du texte • Fin du texte • Première phrase d’un paragraphe • Dernière phrase d’un paragraphe • Toutes les méthodes! • 1Mots-repère + 2Mots-clés + 3Mots-titre + 4Positionnement

  16. Évaluation (Edmundson) • Corpus d’entraînement avec des extraits sélectionnés manuellement (compression 25%) • Comparaison entre les résumés obtenus manuellement et automatiquement • Précision =

  17. Résultats (Edmundson) • Mots-clés diminuent efficacité

  18. Extension probabiliste • Kupiec, Pederson, Chen 1995 • Classification Bayesienne à partir de caractéristiques du texte • En supposant les caractéristiques statistiquement indépendantes

  19. Extension probabiliste (2) • Résultats (compression 25%) • Précision de 84%

  20. Anaphore Connecteur rhétorique Anaphore (auteur) J’aime les bananes. Problèmes (Paice 1990) • Extraits phrase par phrase sont incohérents et difficiles à lire. • Solution: ajouter les phrases nécessaires pour produire un passage propre. • Balance: est-ce que des parties sont sur-représentées? • Couverture: est-ce qu’on a oublié quelque chose? Elles sont toutefois trop jaunes à mon goût.

  21. Parsage rhétorique du discours (1) • Analyse en profondeur • Basé sur les relations rhétorique entre les passages. (Mann et Thompson 88) • Objectif de l’auteur. Pourquoi ajouter cette phrase? • Noyau – Satellite • À l’origine du sens et de la cohérence d’un texte

  22. Parsage rhétorique du discours (2) • Exemple d’une relation: pièce à conviction [Noyau: En réalité, la tentation de fumer au secondaire est plus grande qu’à n’importe quel autre moment de la vie d’une personne :][Satellite: On sait que plus de 300 adolescents commencent à fumer chaque jour.] • Effet de la relation: le satellite augmente la crédibilité du noyau aux yeux du lecteur

  23. 2Elaboration 2Elaboration 8Example 3Elaboration 8Concession 10Antithesis 2BackgroundJustification 4 5Contrast Mars experiences frigid weather conditions(2) Most Martian weather involves blowing dust and carbon monoxide.(8) With its distant orbit (50 percent farther from the sun than Earth) and slim atmospheric blanket,(1) Although the atmosphere holds a small amount of water, and water-ice clouds sometimes develop,(7) Yet even on the summer pole, where the sun remains in the sky all day long, temperatures never warm enough to melt frozen water.(10) Surface temperatures typically average about -60 degrees Celsius (-76 degrees Fahrenheit) at the equator and can dip to -123 degrees C near the poles(3) Each winter, for example, a blizzard of frozen carbon dioxide rages over one pole, and a few meters of this dry-ice snow accumulate as previously frozen carbon dioxide evaporates from the opposite polar cap.(9) Only the midday sun at tropical latitudes is warm enough to thaw ice on occasion,(4) 5EvidenceCause because of the low atmospheric pressure(6) but any liquid water formed in this way would evaporate almost instantly(5)

  24. Parsage rhétorique du discours (4) • Intuition de Daniel Marcu: Résumé peut être produit à partir de l’arbre de parsage. • Nœuds près de la racine correspondent aux idées centrales du texte. • Performance d’environ 65% avec des textes courts. • Question: est-ce que ça fonctionne avec des textes plus longs?

  25. Chaînes lexicales (1) • Établir des chaînes sur les mots qui ont un liens dans WordNet (Barzilay & Elhadad) Les chatons sont très mignons. Ces petits animaux sont si adorables qu’on en déjeunerait. Les chats eux sont plus comme leur cousins les tigres: indépendants et chasseurs. Les félins on en général une bien mauvaise réputation.

  26. Chaînes lexicales (2) • Les phrases importantes sont traversées par des chaînes fortes. • Désambiguification tardive • Stratégie de sélection: • Première phrase avec un membre de la chaîne • Première phrase avec un membre significatif de la chaîne • Déterminer le segment avec la plus haute densité de termes. Première phrase de ce segment.

  27. Résumé multidocument – SUMMONS (1) • Gabarits MUC, organisés chronologiquement • Opérateurs de combinaison • Changement de perspective • Contradiction • Ajout • Clarification • Similarité • Concaténation, généralisation • Absence • Tendance • Favorise les combinaisons

  28. Résumé multidocument – SUMMONS (2)

  29. Cadre multilingue • Megumi Kameyama • Extraction d’information dans les discours • Extraction à objectifs clos vers objectifs dynamiques • 3 étapes • Requête en langue usager • Recherche/abstraction dans la langue du corpus • Résumé en langue usager

  30. Évaluation • Mesure • Précision • Rappel • Accord entre les juges humains • Référentiel de base Compression: C = (longueur Résumé) / (longueur Txt) Rétention: R = (info dans Résumé) / (info dans Txt)

  31. Conférences et évaluation (1) • SUMMAC (Programme TIPSTER) • Ad hoc: pertinence selon une requête • Catégorisation: textes sources vs résumé • Question/réponse: sans lecture, lecture du résumé et lecture du texte

  32. Conférences et évaluation (2) • MUC (Message Understanding Conference) • Entités nommées • Coréférence des entités (anaphores) • Instantiation de gabarits (templates) prédéfinis • Instantiation de scénarios par gabarits

  33. Conférences et évaluation (3) • DUC (Programme TIDES) • Précision/Rappel • Méthode utilitaire (Radev et al.) • Similarité de contenu

  34. Discussion et analyse • Top-down • De la structure vers le contenu • Bottom-up • Du contenu (mots, phrases) vers la compréhension • Hybride • Dans les deux directions simultanément ou en complément

  35. Évaluation formelle • Toute les méthodes ne sont pas évaluées • Évaluations varient • Corpus de test différent • 25% de taux de compression ! • 2 pages incohérentes pour 8 pages cohérentes (et encore)

  36. Avenir • Abstraction • Plus de rigueur • Passer de l’expérimentation à l’application • Améliorer la lisibilité • Améliorer l’interaction avec l’usager

  37. Conclusion • Explosion du domaine • Intégration des technologies connexes • Traitement en langue naturelle • Recherche d’information • Avenir prometteur • Encore beaucoup de travail

More Related