la narration en g n ration automatique de texte n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
La narration en génération automatique de texte PowerPoint Presentation
Download Presentation
La narration en génération automatique de texte

Loading in 2 Seconds...

play fullscreen
1 / 19
marli

La narration en génération automatique de texte - PowerPoint PPT Presentation

99 Views
Download Presentation
La narration en génération automatique de texte
An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. IFT6010 TALN La narrationen génération automatique de texte Pierre-Luc Vaudry 18 décembre 2012

  2. Plan • Génération automatique de texte (NLG) • Applications • Phases de traitement • Narration en NLG • Le problème • Améliorations • Ressources à exploiter

  3. Génération de texte (NLG) • Intelligence artificielle et linguistique informatique • Entrée : données sous forme non linguistique • Connaissance de la langue • Connaissance du domaine • Sortie : texte en langue naturelle • Produit : rapports, messages d'aide, pages web, etc.

  4. Applications de NLG • Rapports et bulletins météorologiques • Description de modèles orientés objet • Lettres personnalisées pour l'arrêt du tabagisme • Résumés par abstraction d'articles de presse • Rapports médicaux à partir de données temporelles discrètes et continues • Dialogue libre dans un jeu vidéo

  5. Phases de traitement en NLG • IA • Dépendant du domaine • Linguistique • Indépendant du domaine

  6. Planification du document • Sélection du contenu • But communicatif, public cible, données disponibles, contraintes de longueur, etc. • Trier les données par importance • Structuration du document • Regroupements • Relations ➝ sélection de contenus reliés • Ordre

  7. Microplanification • Lexicalisation • Unités lexicales • Structures syntaxiques • Génération d’expressions référentielles • Coréférence : anaphores, désignations variées • Deixis : contexte d’énonciation • Aggrégation • Décider quoi factoriser • Comment le factoriser

  8. Réalisation de surface • Réalisation linguistique • Syntaxe • Morphologie • Morphophonologie • Espacement, ponctuation, casse • Text-to-speech • Réalisation de la structure du document • Paragraphes, sections, titres, sous-titres

  9. Narration en NLG • Données temporelles ➝ événements • Présentation des données • Graphique : courbes à interpréter • Textuelle : récit fournit une interprétation • Prise de décision • Texte rédigé par spécialiste > graphique • Particulièrement pour les novices • Texte généré ≈ graphique • Diagnostic : structure narrative déficiente

  10. Améliorer la narration • Situation initiale et situation finale • Acteurs principaux au premier plan • Marqueurs temporels • Détails de mise en contexte • Enchaînement des thèmes (topical flow)

  11. Réalisation de la narration • Sélection du contenu • Structure du document • Marqueurs de relation • Selon les relations découlant de la structure • Structure syntaxique • Actants exprimés et mis au premier plan • Coréférence

  12. Approche ascendante insuffisante

  13. Un problème apparenté Génération de scénarios de fiction (Story plot generation) • BD de trames narratives provenant d’histoires existantes • Requête pour créer une nouvelle histoire • Chercher des trames narratives semblables • Modifier et combiner avec BD et ontologie • Générer le texte

  14. Ressources pour l’anglais • RST DiscourseTreebank • Structure hiérarchique (arbre) • Pas de distinction entre les niveaux • Noyau ➝ Satellite • Feuilles : propositions (21,789 EDU) • Penn DiscourseTreebank • Marqueurs de relation explicites (16K) et implicites (20K) • Prédicats discursifs entre deux événements, états ou propositions

  15. Ressource pour le français • Corpus ANODIS • 2 annotations • relations rhétoriques • structures multi-échelles • 4 sources, dont : Est Républicain • Genre brèves, type narratif • 39 articles, 10 000 mots, 250 mots/texte

  16. Utilisation des corpus • Apprentissage automatique • Taille suffisante, généralisation • Marqueurs de relation • Microplanification (sentence planning) • Occurence, sélection, positionnement • Structure narrative • Proposition : modèle de structure discursive • Planification descendante-ascendante

  17. Conclusion • Relations entre événements • Peu d’exemples • Règles du domaine • Ontologie • Marqueurs de relation et structure discursive • Corpus disponibles • Moins dépendants du domaine • Apprentissage automatique possible

  18. Références • A Gatt, E Reiter. (2009). SimpleNLG: A realisation engine for practical applications. Proceedings of the 12th European Workshop on Natural Language Generation. ENLG2009. • A McKinlay, C McVittie, E Reiter, Y Freer, C Sykes, R Logie (2010). Design Issues for Socially Intelligent User-Interfaces: A Qualitative Analysis of a Data-to-Text System for Summarizing Clinical Data. Methods of Information in Medicine, 49:379-387. • F Portet, E Reiter, A Gatt, J Hunter, S Sripada, Y Freer, C Sykes (2009). Automatic Generation of Textual Summaries from Neonatal Intensive Care Data. Artificial Intelligence,173:789-816. • JR Cristy (2011). SimpleNLG Google Code Wiki Tutorial, Appendix A, [https://code.google.com/p/simplenlg/wiki/AppendixA] (consulté le 17 décembre 2012).

  19. Références • P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005). Story plot generation based on CBR. Knowledge-Based Systems, 18:235-242 • R Prasad, A Joshi, N Dinesh, A Lee, E Miltsakaki, B Webber (2005). The Penn Discourse TreeBank as a Resource for Natural Language Generation. Proceedings of the Corpus Linguistics Workshop on Using Corpora for Natural Language Generation.Birmingham, U.K., July 2005. • L Carlson, D Marcu, ME Okurowski (2001). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. Proceedings of the 2nd SIGDIAL Workshop on Discourse and Dialogue. Eurospeech 2001, Denmark, September 2001. • CLLE-ERSS (2012). Corpus ANODIS. [http://redac.univ-tlse2.fr/corpus/annodis/] (consulté le 18 décembre 2012)