1 / 22

Journée de l'Innovation Collaborative

Journée de l'Innovation Collaborative. 28 mars 2013. Dominique LAURENT. SYNAPSE Développement. Analyse sémantique textuelle. Analyse sémantique textuelle. Plan Analyse sémantique profonde. Les noms communs Analyse sémantique profonde. Les noms propres Question-Réponse

nelson
Download Presentation

Journée de l'Innovation Collaborative

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Journée de l'Innovation Collaborative 28 mars 2013 Dominique LAURENT SYNAPSE Développement Analyse sémantique textuelle

  2. Analyse sémantique textuelle • Plan • Analyse sémantique profonde. Les noms communs • Analyse sémantique profonde. Les noms propres • Question-Réponse • Analyse d’opinion et de sentiments • Extraction de connaissances

  3. Analyse syntaxico-sémantique • Ressources • L’analyse s’appuie sur • Plus de 300 000 lemmes de noms communs • Plus de 800 000 lemmes de noms propres • Une base grammaticale et sémantique de plus de 1 460 000 informations • Une taxonomie sur 180 000 mots et expressions • Exemple d’analyse sur une phrase du Monde (article sur Chypre,19 mars 2013) • « Le plan de sauvetage de Chypre, conclu samedi à Bruxelles, est conditionné par l'instauration d'une taxe sur les dépôts bancaires. »

  4. Une analyse sémantique en profondeur • Désambiguïsation sémantique • L’analyseur gère: • Plus de 25 000 sens pour environ 9000 mots polysémiques en français, • Près de 15 000 sens pour environ 6000 mots polysémiques en anglais • Plus de 120 000 expressions (nominales, verbales, adverbiales) • Anaphores • L’analyseur gère: • Les anaphores pronominales (personnels, possessifs, démonstratifs), • Les anaphores adjectivales (possessifs, démonstratifs), • En anglais et en français. • Correction grammaticale • Taux de bonne suggestion en unique proposition de plus de 90% en correction orthographique, • Taux de correction grammaticale supérieur à 85% (60% à 70% en correction automatique) • Fréquences d’usage • Pour l’ensemble des mots et expressions • Taxonomie • Sur 4 niveaux • 3387 feuilles au niveau 4 • Plus de 200 000 mots et expressions classifiés en 4 langues : français, anglais, espagnol, portugais • Correspondance multilingue des traductions selon la classe de l’ontologie

  5. Mots-clés et concepts-clés (textes du Figaro sur Chypre, 18-19 mars 2013) • Extraction de mots-clés : Extraction de concepts-clés :

  6. Analyse sémantique textuelle • Plan • Analyse sémantique profonde. Les noms communs • Analyse sémantique profonde. Les noms propres • Question-Réponse • Analyse d’opinion et de sentiments • Extraction de connaissances

  7. Extraction d’entités nommées

  8. Normalisation des entités nommées • Siglaison • Les sigles peuvent s’écrire : • En capitales (UE) • En capitales avec points abréviatifs (U.E.) • En capitales avec points abréviatifs et espaces (U.  E.) • En toutes lettres (Union Européenne) • Équivalents dans d’autres langues (EU, etc.) • Anaphores • « Le cas de Chypre et de son secteur bancaire est unique » (Le Figaro, 18/3/2013) • « L’actuel premier ministre luxembourgeois, n'a quant à lui pas caché ses réserves vis-à-vis d'un plan qu'il juge lacunaire. » (Le Monde, 19/3/2013) • Appellations • Le président chypriote est : • Nicos Anastasiades, • Anastasiades • Nicos • Le président chypriote • Le président de la République chypriote… • Désambiguïsation et métaphores • La France • Paris • L’Élysée • Le gouvernement français • François Hollande

  9. Comparaison sur la crise de Chypre (textes des 18 et 19 mars 2013)

  10. Analyse sémantique textuelle • Plan • Analyse sémantique profonde. Les noms communs • Analyse sémantique profonde. Les noms propres • Question-Réponse • Analyse d’opinion et de sentiments • Extraction de connaissances

  11. Question-Réponse Réponse Question Documents Taxonomie • Le Question-Réponse utilise toutes les technologies décrites jusqu’ici. • Analyse syntaxico-sémantique, • Analyse conceptuelle, • Résolution des anaphores, • Extraction d’entités nommées, • Extraction du type de la question, donc de la réponse. Le Question-Réponse utile sur corpus Web et sur corpus fermé. Analyse sémantique profonde Détection du type de la question Extraction de la réponse Traduction éventuelle Analyse des paragraphes Recherche multi-index Extraction des phrases réponses potentielles Analyse sémantique profonde Bases de connaissances Indexation multi-index Pour rappel, Watson utilise 2880 cœurs et a nécessité 200 années/homme. Le temps de réponse avec un seul cœur est d’environ deux heures par question. Moins de 3 secondes pour le moteur Quaero. SIRI (300 années-homme) est plutôt utilisé comme assistant personnel que comme système de question-réponse.

  12. Exemple de question-réponse • Questions factuelles • Taux de bonne réponse entre 70 et 80 % sur des corpus Web bruités (français-anglais, évaluations Quaero). • Corpus bruités, fautes, spam. • Question de la redondance • Difficultés liées aux contradictions dans les textes • Identification du type de la question parfois délicat (« Qui est Jean-Marc Roberts ? », « Quelle est la taille du Taj Mahal ? », « Quel est le nombre de chômeurs en Europe ? »)

  13. Exemple de question-réponse • Questions non factuelles • Taux de succès de 70% pour les définitions, de 40 à 50% pour les questions du type « comment » ou « pourquoi ». • Mêmes problèmes que pour les questions factuelles, avec un impact plus important car la réponse ne peut être identifiée qu’après une analyse fine du texte. • Contrairement aux questions factuelles, la réponse à une question non factuelle nécessite souvent plusieurs phrases, une liste issue de l’agrégation de plusieurs documents (par exemple « quels sont les documents nécessaires pour faire un passeport ?»).

  14. Analyse sémantique textuelle • Plan • Analyse sémantique profonde. Les noms communs • Analyse sémantique profonde. Les noms propres • Question-Réponse • Analyse d’opinion et de sentiments • Extraction de connaissances

  15. Analyse de sentiment et d’opinion Analyse d’opinion et analyse de sentiments Ressources Segmentation du texte en Unités Élémentaires d’Opinions Applications Analyse morpho-syntaxique Détecter des prises de position + Polarité de l'opinion au niveau élémentaire négations, modaux, conditionnelles Lexique de termes et expressions subjectifs Etablir des graphes relationnels sur une personne, organisation Modéliser l’information en vue d’une aide à la décision Analyse des relations entre segments contenant des opinions + Lexique client Générer des résumés, classifications d’avis consommateurs Calcul de l’opinion globale Relations de discours Détecter des groupes d’influence

  16. Analyse d’opinion et analyse de sentiments (avec Radio France) • Une technologie complexe • Repose sur une analyse sémantique profonde des phrases et du texte, • Intègre des lexiques spécifiques pour les opinions et pour les sentiments, • Extrait les opinions et les sentiments selon la polarité avec une échelle d’intensité (-3 à +3) • Extrait le type d’opinion (conseil, jugement, sentiment), • « pas mal » ne veut pas dire bien, il faut un traitement fin de la négation mais également des modaux et des conditionnelles. • Difficulté de repérage de marqueurs d’opinion comme « il faudrait que… » ou « il y a qu’à… » • Intérêt du niveau textuel au-delà de la phrase ou de la proposition.

  17. Analyse d’opinion et analyse de sentiments (avec Technicolor)

  18. Analyse d’opinion et analyse de sentiments (avec Technicolor)

  19. Analyse sémantique textuelle • Plan • Analyse sémantique profonde • Entités nommées • Question-Réponse • Analyse d’opinion et de sentiments • Extraction de connaissances

  20. Extraction de connaissances • Machine reading • Analyse sémantique détaillée de gros corpus • Analyse profonde avec résolution des anaphores et désambiguïsation sémantique, • Extraction des relations syntaxico-sémantiques du type « sujet-verbe-objet » ou « sujet-verbe-attribut » avec contexte temporel et spatial, • Couplage du moteur à des bases de connaissances propriétaires ou externes (du type Dbpédia, OpenCyc, etc.), • Constitution de bases de connaissances à partir des triplets extraits, • But ultime : « comprendre » les textes. • Moteur d’inférence • Le moteur d’inférence enrichit les bases de connaissances en inférant de nouvelles connaissances • Bases de règles à partir de la taxonomie et à partir de bases de connaissances externes (du type catégories Wikipédia), • Bases d’événements et règles liées au déroulement et au contexte de ces événements, • Amélioration des réponses à des questions non factuelles, • Intérêt pédagogique à travers une pragmatique linguistique automatisée

  21. Synapse Développement, une TPE dans un projet industriel d’importance. • Synapse Développement dans Quaero : • Très petit partenaire ! (moins de 1% du budget) • Avantages de Quaero pour une TPE : • Projet sur 5 ans • Visibilité à plus long terme • Développements plus stratégiques, moins tactiques • Croissance de 50% de l’effectif durant Quaero. • Développements collaboratifs avec des industriels de taille (Technicolor, Orange, Exalead, maintenant Dassault systèmes). • Intégration des entités nommées dans le CMSE (Exalead) • Intégration des entités nommées et de l’analyse d’opinions et de sentiments dans le PVAA (Technicolor) • www.synapse-fr.com/pro

  22. Fin Merci de votre attention, Vos questions sont les bienvenues !

More Related