1 / 32

Génération et analyse de mots arabes (GAMAR) : vers une plateforme d’enrichissement des requêtes pour la recherche d’in

Génération et analyse de mots arabes (GAMAR) : vers une plateforme d’enrichissement des requêtes pour la recherche d’information ou la fouille de textes. Joseph Dichy Université Lumière-Lyon 2 ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH) Journées du groupe SILAT, Lyon, 26-27.03.2010:

carver
Download Presentation

Génération et analyse de mots arabes (GAMAR) : vers une plateforme d’enrichissement des requêtes pour la recherche d’in

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Génération et analyse de mots arabes (GAMAR) : vers une plateforme d’enrichissement des requêtes pour la recherche d’information ou la fouille de textes Joseph Dichy Université Lumière-Lyon 2 ICAR – UMR 5191 (CNRS/Lyon 2-ENS_LSH) Journées du groupe SILAT, Lyon, 26-27.03.2010: Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais)

  2. Mots clés • recherche d'information et fouille de textes • ressource lexicale (base de connaissances) • théorie des spécificateurs linguistiques • propriétés lexico-sémantiques ; • ontologies linguistiques ; • relations lexique-grammaire  • Génération vs analyse • lexiques générés J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  3. Objet général • Quelles ressources lexicales (conçues comme bases de connaissances) sont nécessaires/utiles pour la recherche d'information, la fouille de textes, la veille stratégique, l'indexation automatique, etc. ? J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  4. Domaine d'illustration • La recherche d'information, la fouille de textes, la veille stratégique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  5. Recherche d'information avec Google 1a • Dans la veille stratégique, la recherche d'information ou la fouille de textes, il y a en gros deux approches: • l'analyse morphologique au plein sens du terme, coûteuse en temps • celle de Google (très rapide), que je vais rappeler en qq mots: • Dans la 1re phase: page ranking (note de 0 à 10) - "Google dance" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  6. Recherche d'information avec Google 1a (rappel - suite) • Cette approche exclut le recours à un analyseur morphologique associé à une base de données lexicales, • en raison des ralentissements qui en résulteraient : • Pour la recherche وزراء التربيةwuzarâ' al-tarbiya"ministres de l'éducation", on obtient 5 M de résultats en 0,21 sec. Avec un analyseur analysant 100.000 mots par seconde, cela prendrait 50 x plus de temps, soit 17,5 minutes! • A quoi s'ajouteraient les ralentissements des phases 1 (crawling, pageranking…) et 2 (indexation…) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  7. Recherche d'information avec Google 2a qq résultats • Pour ra'as al-mal رأس المال "capital", au 21.03.2010: 2.380.000 résultats, incluant: • la forme avec l'article ra'as al-mal رأس المال • la forme-"valise" (en arabe naḥt) رأسمال , variante graphique راسمال • N'incluant pas les pluriels avec variation du patron morphosyllabique (≠ pluriels par suffixation): • رؤوس(ال)أموال – 638.000 rés. (recherche propre) • رساميل – 65.600 rés. (recherche propre) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  8. Recherche d'information avec Google 2b qq résultats • En français, il faut faire deux requêtes, l'une pour "capital", l'autre pour "capitaux" • En anglais, on rencontre un problème d'ambiguïté: capital au sens de "capitale" et capital au sens de "capitaux" • Dans les trois langues, il est difficile de rechercher sélectivement l'ouvrage de Karl Marx, Le Capital. • Mais ne pleurons pas! Nous sommes "contents" d'avoir ce que nous avons… Question: peut-on faire mieux sans perdre ce que nous avons? J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  9. Recherche d'information avec Google 2c qq résultats • Avec wizâra, وزارة "ministère", on a: • pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  10. Recherche d'information avec Google 2c qq résultats • Avec wizâra, وزارة "ministère", on a: • pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. • pour xârijiyya, 3.520.000 rés. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  11. Recherche d'information avec Google 2c qq résultats • Avec wizâra, وزارة "ministère", on a: • pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. • pour xârijiyya, 3.520.000 rés. • pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  12. Recherche d'information avec Google 2c qq résultats • Avec wizâra, وزارة "ministère", on a: • pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. • pour xârijiyya, 3.520.000 rés. • pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; • pour wazîr (al-)tarbiya, وزير (الـ)تربية "ministre del'éducation" 5.650.000 rés. (incluant wazîrat (al-)tarbiya, la seule ministre de l'éducation arabe, qui est palestinienne) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  13. Recherche d'information avec Google 2c qq résultats • Avec wizâra, وزارة "ministère", on a: • pour (al-)wizâra (al-)xârijiyya, (الـ)وزارة (الـ)خارجية , "ministère des affaires étrangères" 2.450.000 rés. • pour xârijiyya, 3.520.000 rés. • pour wazîr (al-)xârijiyya, وزير (الـ)خارجية "ministre des affaires étrangères", 5.840.000 résult. qui recoupent en grande partie les précédents en raison de phénomènes de cooccurrence; • pour wazîr (al-)tarbiya, وزير (الـ)تربية "ministre del'éducation" 5.650.000 rés. (incluant wazîrat (al-)tarbiya, la seule ministre de l'éducation arabe, qui est palestinienne) • pour wuzarâ' (al-)tarbiya, وزراء (الـ)تربية "ministres del'éducation" (au plur.), 5.000.000 de rés., ne recoupant les précédents qu'en cas de cooccurrence (elles sont fréquentes) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  14. Recherche d'information 2d :synthèse sur résultats avec Google • Une meilleure prise en charges des mots composés qu'en mars-avril derniers • Trop d'information, les requêtes n'étant que très difficilement contextualisabes (avec les "__") • Pas assez d'information: • les variations morphologiques ne sont pas prises en charge (en arabe comme en français) • les recoupements entre formes morphologiquement apparentées (par ex., sing.-plur.) restent aléatoires • …et le resteront, car les cooccurrences ne constituent pas une relation sémantique stable pour l'apprentissage automatique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  15. Peut-on améliorer ces résultats? • Oui, dans certaines conditions. • Deux cas généraux: • 1- Recherche du niveau du mot • 2- Recherche contextualisée • Dans les deux cas: quelle base de connaissances est nécessaire? • Dans cet exposé: cas 1 • Dans l'exposé avec M. Anizi: cas 2 J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  16. Au niveau du mot • De quoi peut avoir besoin?  des différentes formes morphologiques d'un même mot – en l'occurrence de noms • pluriel par suffixation : našâṭ نشاط, "activité", plur. suffixé: našâṭât نشاطات • plur. par modification du patron (ou "pluriel brisé") :'anašṭa أنشطة  NB. Les verbes ne font en principe pas l'objet d'une recherche d'information. J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  17. Autres ex. du niveau du mot • ḥummâحمى‎, "fièvre" : 1 240 000 résultats (0,28 secondes ) – pas de pluriel • le plur. ḥummâyâtحمايات : 129 000 rés.‎ (0,36 sec.) – c'est un plur. par suffixation, mais avec une transformation de ىâ en يy, ce qui supposerait soit une analyse par règles, soit la consultation d'une base de données lexicale. • naḫlaنخلة‎, "palmier-dattier" (mais aussi: nom de famille, par ex. du chanteur N'ûla Nakhlé) : 1 340 000 rés. (0,41 secondes)  - pas d'occurrence de naḫlنخل (collectif, dont naḫlaنخلة‎ est le singulatif) • naḫlنخل : 520 000 résultats J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  18. Problèmes de polysémie 1 • Des bruits peuvent résulter du fait qu'un même mot peut avoir plusieurs sens, exemple: • Nom 1: câmilعامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié" • Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch) • Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier" • Adjectif: = "actif", "en fonction", "effectif" • Requête عامل : 12 000 000 de résultats (0,23 secondes) : le bruit est très élevé, la requête ne pouvant porter que sur un seul sens J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  19. Problèmes de polysémie 2 • Des bruits peuvent résulter du fait qu'un même mot peut avoir plusieurs sens, exemple: • Nom 1: câmilعامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié" •  74 700 pour عاملون (ss occ. du sing. ni de عاملو) •  148 000 pour عاملو (ss occ. du sing) •  144 000 pour عاملات (ss occ. du sing) • Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch) •  5 370 000 résultats (ss occurrence du sing.) • Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier" •  2 610 000 résultats (ss occurrence du sing.) • Adjectif: = "actif", "en fonction", "effectif" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  20. Recours au générateur de DIINAR • Les lexiques générés à partir de DIINAR peuvent permettre – au niveau du mot – de sélectionner une requête pertinente, en passant par le pluriel. •  agent lexical morphologique J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  21. Base de connaissances de cooccurrences • au niveau des groupes de mots, des cooccurrences peuvent être repérées, ex.: • عامل (الـ)بناء - (الـ)زراعة – câmil (al-)binâ' – (al-)zirâca : "ouvrier en bâtiment", "agricole" • عاملات (الـ)منازل – "travailleuses ménagères" •  agent lexical de cooccurrence J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  22. Vers une interface d'interrogation 1 • Saisie: câmilعامل • Consultation des lexiques générés de DIINAR: L'interface morpho-lexicale demande à l'utilisateur le sens qui l'intéresse: • Nom 1: câmilعامل, plur. par suffixation: câmilûn (fem. –ât) = "travailleur", "employé", "salarié" • Nom 2: -- plur. "interne" (par modification du patron): cawâmil عوامل = "facteur" (de qqch) • Nom 3:-- plur. "interne" (par modification du patron): cummâl عمال = "ouvrier" • Adjectif: = "actif", "en fonction", "effectif" J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  23. Vers une interface d'interrogation 2 • Saisie: câmilعامل • Consultation des lexiques de cooccurrence (à construire!) L'interface de cooccurrence lexicale demande à l'utilisateur le contexte qui l'intéresse: عامل (الـ)بناءcâmil (al-)binâ' , "ouvrier en bâtiment"  عامل (الـ)زراعةcâmil (al-)zirâca, "ouvrier agricole"  عاملعضوcudw câmil, "membre actif" (câmil = adjectif) • En cas de recherche par les pluriels: collaboration des deux agents d'aide à la recherche ou à la fouille… J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  24. Les ressources lexicales nécessaires • Pour le niveau du mot: DIINAR (8 hommes/années) • Pour le niveau des collocations: beaucoup de travail à faire, avec une démarche prolongeant la théorie des spécificateurs implémentée dans DIINAR + un format lexical nouveau (travaux en cours) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  25. Annexe: DIINAR.1 J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  26. DIINAR.1(DIctionnaire INformatisé de l’ARabe – version 1)en arabe : Ma‘âlî–معالي« Mu‘jam al-‘Arabiyya l-’âlî »(معجم العربية الآلي) • Joseph Dichy, Université Lumière-Lyon2 et groupe de recherche SILAT (ICAR CNRS-Lyon 2) • Abdelfattah Braham, Université de la Manouba et IRSIT • Salem Ghazali, Institut Supérieur des Langues de Tunis et IRSIT • Mohamed Hassoun, ENSSIB (Villeurbanne) et groupe de recherche SILAT (commun à ICAR et à ELICO ) J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  27. La base de connaissances DIINAR.1 comprend 129.000 entrées environ • Entrées verbales : 20.000 env. • Entrées déverbales : 79.000 env. • Entrées nominales : 29.000 env. (+ env. 10.000 pluriels 'brisés') • Noms propres : 1.000 env. • Mots-outils : 200 env. • + l’ensemble complet des enclitiques, proclitiques, préfixes et suffixes de l’arabe • lexiques générés: • formes fléchies (mots minimaux): 7,7 M • formes développées (mots maximaux): 230 M J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  28. Les spécificateurs morphosyntaxiques inclus dans DIINAR.1 • A chaque unité lexicale sont associés des spécificateurs morphosyntaxiques correspon-dant aux relations grammaire-lexique opérant au niveau du mot (Hassoun, 1987, Dichy, 1990). • Les spécificateurs incluent également les liens dérivationnels entre formes morphologiquement reliées, telles que: • verbe  déverbal ou, pour les noms, singulier  “pluriel brisé”, etc. • Les spécificateurs morphosyntaxiques appartien-nent à des inventaires finis et exhaustifs (Dichy, 1997). J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  29. Principe de compatibilité connaissances-processus La base de données DIINAR.1 est soumise à une contrainte méthodologique fondamentale, celle de la compatibilité : (1) avec les deux processus asymétriques de la génération et de l’analyse de textes écrits (Dichy 1990 et 1993), et (2) avec les deux réalisations en graphie vocalisée ou non de l’arabe (Hassoun 1987). On dira que DIINAR.1 est conçu en fonction du principe de compatibilité connaissances-processus (Dichy 1997). J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  30. Génération ET analyse • traitement exhaustif des données • lexiques générés J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  31. beaucoup de travail fait, et de travail à faire, mais en recherche d'information… • Où sont les grands explorateurs à qui l'on devra l'oubli d'un continent ? • Guillaume Apollinaire J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

  32. Merci de votre attention أشكر لكم إصغاءكم J. Dichy - JEI Veille stratégique avec approches sémantiques - Lyon 26-27.03.2010

More Related