1 / 27

Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et

Segmentation et étiquetage des textes par la méthode d’exploration contextuelle. Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008. Plan Éléments définitoires Problématiques générales

taran
Download Presentation

Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Segmentation et étiquetage des textes par la méthode d’exploration contextuelle Ghassan Mourad Univ. Ain Chams, Caire, Egypte, 17 decembre 2007 et ICAR-CNRS (Univ Lyon II et CNRS), Lyon les 4-5 avril 2008.

  2. Plan • Éléments définitoires • Problématiques générales • La méthode d’Exploration Contextuelle • Exemple de segmentation • Exemple de filtrage • Présentation et exemples d’analyse par Sarfiyya

  3. Éléments de définition et corpus • La citation : terme générique ; tout fragment textuel rapporté, écrit ou prononcé, avec ou sans guillemets; • Information Citationnelle : la citation dans son co(n)texte • La citation proprement dite, le cité, et l’introducteur (verbe, préposition, autres marqueurs) وقد أعربتجمعية مرض الرعاش - باركنسون - عن سعادتها بالتقرير. وقالمتحدث باسمها إن الاستنساخ العلاجي قد يمكن من التوصل إلى علاج لمرض باركنسون . Corpus de repérage assafir Corpus de validation : al ahram

  4. La méthode d’exploration contextuelle L’EC relève de l’analyse sémantique de texte. Elle permet de prendre en compte des indices contextuels internes au texte pour : - lever des indéterminations sémantiques - prendre certaines décisions dans la construction du sens et le filtrage de certaines informations, la segmentation, etc. [Desclés & al. 91, Desclés 93, 97, Jouis 93, Berri 96…] Un système d’EC fait appel à des connaissances exclusivement linguistiques - indices déclencheurs ou indicateurs - indices complémentaires et à un ensemble de règles d’EC

  5. Contexte interne, ou contexte indépendant du domaine (J.-P. Desclés)

  6. Chaque règle est de la forme : SI U (indicateur) est identifié dans un espace de recherche E et SI l'on constate la présence des indices complémentaires (V1, ..., Vn)&/ou (W1, ..., Wm) avant et/ou après U ALORS prendre la décision D

  7. Méthode d’EC Décision Marqueurs déclencheurs Indices gauches Indices droits

  8. questionnement قال ماذا فلان

  9. Méthode d’EC Décision questionnement Marqueurs déclencheurs Indices gauches Indices droits قال فلان ماذا

  10. DR ou citation قال انفلان

  11. Méthode d’EC Décision DR ou citation Marqueurs déclencheurs Indices gauches قال Indices droits انفلان

  12. Principe de base de segmentation Marqueurs déclencheurs Signes de ponctuation ؛ /: / , / !/ ? / \r /.. Contexte gauche Contexte droit Coordination و، ف, ثمّ Connecteurs بينما, لكن, إذ, هكذا،... Règles de segmentation en phrases

  13. Règle de segmentation • La virgule

  14. CG M CD مرVerbe Espace , وفي صباحmarq. Temp. La segmentation de textes arabes nécessité des connaissances morpho-syntaxiques, indices temporels, des connecteurs, etc. وفي صباح مشرق من اصباح الصّيف, مرّ بابن عمّه إسماعيل SI la virgule est suivie par un espace ET Si l’espace est suivi d’un verbe ET SI le contexte droit de la virgule commence par un marqueur temporel وفي صباح, وحـوالي الظّهر, في يوم من الأيّام, ذات يوم, ذات ليلة, وذات يوم, ALORS la virgule ne marque pas la fin de la phrase

  15. Règles de segmentation • La virgule Exemple d’application: • Texte source ... قـبل سـنين كـثـيرة, كـانت الجـبال المـحـيطة بالطّـيبة خضـراء مثـل البساتين, لكنّ النّاس كـانوا يـريـدون خـشـبا, ولا يـهمّهم من أيـن. • Texte segmenté <a>...قبل سنين كثيرة,كانت الجبال المحيطة بالطّيبة خضراء مثل البساتين,</a > <a>لكنّ النّاس كانوا يريدون خشبا,</a> <a>ولا يهمّهم من أين.</a>

  16. Filtrage de citations Par des règles d’exploration contextuelle, Mais exprimée par des automates selon Sarfiyya

  17. Par de règle d’exploration contextuelle SI la classe de verbe de dire qâla (U : indicateur) est identifiée dans un espace de recherche E (segment textuel = Phrase graphique) et SI l'on constate la présence des indices complémentaires inna après U qâla ALORS le segment textuel E est une inf. Cit

  18. Identification sous forme d’expression régulière ou automate &ClasseDeVerbeIntrocduteur de la forme Dire + CDC* + inna qâla mot* inna (a-dit mot* que)

  19. Le filtrage d’autres notions sémantiques Exemple d’annonces thématiques min el ….. anna, « Il est ….. que », Ex : Min el (mouhem+ moufid+darouri+mouhtamal) anna… Ex: Il est ( possible + probable + sûr + …..) que…

  20. Conclusion • Il est nécessaire d’avoir des ressources linguistiques fiables ; et une bonne organisation de ces ressources : • Marqueurs déclencheurs ou indicateurs, Indices complémentairesRègles d’EC; • L’EC permet le parcours du texte selon le contexte, en d’autres termes, il est facile de voir le contexte gauche et droit ; • Les schémas préétablis parcourent souvent dans un seul sens ; la vision et la modélisation linguistique ne sont pas très visibles ; • Le retour vers le contexte droit après l’identification de marqueurs déclencheurs n’est pas, à ma connaissance, très évident ; • Il est important de trouver une solution d’analyse et de parcours …

  21. La linguistique informatique comme discipline… Effectivité Observation, description, théorisation, … Informatique Linguistique «Pensée informatique» Linguistique Informatique Dans la LI se déploient le caractère théorique de la linguistique et l’effectivité de l’informatique

  22. Faire de la Linguistique informatique Expression réelle de la notion dans les textes Informatisation opérationnelle Formalisation opératoire Connaissances « intuitives » sur une notion donnée Observation réelle Expérimentation, validation Observables

  23. Analyser, traiter, extraire Texte(s) ---- --- -- -- -- ---- ---- -- -- ----- -- - - --- -- --- -- - -- - -- --- ---- -- -- - --- - ---- - -- --- -- ---- - -- analyser générer annoter … Un segment de texte précis -- -- --- --- --- -- - -- --- - -- - Frontières Identification Et portée Problématiques générales dans le cadre de la LI (mais aussi en TAL) Pour …

  24. 1e Problématique : passer d’un texte non segmenté à un texte segmenté (balisé), selon des règles de segmentation Texte Texte balisé (segmenté/structuré) ------- --------- ------ ----- ----------- - -------- ------ ----- ------- - ----- - --- ----- ----------- - ----- ---- ----- ----------- - -------- - ---- ----- ----------- - ------ - ---- ----- ----------- - -------- ------- ---- ----- ----------- - -------- - ------ ----- --------- - -------- - ------ ----- -------- - -------- - -------- - ------------- ------ <t>------- --------- </t> <s><p><a>------ </a><a>-----</a> ----- ----- - -- - ---------- ----- ----- ------ ------</a><p> <li> ------ ----- ------- - ----- </li> <li> --- ----- ----------- - -----</li> <p>---- ----- ----------- - -------- - ------ ----- ----------- - -------- - <t2>--------</t2> ------- -- --- -- -- ---- ------- </p> <p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- - ------ ----- ---- - -------- -</a></p></s>

  25. 2e Problématique, annoter le texte par des balises… XML ou autre, selon les marques linguistiques Texte étiqueté par des notions sémantiques et discursives Texte segmenté structuré <t>------- --------- </t> <s><p><a>------ </a><a>-----</a> ----- ----- - -- - ---------- ----- ----- ------ ------</a><p> <li> ------ ----- ------- - ----- </li> <li> --- ----- ----------- - -----</li> <p>---- ----- ----------- - -------- - ------ ----- ----------- - -------- - <t2>--------</t2> ------- -- --- -- -- ---- ------- </p> <p><a>------ -----</a> <a>----------- ---- ----- ---- ---- ---- --- -------- - ------ ----- ---- - -------- -</a></p></s> <t>------- --------- </t> <s><p><a> <AT>------ </AT> </a><a>-----</a> <INT>-- ----</INT> - <CIT> ----- ------ </CIT> ------</a><p> <li> ------ ----- ------- - ----- </li> <li> --- ----- ----------- - -----</li> <p>---- ----- ----------- - --- - ------ ----- - - -------- - <t2>--------</t2> <CON>------- -- - </CON> ------- </p> <p><a>------ -----</a> <a>----------- ---- ----- ---- --- -------- - ------ - -------- -</a></p></s>

  26. 1a Problématique Définir les frontières – formelles - des segments à traiter Nécessite des modules de pré-traitementde textes, ou des modules de segmentations La réalisation demande une étude systématique des signes typographiques pour trouver une certaine régularité d’utilisation, & l’étude de contextes de certains connecteurs (Ar)

  27. 2e Problématique L’identification et le filtrage de certains segments textuels Ex. la citation • Nécessite • une étude systématique de texte • donc • de ses composants linguistiques • - par une étude et fouille sémantique • des ses composants typographiques • - par une étude sémantique de la ponctuation, • de l’architecture de texte et de la disposition spatiale de certains segments

More Related