slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe PowerPoint Presentation
Download Presentation
Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe

Loading in 2 Seconds...

play fullscreen
1 / 46

Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe - PowerPoint PPT Presentation


  • 118 Views
  • Uploaded on

CITALA 2009. Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe C.R.S.T.D.L.A. THEME. Vers un système d’extraction d’informations pour les textes de la presse arabophone en ligne ArIExtract. ACHIT Abdelmadjid aachit@yahoo.com

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe' - arnold


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

CITALA 2009

Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe

C.R.S.T.D.L.A

THEME

Vers un système d’extraction d’informations pour les textes de la presse arabophone en ligne ArIExtract

ACHIT Abdelmadjid aachit@yahoo.com

Division Informatique Linguistique, CRSTDLA

Dr AZZOUNE Hamid azzoune@yahoo.fr

Département d’Informatique, USTHB

3ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA2009

4 – 5 Mais 2009, Rabat, Maroc

slide2

CITALA 2009

  • Plan
  • Introduction
  • Présentation de l’extraction d’informations
  • Conception du système ArIExtract
  • Problèmes rencontrés dans le cas des textes arabes
  • Conclusion
slide3

CITALA 2009

Introduction

slide4

CITALA 2009

Une femme à la tête de Yahoo

par Myriam Berber

Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU

L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

slide5

CITALA 2009

Une femme à la tête de Yahoo

par Myriam Berber

Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU

L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

slide6

CITALA 2009

Formulaire - Nomination

Titre: Une femme à la tête de Yahoo

Source: site web de RFI

Date: 14/01/2009

Date de Dernière mise à jour:15/01/2009

Horaire: 15:38

Auteur: Myriam Berber

Événement / Fait: Nomination

Responsable / cadre: Carol Bartz

Ancien poste: PDG

Ancienne organisation : l’éditeur américain de logiciels Autodesk

Nouveau poste: PDG

Nouvelle organisation: groupe internet Yahoo

En remplacement de: Jerry Yang

Date Nomination: mercredi 14 janvier 2009

slide7

CITALA 2009

chiffre d'affaires de Michelin en net recul

LEMONDE.FR avec AFP | 28.04.09 | 19h16

Le groupe français de pneumatiques Michelin a annoncé, mardi 28 avril, une baisse de 14,2 % de son chiffre d'affaires au premier trimestre par rapport à la même période de 2008, à 3,512 milliards d'euros. Cette baisse traduit un recul des volumes de ventes de 24,4 %, lié à la chute des marchés de pneumatiques, atténué par l'amélioration moyenne du prix des produits vendus, explique Michelin dans un communiqué.

slide8

CITALA 2009

Formulaire – communiqué d’entreprise – Chiffre d’affaires CA

Groupe / Entreprise: Michelin

Nationalité: Française

Domaine : pneumatiques

Date annonce: mardi 28 avril

Tendance du CA: en baisse

Période: premier trimestre 2009

Par rapport à la période: premier trimestre 2008

Tendance - Valeur (%): 14,2 %

Montant CA: 3,512 milliards d'euros

…etc

slide9

CITALA 2009

رئيس الجمهورية جلال طالباني يلتقي الرئيس الامريكي باراك اوباما

07 April, 2009 11:51:00

التقى رئيس الجمهورية جلال طالباني في احد القصور ضمن مجمع الفاو ببغداد، مساء أمس الثلاثاء رئيس الولايات المتحدة الامريكية باراك اوباما و الوفد المرافق له. ….

slide10

استخراج المعلومات

CITALA 2009

استمارة - لقاء سياسي

الجريدة: الفيحاء

االموقع: www.alfayhaa.tv/alfayhaa-newspaper/

الكاتب:/

التاريخالمقال: April 07, 2009

الحدث: لقاء

الشخص 1: جلال طالباني

الوظيفة: رئيس الجمهورية

الشخص 2: باراك اوباما

الوظيفة: رئيس الولايات المتحدة الامريكية

التاريخ: مساء أمس الثلاثاء

المكان: احد القصور ضمن مجمع الفاو ببغداد

slide11

CITALA 2009

رابطة أبطال أوروبا مانشستر وأرسنال في أول معركة أوروبية

يلتقي فريقا مانشستر يونايتد و الإنجليزيان، سهرة اليوم، في مباراة ذهاب الدور نصف النهائي لمنافسة رابطة أبطال أوروبا، على ملعب ''أولد ترافورد''

……بمانشستر

slide12

استمارة - مبارة رياضية

الجريدة: الخبر

الموقع: www.elkhabar.com

الكاتب: /

التاريخ: 29/04/2009

الحدث: اعلان عن مبارة

الرياضة: كرة القدم

المنافسة: رابطة أبطال أوروبا

الفريق1: مانشستر يونايتد

البلاد: انجليزي

الفريق2:أرسنال

البلاد: انجليزي

الفائز: /

النتيجة:/

مسجلو الأهداف للفريق1: /

مسجلو الأهداف للفريق2: /

التاريخ: سهرة اليوم

الملعب: أولد ترافورد

المدينة: مانسشتر

CITALA 2009

slide13

CITALA 2009

Présentation de

l’extraction d’informations

slide14

Définition

CITALA 2009

[Cowie J. et Wilks Y. ,(2000) ]définissent l’extraction d’informations comme étant la structuration et la combinaison sélective de données issues d’un ou plusieurs documents textuels.

Pour leur part [Gaizauskas R. and Wilks Y., 1998], ils définissentl’extraction d’information comme une activité qui consiste à remplir une source de données structurées (base de données) à partir d’une source de données non structurées (texte libre).

Selon [Soderland S., Lehnert W., 1994], un système d’extraction d’informations est un système qui produit une représentation de l’information textuelle pertinente dans un domaine particulier pour une application particulière.

Les conférences MUC définissent la tâche d’extraction d’informations comme la tâche consistant à extraire des informations spécifiques et bien définies à partir de textes écrits en langue naturelle dans des domaines restreints, avec l'objectif spécifique de remplir automatiquement des formulaires prédéfinis ou des bases de données.

L’extraction d’information est un processus automatique permettant d’extraire des informations pertinentes et précises à partir de documents non structurés ou semi structurés en langage naturel et permet leur sauvegarde sous une forme structurée du type formulaire ou base de données.

slide15

Documents textuels structurés

Système d’extraction d’informations

Documents textuels non structurés

BD

Processus d’Extraction d’informations

CITALA 2009

slide16

- Conférences

- Ateliers  (Workshops)

- Campagnes d’évaluation / benchmarking

Manifestations scientifiques

CITALA 2009

Bref Historique

La réflexion sur les systèmes d’extraction d’informations fut entamée dès les années 1950, par les travaux de certains linguistes. Par la suite, de nombreuses implantations ont été réalisées, nous pouvons citer celle réalisé à l'université de New York au travers du Linguistic String Project [20], dont le but était de remplir des formulaires à partir de textes médicaux (rapports de radiologie).

slide17

Message Conference Understanding

NTCIR (NII Test Collection for IR Systems) workshop

CITALA 2009

Language-Independent Named Entity Recognition at Computational Natural Language Learning (CoNLL) workshops

Automatic Content Extraction (ACE)

Document understanding Conference

Information Retrieval and Extraction Exercise

Text Analysis Conference

the Multilingual Entity Task Conference (MET), TIPSTER Text project

PASCAL Challenge for Evaluating Machine Learning for Information Extraction

Question Answering at Cross Language Evaluation Forum CLEF

International Conference on Language Resources and Evaluation

Question Answering at The Text REtrieval Conference TREC

slide18

Les conférences MUC

CITALA 2009

MUC 1

Analyse des rapports d'opérations tactiques navales [5]

1987

MUC 2

Idem que MUC 1 [5]

1989

Analyse des textes journalistiques traitant du terrorisme en Amérique Latine, afin d’extraire des dépêches d’agence de presse le maximum d’informations sur des actes terroristes comme le nom de groupes terroristes impliqués, le nom des victimes, les types d’armes utilisées, les dates et les lieux…[15 ].

MUC 3

1991

MUC 4

Idem que MUC 3 [16].

1992

MUC 5

Traitement d’un corpus de nature économique (fusion, rachat, et création d’entreprises internationales et la fabrication de circuits électroniques). [ 17]

1993

MUC 6

C’est une suite de MUC 5: ont traité les changements de dirigeants à la tête des entreprises. [18 ]

1995

MUC 7

Analyse de textes journalistiques rapportant des crashs d’avion et de tirs de missiles. [ 19].

1998

slide19

systèmes Q/R

systèmes de IR

Résumé

automatique

Domaine d’applications

de l’EI

Traduction

automatique

Veille

scientifique

et technique

Extraction

de terminologies

CITALA 2009

Domaine d’applications

structuration en sous t ches de l extraction d informations

CITALA 2009

Structuration en sous tâches de l’extraction d’informations

Identification / reconnaissance des entités nommées

Extraction des relations entres les entités nommées

Extraction des événements

Résolution des coréférences

Déduplication

Désambiguïsation

Inférence

Fusion

slide21

Conférences MUC 6 & 7

- Named entity recognition (NE)

- Coreference Resolution (CO)

- Template Element construction (TE)

- Scenario Template production (ST)

- Template Relation construction (TR)

slide22

CITALA 2009

Tâche de l’Identification des entités nommées

Identification des

entités nommées

Identification des

expressions numériques

Identification des

noms …

Identification des

expressions temporelles

personnes

Lieux

Personnages

fictifs

Entreprises

collectifs

slide23

Expressions temporelles

Date

Durée

Période

Age

Heure

Expressions numériques

Montant financier

Longueur

Acteurs collectifs

Lieux

Volume

Organisation

Ville

Vitesse

Entreprise

Pays

Poids

Institution

Continent

Température

Filiale

Océans

Pourcentage

Agence

Mers

U.Physiques

CITALA 2009

Entités nommées

Acteurs

Acteurs individuels

slide24

CITALA 2009

Exemple:

Une femme à la tête de Yahoo

par Myriam Berber

Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU

L’ancienne PDG de l’éditeur américain de logiciels AutodeskCarol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

personnes

Expressions temporelles

Expressions de locations

entreprises

slide25

CITALA 2009

Extraction des relations entre les entités nommées

  • Détermination de patrons / schémas/ formules linguistiques caractéristiques de relations lexicales (étude linguistique basée sur l’acquisition de marqueurs de relations liées à certaines notions/ concepts).
  • - Étude de la distribution de contextes autour des entités  (étude statistique);

Le Président de la république, Mr Bouteflika a reçu, hier, à la présidence, son homologue le Président tunisien Mr BenAli.

Actant 1 : Mr Bouteflika

Fonction : Président de la république

Actant 2 : Mr Ben Ali

Fonction: Président

Type action : Rencontre

Lieu : Présidence

Temps / Date : hier

……

slide26

Approches et méthodes d’extraction d’informations

CITALA 2009

  • A base de règles contextuelles écrites à la main
  • Elles exploitent des informations morphosyntaxiques et lexicales. Ainsi, elles utilisent des marqueurs lexicaux (ex. Mr pour Monsieur,.. ), des dictionnaires de noms propres et des dictionnaires de la langue générale.
  • - Le développement de ces règles par des experts est long et coûteux
  • - La méthode de l’exploration contextuelle en est un exemple.
  • Langue arabe:
  • A titre d’exdemple, le travail de [Shaalan, 2007] qui a porté sur la conception d’un système de reconnaissance des entités nommées arabes de type noms de personnes PERA basé sur l’utilisation de règles sous forme d’expressions régulières, …etc.

Il s’agit d’une approche basée sur les techniques d’apprentissage automatique. Elle utilise un modèle de langage entraîné sur de larges corpus de textes pré-étiquetés… ce qui est long et coûteux.

Langue arabe:

les travaux qui ont porté sur l’utilisation des supports vecteurs machines SVM pour la reconnaissance des entités nommées arabes. Egalement,

il y’a eu des travaux qui ont porté sur l’utilisation des Modèles de Markov Cachés MMC ainsi que de la méthode de l’entropie maximale [Benajiba &al., 2007] [Benajiba &al., 2008].

Plus récemment sont apparues des approches hybrides tirant parti des avantages respectifs des méthodes linguistique et probabiliste.

Dans les systèmes de ce type, un ensemble de règles est généralement appris automatiquement puis révisé par un expert. Ou l’autre cas de figure, l’élaboration de règles est faite par un expert puis il y’a extension automatique de la couverture de ces règles.

slide27

Quelques difficultés rencontrées dans l’extraction d’informations

CITALA 2009

  • 1. La langue naturelle est flexible. Il y a toujours plusieurs façons d’exprimer la même idée ;
  • 2. La langue naturelle est ambiguë. Une phrase peut être interprétée de différentes manières ;
  • 3. La langue naturelle est dynamique. Elle évolue constamment ;
  • 4. Multilinguisme;
  • 5. Style de textes: textes journalistiques, textes d’un email (absence de règles et de style rédactionnel)
  • 6. L’information peut s’étendre sur plusieurs phrases;
  • 7. Complexité du processus d’EI du fait des différentes tâches :
  • - Identification des entités nommées ;
  • - Recherche des relations entre entités ;
  • - Résolution des coréférences ;
  • - etc.
  • 8. Évaluation difficile;
  • 9. Données : quantité croissante, non standardisées et de types différents;
  • 10. Limites de l’état de l’art des systèmes d’EI. ;
  • 11. Difficulté de conception de systèmes d’EI. génériques ;
  • 12. Peu de systèmes d’E.I. commercialisés ;
  • 13. Trop peu d’interdisciplinarité (non informaticiens et informaticiens).
slide29

CITALA 2009

Nos choix :

Qui?

Qui?

a rencontré

slide30

CITALA 2009

Présentation de la méthode d’exploration contextuelle

Origine: méthode issue des travaux de recherches effectuées par l’équipe LaLICC ( ) dirigée par le Prof. DESCLES Elle a fait l’objet de plusieurs implémentations, notamment le résumé automatique, le filtrage d'informations selon différents points de vue, etc.

Fondements

1. Elle est basée sur une analyse linguistique (analyse exploratoire du contexte), permettant le repérage des entités nommées (acteurs, lieux, temps,…) ainsi que la mise en relation des acteurs avec leur environnement dans l'espace et le temps au moyen d'indices déclencheurs, d’indices complémentaires et de règles qui les combinent;

2. Elle a une portée sémantique et ne se base pas sur une représentation profonde du texte mais

sur une identification automatique de marqueurs linguistiques pertinents pour une tâche donnée;

3. Les indices déclencheurs sont retenus en fonction d’objectifs précis. Ils sont identifiés par une analyse exploratoire du contexte qui permet aussi d’identifier d’autres indices linguistiques (dits indices complémentaires) eux aussi jugés pertinents pour la tâche traitée;

4. Utilisation des règles d’Exploration Contextuelle, combinant les indices identifiés pour attribuer des étiquettes sémantiques aux segments textuels considérés (phrases, paragraphes, etc.).

slide31

1. Spécification de l’espace de recherche

E:= Créer espace(PhraseParent de l’indicateur principal) ;

2. Spécification des listes des indicateurs et des indices complémentaires

Li := liste de verbes / adjectif/ …

3. Conditions

Concerne les contraintes d’agencements et d’ordonnancement des marqueurs ainsi que des indices complémentaires dans l’espace de recherche considéré.

4. Actions

Attribuer une étiquette au segment textuel considéré (la phrase) ou déclencher une tâche.

CITALA 2009

Spécification littéraire d’une règle d’exploration contextuelle

Exemple:

Si nous sommes en présence d’une annotation <pays> ou <region> ou <ville> etc.

Et si elle est précédée d’une préposition de lieu de la classe PrepLieu(en, dans, à, …) OU d’un marqueur de localisation (verbe de localisation) de la classe VStatIntrodLoc: (occuper, recourvrir, border, entourer, barrer, …) ou VdynIntroduitLoc : (quitter, atteindre, envahir, traverser, évacuer, …)

Alors nous sommes en présence d’une localisation<lieu>

Sinon Le reste des entités nommées de type pays, region, ville etc. seront annotés par défaut <Actantcollectif>

slide32

CITALA 2009

Extraction des entités nommées et des relations

Reconnaissance des entités nommées EN arabes

 La catégorisation d’entités nommées retenue pour la conception de notre système est la suivante:

1. acteurs ou actants (agent de l’action ou cible de l’action) :

- particulier / individuel (personnes) ou

- collectifs (entreprise, organisme, institution, …)

2. information de localisation (lieu géographique): villes, régions, pays, continents, etc.

3. information temporelle : dates, durée, période, horaire, etc.

4. information numérique : mesure, monétaire ou pourcentage, etc.

Dans notre étude, nous nous sommes inspiré de la catégorisation des EN de la conférence MUC 7, mais aussi, d’autres études.

slide34

CITALA 2009

Reconnaissance des entités nommées de type actant

Identification basée sur la structure interne de l’entité nommée ainsi que sur l’analyse du contexte

Reconnaissance des actants particuliers

Un acteur particulier est une personne qui est caractérisé par son nom propre (محمد، عبد الله) et sa fonction (رئيس، وزير ، ...), son titre (السيد، الدكتور، العاهل، الملك، ...) qui pourrait aussi avoir une classe d’appartenance : nationalité (جزائري، مغربي، تونسي، ...), religion (مسلم، مسيحيـي، يهودي، ...). etc.

De ce fait, la reconnaissance et l’annotation des acteurs particuliers (personnes et ses attributs), nécessitent :

1. des ressources:

- un ensemble d’expressions régulières décrivant des entités selon leurs structures internes

- un lexique sous forme de dictionnaires et de classes d’indices: classe de fonctions sociales, classe d’appartenance (nationalité, religion, ...), etc.

2. un ensemble de règles lexico sémantiques: pour l’annotation finale de l’acteur. Ces règles sont indépendantes du domaine d’application.

- عبد الله

- أبوعلي

- أم مروان

- ابن بطوطة

- طارق بن زياد

- عبد المؤمن بن علي

- سلمان الفارسي

الخ......

Noms propres arabes:

slide35

Cas de reconnaissance d’un actant particulier

أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،

أكد، أمس، <FS>وزير الطاقة و المناجم<Nat></FS>الجزائري<Titre> </Nat>السيد<NP></Titre>شكيب خليل</NP> أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،...

Règle :

<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP>

أكد، أمس<FS> <ActP> وزير الطاقة و المناجم<Nat></FS>الجزائري<Titre> </Nat>السيد<NP></Titre>شكيب خليل</ActP> </NP> أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،...

CITALA 2009

Exemple :

slide36

أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،

أكد، أمس، <FS>وزير الطاقة و المناجم<Nat></FS>الجزائري</Nat> <Titre>السيد<NP></Titre>شكيب خليل</NP>أن<TOrg>مجموعة</TOrg><Org>سوناطراك</Org> تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،...

Règle :

<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP>

<TOrg>? <Org> <Nat>? -----> <ActC>

أكد، أمس، <FS>وزير الطاقة و المناجم<Nat></FS>الجزائري</Nat> <Titre>السيد<NP></Titre>شكيب خليل</NP>أن <TOrg><ActC>مجموعة</TOrg><Org>سوناطراك </ActC></Org> تحضر حاليا لإنشاء بنك لتمويل مشاريعها الاستثمارية المستقبلية،...

Cas de reconnaissance d’un actant collectif

CITALA 2009

Reconnaissance des actants collectifs

  • Pour la reconnaissance des actants collectifs (noms d’organisation, d’entreprises, filiales, groupes, administration, institution, …) nous exploitons des lexiques et nous faisons appel aux informations concernant la structure interne des entités en question ainsi qu’aux expressions régulières et aux règles dites d’exploration contextuelle.
  • Exemple :
slide37

غدا، بالجزائر ، سينعقد اجتماع لوزراء الخارجية المغاربة.

….. البارحة، زار الأمين العام للأمم المتحدة، بان كي مون غزة

CITALA 2009

Reconnaissance des noms de pays comme actants

Le cas des noms de pays pose problème. S’agit il d’une localisation ou bien d’un actant collectif.

Afin de lever ce problème nous avons eu recours à une règle d’exploration contextuelle:

Cas 1 : lieu géographique 

Cas 2 : actant collectif

قدمت الجزائر طلب الإنضمام إلى المنظمة الدولية للتجارة.

Dans notre cas, c’est une règle d’exploration contextuelle qui sera utilisé pour attribuer l’étiquette adéquate en se basant sur le contexte linguistique de l’unité en question. Cette règle sous la forme littéraire, est la suivante:

Règle d’Exploration Contextuelle (description):

Si

l’entité nommée étiqueter par <pays> ou <ville> est précédée par une préposition (ب، إلى، نحو،... ) ou par un verbe du type (وصل، غادر، انتقل، ذهب، زار،مكث، بقي،... )

alors attribuer l’étiquette <Lieu>

sinon attribuer l’étiquette <ActantCollectif>

slide38

CITALA 2009

Reconnaissance d’entités de type temporelle

Dans cette tâche, nous nous intéressons à l’étiquetage des dates, des durées, des différentes expressions temporelles. Cela permettra ultérieurement d’associer une information temporelle à la relation extraite. Pour l’achèvement de cette tâche, nous faisons appel aux expressions régulières ainsi qu’à des règles d’explorations contextuelles.

Détection des dates

Elles peuvent apparaîtrent sous une :

- une forme numériques (1990/01/15,1990-01-15, … ) ;

- une forme mixte (15 جانفي 1990) ;

-seulement de motsخمسة عشر جانفي ألف و تسعة مئة و تسعون))

- les dates non absolues ("5 مارس","في ماي" ) ;

- les dates absolues ("في 05 جويلية 2009") ;

Détection des durées

- Des durées quelconques ("خلال 3 سنوات")

- Des intervalles temporels ("من 06 جوان إلى 15 جويلية")

- Des durées absolues("انطلاقا من 05 جويلية")

- Des durées relatives au moment d’élocution ("منذ عام")

Détection des expressions temporelles

- Ce sont des expressions qui regroupent :par exemple :

- Des dates relatives, de forme particulière ("في القرن الماضي"،"الأسيوع الفارط"،"في بداية السنة") ;

slide39

CITALA 2009

Exemple :

تنظم أيام تكنولوجية فرنسية من 29 نوفمبر إلى 1 ديسمبر 2008 بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء.

تنظم أيام تكنولوجية فرنسية من <Nb>29 <Mois></Nb>نوفمبر</Mois> إلى </Nb>1 <Mois></Nb>ديسمبر <Nb></Mois>2008</Nb>بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء.

Règle :

<Jour>? <Nb> <Mois> <Nb>? -----------------------> <Date>

تنظم أيام تكنولوجية فرنسية من <Nb><Date>29 <Mois></Nb>نوفمبر</Date> </Mois>إلى<Date> <Nb>1 <Mois></Nb>ديسمبر <Nb></Mois>2008 </Date> </Nb> بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء.

Règle :

<Det> <Date> <Det> <Date> -----------------------> <Période>

تنظم أيام تكنولوجية فرنسية <Nb><Date> <Période>29 <Mois></Nb>نوفمبر</Date></Mois> إلى <Nb><Date>1 <Mois></Nb>ديسمبر <Nb></Mois>2008 </Période ></Date> </Nb> بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا اللقاء.

Cas de reconnaissance d’expression temporelles

slide40

CITALA 2009

Reconnaissance d’entités de type localisation

L’annotation de l’information spatiale, implique l’identification des noms de lieux géographiques : village, ville, pays, continent, mer, océan, fleuve, lac, montagnes, désert, plaines, etc. ainsi que toutes les unités linguistiques (noms de localisation, verbes de localisation, adjectif de localisation, adverbes de lieux, etc. ) pouvant marquer et indiquer un nom de lieu ou contribuant à dénoter un nom de lieu. De la même manière, nous utiliserons des expressions régulières ainsi que des règles d’exploration contextuelles pour leur identification.

Exemple :

سيشهد المعرض المغاربي الأول بالجزائر الذي سيقام من 26 نوفمبر إلى 1 ديسمبر بقصر المعارض مشاركة 267 عارضا من بلدان المنطقة حسبما أشار إليه يوم الأحد مسؤولو الشركة الجزائرية للمعارض والصادرات (سافيكس) المنظمة لهذه التظاهرة.

Règle :

<préposition> <ville> ---> <Lieu>

<préposition> <Loc> ---> <Lieu>

سيشهد المعرض المغاربي الأول<prep><Lieu> ب<ville></prep>الجزائر</Lieu></ville> الذي سيقام من12 نوفمبر إلى 1 2 نوفمبر<Lieu><prep>ب <loc> </prep>قصر المعارض</Lieu> </loc> مشاركة 267 عارضا من بلدان المنطقة حسبما أشار إليه يوم الأحد مسؤولو الشركة الجزائرية للمعارض والصادرات (سافيكس) المنظمة لهذه التظاهرة.

Cas de reconnaissance d’expression de localisation

slide41

... حصلت الخزينة العمومية على 137 مليار دينار، أي معدل 3 ملايير دج ثمن بيع مؤسسة عمومية واحدة.

Règle :

Nous aurons à employer généralement pour l’annotation des expressions de mesure, des expressions régulières.

... حصلت الخزينة العمومية على<Nb><ExpMon> 137 <NbL> </Nb>مليار</NbL> <Dev>دينار</ExpMon></Dev>، أي معدل<Nb>< ExpMon > 3</Nb> NbL>ملايير<Dev></NbL>دج</ExpMon></Dev> ثمن بيع مؤسسة عمومية واحدة.

Cas de reconnaissance d’une expression de mesure

CITALA 2009

  • Reconnaissance d’entités de type numérique (EN de mesure ou monétaire)

Il peut s’agir soit d’entités de mesure soit d’entités monétaires soit des pourcentages. Un nombre est soit un:

- numérique simple : 10 أورو، 15 دولار، 100 مليون دينار،

- numérique avec virgule : %5,7

- numérique négatif : -6 %

- numérique composé : ألاف دينار 7

Les classes utilisées pour l’identification et l’annotation des informations numériques sont :

- unités monétaires (أورو, دينار,دولار )

- unité de mesure (كغ, لتر, متر, كم, …)

- de signes relatifs au pourcentage (%)

Exemple :

slide42

CITALA 2009

Extraction des relations entre les ENs

Les règles de repérage de relations entre actants s’appuient sur des segments textuels déjà annotés (<actant>, <Temps>, <Lieu>…).

Les règles d’annotation augmentent celles de la précédente étape de deux nouvelles formes: l’une qui prend en compte, dans ses prémisses, des segments textuels déjà annotés et l’autre prenant en charge les notions d’indicateur, d’indices complémentaires et d’espace de recherche selon la méthode de l’exploration contextuelle.

Du fait, de la multitude de relations qui peuvent exister entre les entités nommées, nous nous sommes limités aux relations liées à la notion rencontre (scientifique, politique, économique, culturelle, religieuse, etc.).

L’objectif étant d’essayer de repérer dans les dépêches de presse, les rencontres de personnes scientifiques, politiques, culturelles apparaissant dans les textes journalistiques et d’essayer d’extraire toutes les informations les décrivant (les personnes qui se sont rencontrées, date, lieu, …). De ce fait, nous tâcherons de recenser les verbes véhiculant cette notion du genre (،تحاور، عقد ، ....لقي).

slide43

التقى الرئيس الجزائرى عبد العزيز بوتفليقة، اليوم، الأمين العام لمنظمة الموءتمر الاسلامى أكمل الدين أحسان أوغلو الذى يزور الجزائر حاليا. وبحث الرئيس بوتفليقة مع اوغلو خلال اللقاء نشاطات المنظمة السياسية والاقتصادية والانسانية خاصة بعد قمة داكار الاخيرة التى أقرت ميثاقها. …

Cas de reconnaissance d’une relation de Rencontre

Annotation des entités nommées

<Phrase>التقى<FS><ActP>الرئيس<Nat></FS> الجزائرى<NP></Nat> عبد العزيز بوتفليقة</ActP></NP> ،<ExpT>اليوم <ExpT>،<FS><ActP> الأمين العام</FS> <Org>لمنظمة المؤتمر الإسلامى<NP></Org> أكمل الدين أحسان أوغلو</ActP></NP> الذى يزور<Lieu> الجزائر</Lieu> حاليا.</Phrase>

Annotation des relations de type Rencontre

<VRenc><RencontreRel><Phrase>التقى<FS><ActP></VRenc> الرئيس<Nat></FS> الجزائرى<NP></Nat> عبد العزيز بوتفليقة</ActP></NP> ،<ExpT>اليوم <ExpT>،<FS><ActP> الأمين العام</FS> <Org>لمنظمة المؤتمر الإسلامى<NP></Org> أكمل الدين أحسان أوغلو</ActP></NP> الذى يزور<Lieu> الجزائر</RencontreRel></Lieu> حاليا.</Phrase>

Exemple :

CITALA 2009

slide45

CITALA 2009

Problèmes rencontrés dans le cas des textes arabes

  • Forme agglutinante des mots arabes : la langue arabe est une langue agglutinante. En effet, les mots arabes, peuvent être affixés, ce qui fait que des fois il y’a des particule qui colle à certaines entités ce qui ne facilite pas leur détection.
  • 2. Absence de casse (indice naîf): absence de majuscules et de minuscules, dont la présence faciliter la reconnaissance des entités nommées du type  noms propres par exemple.
  • 3. Absence de normes d’écritures des noms propres : certains noms propres en langue latines sont retranscris en langue arabe mais sous plusieurs formes, par exemple : Poutine est réécrit en arabe : بوتين، بوتن d’où la difficulté à réunir l’ensemble des formes possibles et d’où la nécessité de normaliser l’écriture des noms propres d’origine non arabe.
  • 4. Non voyélisation des textes arabes est source d’ambiguïtés. En effet, le mot en arabe « مؤسسة » sans voyelles, peut s’interpréter selon deux sens distinct :
  • مُؤَسَسَةٌentreprise
  • مُؤَسِسَةfondatrice
  • 5. Problèmes de délimitation des entités nommées pour deux raisons :
  • - mot inconnu : absence d’informations morphologiques (nécessite de disposer d’un analyseur morphologique)
  • - antonomase : passage du mot de la langue au nom propre
  • 6. problème de la ponctuation qui n’est pas respectée dans la rédaction des textesarabes.