Plan
This presentation is the property of its rightful owner.
Sponsored Links
1 / 35

Plan PowerPoint PPT Presentation


  • 149 Views
  • Uploaded on
  • Presentation posted in: General

Plan. Introduction Etat de l’art Propositions Expérimentation et Evaluation Conclusion. Introduction. Extraire une grammaire pour le traitement automatique de la langue chinoise à partir d’un corpus annoté Désambiguïsation des grammaires

Download Presentation

Plan

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Plan

Plan

  • Introduction

  • Etat de l’art

  • Propositions

  • Expérimentation et Evaluation

  • Conclusion


Plan

Introduction

  • Extraire une grammaire pour le traitement automatique de la langue chinoise à partir d’un corpus annoté

  • Désambiguïsation des grammaires

  • Extraire une grammaire d’arbre adjoint (TAG) à partir du corpus arboré du chinois


Plan

Etat de l’art

  • Grammaires d’arbres adjoints (TAGs)

  • Extraction des TAGs

  • PENN Chinese Treebank

  • Analyseur syntaxique de Chiang


Plan

Introduction aux TAGs

α2

Un formalisme lexicalisé

P

- une grammaire constituée d’arbres élémentaire : l’arbre initial et l’arbre auxiliaire

N0↓

V

[dort]

- Chaque arbre est ancré par unité lexicale

β2

V

- Il inclut deux opérations : la substitution et l’adjonction

V*

ADV

[beaucoup]


Plan

Opération sur les arbres

α1

- La substitution est une opération hors-contexte de dérivation d’un arbre initial sur le nœud feuille d’un arbre élémentaire

α2

N

P

Arbre dérivé

Arbre de dérivation

Jean

P

N0↓

V

α2

V

N

dort

substitution

dort

Jean

α1

- L’adjonction est une opération contextuelle d’insertion d’un arbre auxiliaire au sein d’un arbre élémentaire

N

Arbre de dérivation

Arbre dérivé

Jean

β2

P

α2

V

α2

P

N0↓

V

adjonction

V*

ADV

N0↓

V

α1

ADV

β2

V

beaucoup

dort

beaucoup

dort


Plan

PENN Chinese Treebank (1)

-Corpus chinois annoté syntaxiquement en caractères chinois simplifié

- Le CTB 5.1 contient: 507,216 mots, 824,975 Hanzi, 18,782 phrases et 890 fichiers de données

-Les mots sont d’emblée balisés avec des étiquettes renfermant des informations sur les parties du discours, la syntaxe, les fonctions


Plan

PENN Chinese Treebank (2)

- Le texte nu (raw)

球拍卖完了qiu2pai1mai4wan2le1

- Le texte segmenté (segmented)

球拍卖完了球拍卖完 了

qiu2pai1 mai4wan2le1 qiu2 pai1mai4 wan2le1

raquette a été vendu balle vente aux enchères fini

La raquette a été vendue La balle a été tout vendue aux enchères

- Avec annotations morpho-syntaxiques (postagged)

她_PN 很_AD 爱_VV 美_NN 。_PU 美_AD 人_NN

ta1 hen3 ai4 mei3 。 Mei3 ren2

Elle beaucoup aimer belle .Belle femme

Elle aime beaucoup se faire belle. La belle femme

- Avec annotations syntaxiques complètes (bracketed)

(IP-HLN (NP-SBJ(NP-PN (NR 上海shang4hai3/ShangHai)

(NR 浦东pu3dong1/PuDong))

(NP (NN 开发kai1fa1/développer)

(CC 与yu3/et)

(NN 法制fa3zhi4/système juridique)

(NN 建设jian4she4/construire)))

(VP (VV 同步tong2bu4/synchroniser)))


Plan

Analyseur syntaxique de Chiang

  • - Stochastic TIG parser (David Chiang, 2000)

  • Grammaire d’insertion d’arbres lexicalisée (TIG)

  • une restriction des TAGs

  • - La différence principale entre TAG et TIG ?

  • - arbres auxiliaires enveloppants

  • - opération de sister-adjonction

TIG

TAG


Plan

TIG sister-adjonction

陈旭chen2xu4应该ying1gai1马上ma3shang4出发chu1fa1

chen2xu4 doit partir tout de suite


Plan

Extraction d’une grammaire TIG (1)

Étant donné un constituant ηp avec ses fils η0 - ηi lequel est le fils tête ?

Réponse : table de percolation de tête

Étant donné un fils (non-tête) ηj de ηp est-ce que ηj est un complément ou un adjoint ?

Réponse : table d’arguments complément-adjoint


Plan

Table de percolation de tête

Table de percolation de tête

Par exemple:

[[美丽的mei3li4de4/belle]AD [女孩nv3hai2/fille]NN ]NP


Plan

Table d’arguments complément-adjoint

Table d’arguments complément-adjoint

Dernière ligne:

–SBJ (surface subject) ou de –OBJ (object) ou de –IO (indirect object) ou de –PRD (predicate)

sauf s’il est suivi –ADV (adverb)


Plan

Corpus

arboré

Modèle probabiliste

Ensemble des arbres élémentaires

Foret de dérivation

Processus d’extraction d’analyse

(NR 上海)(NR 浦东)(NN 开发) …

Entrainement

(Trainer)

Analyse

(Parser)

Recherche de l’analyse la plus probable

Arbre dérivé obtenu


Plan

Proposition

  • Probank (Palmer et al., 2002)

  • Extraire des TIGs à partir du CTB en utilisant les rôles sémantiques du Propbank

  • Réalisation


Plan

Propbank (1)

Propbank du chinois:

  • - contient les premiers 250k mots du CTB5.1

  • 37,183 propositions, 4,865 framesets des verbes.

  • html et SGML

  • structure plus profonde


Plan

Propbank (2)

Schéma d’annotation:

Powell and Zhu Rongji met

Powell met with Zhu Rongji

Powell and Zhu Rongji had a meeting

meet(Powell, Zhu Rongji)

Avantage:

- permet de réduire la taille des grammaires extraites

  • permet aussi de réaliser une liaison entre un frameset d’un prédicat dans une langue avec l’autre langue

存cun2

existe

dépôt

qui

lieu

entité

Somme d’argent

Institut financière


Plan

Propbank (3)

签qian1/signer: soit signer quelque chose sur le document ou le projet, soit signer quelque chose


Plan

Réalisation (1)

  • Déterminer les constituants de l’analyse syntaxique

  • Assigner un rôle sémantique du Propbank aux constituants du CTB

  • Modifier la table de distinction d’arguments complément-adjoint


Plan

Réalisation (2) – cpb1.0.txt

ctb5.1/bracketed/chtb_406.fid 5 53 gold 迁入.01 ----- 0:2-ARGM-TMP 6:4-ARG1 52:1-ARGM-ADV 54:2-ARG2 53:0-rel

ctb5.1/bracketed/chtb_871.fid 7 53 gold 迁入.01 ----- 6:4-ARG1 52:1-ARGM-ADV 54:1-ARG2 53:0-rel 7:1-ARG0 9:1-ARGM-ADV 10:1-ARG0-CRD

ctb5.1/bracketed/chtb_406.fid 2 18 gold 迁入.01 ----- 15:1-ARGM-ADV 19:1-ARG2 13:0*14:0*23:1-ARG1 18:0-rel

ctb5.1/bracketed/chtb_165.fid 4 11 gold 迁址.01 ----- 0:1-ARGM-MNR 3:2-ARG0 7:1-ARGM-ADV 8:1-ARGM-ADV 9:1-ARGM-TMP 12:1-ARG1

ctb5.1/bracketed/chtb_406.fid 6 7 gold 迁址.01 ----- 0:2-ARG0 5:1-ARGM-ADV 6:1-ARGM-ADV 8:1-ARG1 7:0-rel

ctb5.1/bracketed/chtb_165.fid 2 29 gold 迁址.01 ----- 30:1-ARG1 22:0*23:0*34:1-ARG0 29:0-rel 6:1-ARGM-ADV 0:0*1:0*9:1-ARG1 7:0-

ctb5.1/bracketed/chtb_165.fid 2 11 gold 迁至.01 ----- 0:1-ARGM-TMP 2:1-ARG0 6:1-ARGM-ADV 8:2-ARG1 12:3-ARG2 11:0-rel

ctb5.1/bracketed/chtb_713.fid 3 21 gold 签.01 ----- 0:4-ARG0 13:1-ARGM-ADV 18:1-ARG2 23:1-ARG1 21:0-rel

ctb5.1/bracketed/chtb_059.fid 17 15 gold 签.02 ----- 11:1-ARG0 12:1-ARGM-TMP 13:1-ARGM-ADV 14:1-ARGM-ADV 16:1-ARG1 22:1-ARG1-QTY 15:0-rel 5:3-ARG0 10:1-ARGM-ADV 13:2-ARG1 11:0-relctb5.1/bracketed/chtb_115.fid 6 18 gold 签订.01 ----- 0:1-ARGM-ADV 2:5-ARG0 17:1-A

ctb5.1/bracketed/chtb_072.fid 21 9 gold 签.02 ----- 0:2-ARGM-TMP 6:2-ARG0 8:1-ARGM-ADV 10:3-ARG1 14:1-ARG1-QTY 9:0-rel

ctb5.1/bracketed/chtb_080.fid 14 9 gold 签.02 ----- 0:2-ARGM-TMP 6:2-ARG0 8:1-ARGM-ADV 10:3-ARG1 16:1-ARG1-QTY 9:0-rel

ctb5.1/bracketed/chtb_087.fid 16 8 gold 签.02 ----- 5:2-ARG0 7:1-ARGM-ADV 4:0*9:0*10:3-ARG1 8:0-rel 38:0*39:2-ARG1 37:0-relctb5.1/bracketed/chtb_419.fid 7 30 gold 签订.01 ----- 0:1-ARGM-LOC 5:1-ARGM-TMP 7:1-ARG0 9:1-ARGM-ADV 10:1-ARG0-CRD 32:2-ARG1 36

ctb5.1/bracketed/chtb_595.fid 32 18 gold 签.02 ----- 8:2-ARG0 15:1-ARGM-TMP 7:0*19:0*21:1-ARG1 18:0-rel

ctb5.1/bracketed/chtb_028.fid 2 13 gold 签定.01 ----- 0:2-ARG0 12:1-ARGM-TMP 14:1-ARG1 13:0-rel gold 签订.01 ----- 0:1-ARGM-TMP 4:1-ARG0

ctb5.1/bracketed/chtb_021.fid 5 13 gold 签定.01 ----- 0:1-ARGM-TMP 3:3-ARG0 15:2-ARG1 13:0-relctb5.1/bracketed/chtb_082.fid 7 4 gold 签定.01 ----- 3:1-ARGM-TMP 1:0*2:0*11:1-ARG1 4:0-relctb5.1/bracketed/chtb_721.fid 5 4 gold 签定.01 ----- 0:1-ARGM-DIS 1:1-ARG0 2:1-ARGM-TMP 5:1-ARG1 4:0-relctb5.1/bracketed/chtb_244.fid 10 6 gold 签定.01 ----- 0:1-ARGM-TMP 2:2-ARG0 7:1-ARG1 6:0 22:1-ARG0 24:1-ARG1 -relctb5.1/bracketed/chtb_140.fid 4 21 gold 签定.01 ----- 0:1-ARGM-TMP 18:1-ARG0 22:1-ARG1 23:1-ARG1-QTY 21:0- relctb5.1/bracketed/chtb_082.fid 2 33 gold 签定.01 ----- 0:5-ARG1 16:1-ARGM-TMP 17:1-ARG0 29:1-ARGM-LOC 33:0-relctb5.1/bracketed/chtb_713.fid 0 3 gold 签订.01 ----- 0:1-ARG0 4:3-ARG1 3:0-relctb5.1/bracketed/chtb_411.fid 15 11 gold 签订.01 ----- 0:1-ARGM-TMP 3:2-ARG0 7:1-ARGM-ADV 8:1-ARG0-CRD 13:2-ARG1 11:0-relctb5.1/bracketed/chtb_271.fid 3 24 gold 签订.01 ----- 21:1-ARG0 22:1-ARGM-ADV 23:1-ARGM-ADV 26:1-ARG1 24:0-relctb5.1/bracketed/chtb_271.fid 0 4 gold 签订.01 ----- 0:1-ARG0 2:1-ARGM-LOC 5:4-ARG1 4:0-relctb5.1/bracketed/chtb_027.fid 2 8 gold 签订.01 ----- 0:2-ARG0 4:1-ARGM-TMP 6:1-ARGM-LOC 10:3-ARG1 8:0-relctb5.1/bracketed/chtb_437.fid 5 8 gold 签订.01 ----- 2:1-ARG0 3:1-ARG0-CRD 1:0*9:0*11:1-ARG1 8:0-relctb5.1/bracketed/chtb_103.fid 5 22 gold 签订.01 ----- 21:1-ARG0 23:1-ARG1 22:0-relctb5.1/bracketed/chtb_049.fid 15 8 gold 签订.01 ----- 0:1-ARGM-DIS 2:1-ARG0 5:1-ARGM-ADV 6:1-ARG0-CRD 9:1-ARG1 8:0-relctb5.1/bracketed/chtb_875.fid 8 44 gold 签订.01 ----- 26:3-ARG0 44:0-rel 46:1-ARG1ctb5.1/bracketed/chtb_875.fid 4 5 gold 签订.01 ----- 0:3-ARG0 4:1-ARGM-ADV 7:2-ARG1 5:0-relctb5.1/bracketed/chtb_271.fid 4 39 gold 签订.01 ----- 5:0*6:0-ARG1 7:1-ARGM-ADV 8:1-ARG0 26:1-ARG0-CRD 39:0-relctb5.1/bracketed/chtb_255.fid 8 11 gold 签订.01 ----- 0:2-ARGM-TMP 20:5-ARG1 18:0-relctb5.1/bracketed/chtb_081.fid 8 19 gold 签订.01 ----- 0:2-ARGM-TMP 7:1-ARG0 10:1-ARGM-ADV 11:1-ARG0-CRD 21:2-ARG1 19:0-relctb5.1/bracketed/chtb_644.fid 20 23 gold 签订.01 ----- 0:1-ARGM-TMP 2:2-ARGM-ADV 11:1-ARG0 18:1-ARG0-CRD 25:3-ARG1

Cpb1.0.txt:


Plan

Réalisation (2)

ctb5.1/bracketed/chtb_713.fid 3 21 gold 签.01 ----- 0:4-ARG0 13:1-ARGM-ADV 18:1-ARG2 23:1-ARG1 21:0-rel

ctb5.1/bracketed/chtb_713.fid : le chemin d’accès du fichier

3 21: le 22e mot de la 4e phrase (indice débutant à 0)

0 :4-ARG0: l’argument se trouve dans la 1ère phrase puis remonte de 4 niveaux du nœud terminal est un ARG0


Plan

Réalisation (3)

Principal processus de mon programme 

  • - Segmenter les colonnes de chaque ligne d’annotation du cpb1.0.txt

  • Segmenter des couples numériques par ‘-‘ dans la partie des arguments, prendre le chiffre à gauche du tiret comme la clé et l’étiquette à droite du tiret comme le contenu de la clé

  • Parcourir la table pour modifier les étiquettes du CTB


Plan

Expérimentation (1)

Une partie de CTB qui correspond au corpus propbank:

  • - Corpus d’apprentissage (80% du corpus entraîné)

  • Corpus de test (10%)

  • Corpus de développement (10%)


Plan

Expérimentation (2)

4 expériences:

- Expérimentation sur le CTB original

- Expérimentation sur le CTB modifié par mon code

- Expérience 1

- Expérience 2

- Expérience 3

combinaison entre les tables d’arguments de la méthode Chiang et ma proposition


Plan

Expérimentation (3)

Résultats des exérimentations:

(IP-HLN (NP-SBJ (NN 外商wai4shang1/étranger)

(NN 投资tou2zi1/investissement)

(NN 企业qi3ye4/enterprise))

(VP (VV 成为cheng2wei2/devenir)

(NP-OBJ (NP (NP-PN (NR 中国zhong1guo2/la Chine))

(NP (NN 外贸wai4zi1/commerce étranger)))

(ADJP (JJ 重要zhong4yao4/important))

(NP (NN 增长点zengzhangdian/croissance)))))

Expérimentation sur le CTB original

Expérimentation sur le CTB modifié par notre code

(IP-HLN (NP-ARG0 (NN 外商wai4shang1/étranger)

(NN 投资tou2zi1/investissement)

(NN 企业qi3ye4/enterprise))

(VP (VV 成为cheng2wei2/devenir)

(NP-ARG1 (NP (NP-PN (NR 中国zhong1guo2/la Chine))

(NP (NN 外贸wai4zi1/commerce étranger)))

(ADJP (JJ 重要zhong4yao4/important))

(NP (NN 增长点zengzhangdian/croissance)))))

Expérience 1

Expérience 2

(IP-HLN (NP-SBJ-ARG0 (NN 外商wai4shang1/étranger)

(NN 投资tou2zi1/investissement)

(NN 企业qi3ye4/enterprise))

(VP (VV 成为cheng2wei2/devenir)

(NP-OBJ-ARG1 (NP (NP-PN (NR 中国zhong1guo2/la Chine))

(NP (NN 外贸wai4zi1/commerce étranger)))

(ADJP (JJ 重要zhong4yao4/important))

(NP (NN 增长点zengzhangdian/croissance)))))

Expérience 3


Plan

Evaluation (1)

Protocole PARSEVAL implémenté par l’outil EVALB avec Bikel


Plan

Evaluation (2)

L’utilisation des annotations Propbank semblent nuire au processus d’extraction et d’analyse

  • Il y a beaucoup d’erreurs d’annotations dans le fichier cpb1.0.txt

  • Mon programme n’est pas parfait puisqu’il est nécessaire de réaliser plus d’expériences pour trouver où se trouvent les erreurs

La grammaire extraite lors de l’expérience 1 souffre d’une très petite taille comparée aux autres. Tous les arbres extraits étant alors constitués de "lignes" uniques (des spines) (Seddah, et al., 2009)


Plan

Conclusion

J’ai malheureusement constaté que mon approche ne présentait pas d’avantage déterminant face à une extraction de grammaire utilisant les annotations originelles du CTB.

Les performances moindres proviennent soit d’erreurs dans mon algorithme de transferts d’annotations soit d’une trop grossière table de distinction argument-adjoints basée sur les annotations Propbank.

J’espère que ce travail préliminaire sur le sujet pourra être prolongé par la suite.


Plan

Merci votre attention!

谢谢 关注 !


Plan

Question

Différence entre mot et Hanzi

Contrairement aux mots écrits français, qui sont composés de lettres, les mots chinois (词ci2) écrits sont composés de caractères chinois (字zi4) ou sinogrammes. Contrairement à une idée généralement répandue, les caractères chinois ne représentent pas des mots ; ils représentent en fait des morphèmes, et une majorité de mots sont composés de deux caractères, alors que d’autres sont composé d’un seul, plus rarement de trois ou quatre. Ceci n’est pas spécifique au chinois.

En français par exemple, un mot tel que ‘infaisable’ comprend trois morphèmes, signifiant ‘non’ (in-), ‘faire’ (-fais-), et ‘possible’ (-able). De la même façon, le chinois 做不完zuo4bu4wan2 ‘infaisable’ est composé de trois sinogrammes ou morphèmes signifiant respectivement ‘faire’, ‘non’, et ‘finir’.

Cela signifie aussi que tout mot composé contient sa propre étymologie, issue des caractères porteurs de signification qui le composent, ce contrairement par exemple aux mots des langues européennes, dont la graphie rend compte d'une prononciation qui finit souvent par oublier le sens premier (ex : Lorient venant de L'Orient, Lille de L'île, Le Havrevenant du mot français havre, qui signifie port, et venant de Haven, mot germanique de même sens, par exemple Copenhague, le port des marchands). Pékin, en mandarin 北京bei3jing1, prononcé de nos jours Běijīng, contient donc les caractères 北bei3 (nord) et 京jing1 (capitale) et signifie donc littéralement "Capitale du nord". Nankin (南京nan2jing1) quant à elle est "capitale du sud"


  • Login