1 / 27

Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic

Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic. Mª Antònia Martí. http://clic.ub.edu http://clic.ub.edu/ancora. Índex. Descripció del corpus Nivells d’anotació Metodologia Sistema d’anotació Procediment d’anotació manual: guies Eines d’anotació

dillon
Download Presentation

Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Projecte AnCoraCorpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí http://clic.ub.edu http://clic.ub.edu/ancora

  2. Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta

  3. Descripció del corpus (espanyol)

  4. Descripció del corpus (català)

  5. Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta

  6. Anàlisi morfològica (1) paraula lema1 tag1, lema2 tag2, lema3 tag3, ... ‘bajo’ bajar VM1SIP, bajo AQ0MS, bajo PS00, bajo NCMS, …

  7. Anàlisi morfològica (2)

  8. Anàlisi morfològica. Desambiguació (3) Word lemma PoS Si si CS trabajo trabajar VMIP1S0 bajo bajo SPS00 presión presión NCFS000 bajo bajar VMIP1S0 la la DA0FS0 atención atención NCFS000 . . Fp

  9. (S (sn (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C (infinitiu (vmn0000 trabajar)) (sp (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .)) S sn grup.verb S.NF.C espec.fs grup.nom.fs vmis3s0 inf sp sa0fs0 ncfs000 vmn000 trabajar La declaración propugnó por la … Anotació constituents

  10. S sn-SUJ grup.verb S.NF.C-CD espec.fs grup.nom.fs vmis3s0 inf sp-CREG sa0fs0 ncfs000 trabajar La declaración propugnó por la … Anotació constituents (S (sn-SUJ (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD (infinitiu (vmn0000 trabajar)) (sp-CREG (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))

  11. S sn-SUJ-Arg0-AGT g.v S.NF.C-CD-Arg1-TEM espec.fs grup.nom.fs vmis3s0 inf sp-CREG-A sa0fs0 ncfs000 trabajar La declaración propugnó por la … Anotació Arguments i PT (S (sn-SUJ-Arg0-AGT (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD-Arg1-TEM (infinitiu (vmn0000 trabajar)) (sp-CREG-Arg2-FIN (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))

  12. Altres anotacions • Sentits nominals de la xarxa semàntica WordNet • Entitats amb nom http://clic.ub.edu/ancora

  13. Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta

  14. Metodologia Anotació automàtica: Morfologia Sintaxi superficial Anotació manual: Constituents Funcions Arguments Papers temàtics WordNet Entitats amb nom Anotació semiautomàtica Arguments i papers temàtics (parcialment) Lexicó sintàcticosemàntic

  15. Lexicons sintàcticosemàntics mejorar - 01 LSS1.1 SUJ Arg0##CAU CD Arg1##TEM CC ArgM##TMP/#ADV EJ: "obligará a mejorar la calidad del ataque" EJ: "que han mejorado las relaciones laborales" +ANTICAUSATIVA LSS2.2 SUJ Arg1##TEM CC ArgM##ADV/para#FIN EJ: "Por una parte, las técnicas de diseminación han mejorado mucho" EJ: "el mencionado proyecto de ley sea mejorado para permitir nombres así"

  16. Metodologia Guies d’anotació Anotació en paral·lel del mateix fragment de text (5-7 anotadors) Procés iteratiu fins arribar a un grau d’acord superior al 95% Modificació de la guia d’anotació (Documentació a la web)

  17. Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta

  18. Dades que s’ obtenen

  19. Pipeline d’anotació

  20. Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta

  21. Dades que s’ obtenen The 10th most frequent lemmata are: The most frequent noun is ‘any’ (year) in the 28th row and the second is ‘milió’ (milion) in the 46th.

  22. Dades que s’ obtenen

  23. Dades que s’ obtenen Total functions: 119.318 There are 32 errors. Total tags: 119.286

  24. Dades que s’ obtenen Total amount of 119.318 tagged functions, 106.807 receive an argument (89,49%). 47 different combinations of functions and arguments 86 different combinations of function-argument and thematic role.

  25. Dades que s’ obtenen Total 'sn-ne' 69.251 total 'sn-ne' diferents 6 20.645 (29.81%) org 17.164 (24.79%) loc 16.715 (24.14%) pers 8.158 (11.78%) other 3.319 (4.79%) num 3.250 (4.69%) date Total 'np-ne' 29.539 total 'np-ne' diferents5 10.137 (34.32%) o 8.176 (27.68%) l 7.590 (25.69%) p 3.635 (12.31%) a 1 (0.00%) d

  26. Índex • Descripció del corpus • Nivells d’anotació • Metodologia • Sistema d’anotació • Procediment d’anotació manual: guies • Eines d’anotació • Dades que es poden obtenir • Interfície de consulta

  27. Interfície de consulta http://clic.ub.edu/ancora

More Related