1 / 31

Avaluació de Gramàtiques de Dependències de FreeLing

Avaluació de Gramàtiques de Dependències de FreeLing. Lluís Padró TALP Universitat Politècnica de Catalunya padro@lsi.upc.edu. Irene Castellón, Marina lloberes GRIAL Universitat de Barcelona {icastellon,marina.lloberes}@ub.edu. Gramàtiques de dependències de FL Bases per a l’avaluació

taipa
Download Presentation

Avaluació de Gramàtiques de Dependències de FreeLing

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Avaluació de Gramàtiques de Dependències de FreeLing Lluís Padró TALP Universitat Politècnica de Catalunya padro@lsi.upc.edu Irene Castellón, Marina lloberes GRIAL Universitat de Barcelona {icastellon,marina.lloberes}@ub.edu

  2. Gramàtiques de dependències de FL • Bases per a l’avaluació • Avaluació quantitativa • Avaluació qualitativa • Resultats dels primers experiments

  3. Funcionament de les gramàtiques

  4. Format output TXALA El gato come pescado. grup-verb/top/(come comer VMIP3S0 -) [ sn/subj/(gato gato NCMS000 -) [ espec-ms/espec/(El el DA0MS0 -) ] sn/dobj/(pescado pescado NCMS000 -) F-term/term/(. . Fp -) ]

  5. Potència informativa de les regles • Regles de base sintàctica • Admeten informació semàntica 921 - $$_grup-verb (sn,sp-de) top_left RELABEL - grup-verb subj d.label=sn* d.side=right p.class=intr grup-verb dobj d.label=grup-sp d.side=right d.lemma=a|al d:sn.tonto=Human d:sn.tonto!=Building|Place p.class=trans

  6. Objectius de l’avaluació Precisar la robustesa i la profunditat És suficient la informació sintàctica? Les gramàtiques basades en regles arriben a una qualitat acceptable? La combinació amb informació semàntica millora la qualitat? Cal la intervenció de coneixement estadístic? • Apuntar les estratègies per ampliar les gramàtiques • Determinar una metodologia empírica d’avaluació

  7. Sistema d’avaluació Corpus d’avaluació • Ancora (Martí et al, 2007) • SenSem (Alonso et al, 2007) EsTxala Spanish Dependency Grammar Gold standard System analysis Avaluació quantitativa (experiments) Avaluació qualitativa (experiments) Estadístiques 'CoNLL-X Shared Task (2006) script evaluation Comparació amb altres parsers: MaltParser (Nivre et al, 2006)

  8. Avaluació quantitativa • Explicar els errors significatius (en número) • ≈ Avaluació massiva de dades • Ancora: 100.000 frases • Experiments programats • Llargada oració • Mètriques observades: • Labeled Attachment (LA) • Arbres amb assignació correcta del head i de la funció • Unlabeled Attachment (UA) • Arbres amb assignació correcta del head • Label Accuracy (LAcc) • Arbres amb assignació correcta de funció

  9. Mapping Ancora i FL • EsTxala i Ancora tenen granularitats diferents • Resoldre divergències de criteris lingüístics • Llistat únic d’etiquetes de funció sintàctica • Adaptació a FL de totes etiquetes de funció sintàctica d’Ancora • Fins i tot, criteris sobre l’estructura sintàctica

  10. Correspondències 1 = 1 • Transformació directa

  11. Correspondències 1 < n (també n > 1) • Tractament de l’etiqueta S (Ancora) S és fill de NOM? no sí subord-mod S és fill de PREPOSICIÓ? sí no … obj-prep

  12. Resolució de casos complexos • Si no es pot adaptar algun criteri, s’adopta una forma híbrida entre FL i Ancora • Es conserva l’estructura d’Ancora • Es transformen les funcions d’Ancora a FL

  13. Avaluació quantitativa: resultats • Resultats obtinguts a partir de la versió actual del mapping • Transoformació d’Ancora gold standard i system analysisamb la versió del mapping actual • La finalització del mapping millorarà els resultats Labeled attachment score: 25562 / 45817 * 100 = 55.79 % Unlabeled attachment score: 30742 / 45817 * 100 = 67.10 % Label accuracy score: 28109 / 45817 * 100 = 61.35 %

  14. Avaluació qualitativa • Detectar • Quins tipus fenòmens típicament fallen • Quina és la informació més apropiada per millorar la gramàtica • Avaluació controlada de les dades • Mètriques observades: • Labeled Attachment (LA) • Unlabeled Attachment (UA) • Label Accuracy (LAcc)

  15. Experiments avaluació qualitativa • Aïllament de fenòmens lingüístics complexos de resoldre en PLN • Oracions complexes • Subcategorització verbal • PP-attachment • Coordinació (oracional, sintagmàtica, lèxica) • Restriccions de selecció • Prova pilot per comprovar la viabilitat d’aquesta metodologia

  16. E1. Oracions simples vs. complexes EsTxala Accuracy Scores

  17. E1. Oracions simples vs. complexes EsTxala UA Accuracy

  18. E1. Oracions simples vs. complexes EsTxala LAcc F1

  19. E2a. Subcategorització verbal EsTxala Accuracy Scores • Sembla que la subcategorització no empitjora ni millora les anàlisis

  20. E2b. Subcategorització amb els verbs de SenSem • Reformulació de l’experiment de subcategorització verbal • Els resultats no són els esperats • Caldrà un estudi detallat de les anàlisis proposades per EsTxala en relació amb la subcategorització verbal EsTxala Accuracy Scores

  21. E3. PP-attachment V SN(N1) SP(PREP,N2) Juan llenó [el vaso de agua] Juan llenó [ el vaso ][ de agua ] Juan llenó [ de agua][ el vaso ] Juan llenó [ el vaso de alabastro ] Juan llenó [ el vaso ][ de aceite ] Juan llenó [ el vaso de alabastro ][ de aceite ] Juan llenó [ de aceite ][ el vaso de alabastro ] Juan llenó [ el vaso de alabastro ][ con aceite ]

  22. E3. PP-attachment http://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.php http://www.connexor.eu/technology/machinese/demo/syntax/

  23. E3. PP-attachment Experiment 1 PP (Merlo & Esteve 2006) Objectiu 1- Construcció d'un classificador que determini si un sp és complement d'un N o d'un V 2- Aplicar el resultat del classificador a les decisions de la gramàtica Corpus: Sensem → per a construir el classificador Ancora → per a l'aplicació (un segment controlat) Ancora tot → per a obtenir mesures estadístiques de coocurrències.

  24. E3. PP-attachment Experiment 1 PP 1- Construcció d'un classificador Informació extreta a partir d'un corpus analitzat Patró: V SN(N1) SP(PREP,N2) Objete: Sp Proposta de trets

  25. E3. PP-attachment Experiment 1 PP 1- Construcció d'un classificador Proposta de trets - head {N1,V} - classe lèxica del sp(N2) {TCO} problema--> desambiguació - classe lèxica del sn(N1) {TCO} - classe lèxica del V {TCO} - subcat V inclou SP {0,1} →consulta a subcategoritzación - valor prep {forma de la preposició} - distància entre N2 i V {+1,+2..+n. en palabras?} - distància entre N2 i N1 {+1....+n} - deverbal N1 {0,1} - Mutual Information N1 y V / N1 y N2 ??

  26. E3. PP-attachment Experiment 1 PP 1- Construcció d'un classificador Recursos Subcategorización : listas de la gramática (parciales) Head : corpus anotado sensem Clases léxicas N1 V N2 → Top Concept Ontology Deverbal N1 → llista extreta d'un diccionario. IM : corpus ancora Distancia: corpus ancora clases léxicas: Top Concept Ontology Group, Part, Object, Substance,Gas,Liquid,Solid, Building, Comestible,Container,Covering,Furniture Garment,Instrument, Occupation, Place, Representation, Software, Vehicle, Artifact, Natural,Animal creature,Human,Plant, Cause, Communication, Condition, Existence, Experience, Location, Manner, Mental, Modal,Physical,Possesion, Purpose, Quantity, Social, Time, Usage, Dynamic,Static.

  27. E3. PP-attachment Experiment 1 PP 1- Construcció d'un classificador → Aplicació: weka - Clasificador - selecció del mètode - Selecció de trets - Aplicació /interpretació de classes - Avaluació → una part del corpus ha de reservar-se per avaluar el clasificador

  28. E3. PP-attachment Experiment 1 PP 2- Aplicació del classificador en las decisions de la gramàtica - aplicació del classificador a l'oració per a analizar - Posar condicions a l'aplicació de les regles (freeling: integració no massa clara)

  29. E3. PP-attachment Experiment 2 PP Model lingüístic - escollir una part de corpus limitat i amb vocabulari controlat (o bé crear-lo) → subcorpus - construir una modelització nominal i nominalizació verbal Recursos: - Top Concept Ontology - Corpus sensem /ancora

  30. E3. PP-attachment Experiment 2 PP Model lingüístic 1) estudi de un subcorpus controlat (unitats verbals i nominals) - Precisar quines classes semàntiques són compatibles amb els noms. (problema del sentit) - Precisar quines classes semántiques són compatibles amb els verbs (problema del sentit)--> sensem/adesse 2) Construir un recurs/model que expliciti les combinatories de les classes semàntiques (generalizació) 3) implementar el model en les regles de txala (integració definible)

  31. E4. Coordinació Experiment Coordinació 1)Avaluació controlada Coordinació lèxica Coordinació de sintagmes Coordinació oracional Contruir un corpus amb oracions modéliques ordenades per complexitat--> objectiu avaluar la font de l'error 2) Millores Modelització de nuclis coordinats: - coherència temps i mode verbal ...

More Related