1 / 23

Análisis sintáctico

Análisis sintáctico. GRIAL – UB KNOW. Análisis sintàctico. Situación actual del análisis sintáctico del español Desarrollo de una gramática Adquisición de información para guiar el análisis sintáctico. Situación actual. Analizadores existentes ‘asequibles’  análisis total Hispal Conexor

merle
Download Presentation

Análisis sintáctico

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis sintáctico GRIAL – UB KNOW

  2. Análisis sintàctico • Situación actual del análisis sintáctico del español • Desarrollo de una gramática • Adquisición de información para guiar el análisis sintáctico

  3. Situación actual • Analizadores existentes ‘asequibles’ análisis total • Hispal • Conexor • Freeling • Evaluación cualitativa • Análisis comparativo de los resultados - constituyentes, oraciones subordinadas - mala identificación de la función sintáctica - sintagmas preposicionales - complementos directos con ‘a’ - identificación de constituyentes coordinados - multiword expressions - adverbiales vs. objeto directo - elipsis del verbo principal en una cláusula

  4. Comparación

  5. Comparación

  6. Gramática • RASP • Constituyentes básicos : sn, sv, sadj, sadv,sp, coordinación léxica y sintagmática • Construcciones principales • Oraciones subordinadas relativas y completivas • Metarreglas??? • Gramática completa

  7. RASP gramática de unificación: GPSG rasgos reglas de estructura de frase metarreglas ? no incluye lemas código cerrado gramática completa FREELING gramática de dependencias clases reglas a pares funciones de situación en el árbol incluye lemas código “abierto” gramática de la oración Gramática del español

  8. Adquisición de Patrones de Subcategorización Objetivo • Obtener clases de comportamiento sintáctico de los verbos a partir de SENSEM • Extrapolar estos comportamientos a verbos desconocidos adquisición • Fases • Crear una clasificación inducida a partir de los ejemplos / sentidos de SENSEM • Aprender el clasificador • Aplicar el clasificador sobre verbos no conocidos

  9. Metodología • Corpus etiquetado manualmente • Reducción de los casos  PS • Inducción de clases clasificación • Evaluación y selección de la solución • Clasificador a partir de los ejemplos • Analizados manual/automáticamente • Agrupación por sentidos /ejemplos • Asignación de clases a ejemplos no vistos

  10. SenSem • Corpus etiquetado: • Delimitación de constituyentes • Categoría sintáctica • Función sintáctica • Rol semántico • Clase eventiva

  11. Reducción • Patrones de Subcats • Argumentos • Sin variedad de orden • Compactación de categorías • sn v sp • sn(sto) v sp(oprep) • sn(sto-exp) v sp(oprep-tema)

  12. Patrones • 998 sentidos • 250 lemas verbales • Patrones

  13. Clasificación sentido verbal • cada sentido se representa como un vector • las dimensiones de los vectores son todos los esquemas de subcategorización que se dan en el corpus • los valores de cada vector para cada dimensión son el número de veces que ocurre el sentido con el esquema • anotación manual ejemplos individuales • cada ejemplo se representa como un vector • las dimensiones de los vectores son todos los esquemas de subcategorización que se dan en el corpus • los valores de cada vector para cada dimensión son binarios: o el ejemplo tiene el esquema de la dimensión o no lo tiene • anotación automática

  14. Clasificación • Clustering • Simple Kmeans • Expectation-Maximization • Clusters • Subclusters

  15. Evaluación de las clasificaciones • Evaluación • Tienen sentido los vectores: diátesis (compactadas) • Distribución de la población en clases • Parejas de verbos similares • Distinguibilidad de sentidos • Overlap de patrones • Aplicación de diferentes clasificadores con diferentes configuraciones

  16. Solucion C+F 3 clases • Clase 1: 704 sentidos verbales. Clase mixta 83% alternante: omisión de complemento 16% único patrón: trans, intrans y prep Subclustering: 5 clases • una clase mayoritaria con esquemas de subcategorización muy dispares • diversas clases más pequeñas que agrupan verbos con comportamientos mucho más definidos. • Clase 2: 153 sentidos verbales • esquemas transitivos. • Diátesis: trans intrans trans ditrans • Clase 3: 39 sentidos verbales • esquemas preposicionales y alta frecuencia de atributivos/circunstanciales/predicativos • diátesis se caracterizan por la omision/elisión de algunos preposicionales • preposicional - intransitiu

  17. Solución C+F >10 subcluster • clase 5 (477) Diatesis: transitivos e intransitivos y en algún caso con preposicionales. subclases las subclases 5.5, 5.3 y 5.2 esquemas transitivos e intransitivos, las subclases 5.4, 5.6, 5.7 y 5.8 la alternancia intransitivo/preposicional • clase 2 (163) Diatesis: preps intrans y ditrans  preps subclases 2.2 esquemas ditranstivos 2.1.esquemas con circunstanciales .

  18. Solución C+F >10 sublcuster • Clase 1 (103) y clase 3 (68) Diatesis; transtiva/ditransitiva/intransitiva Estas clases no presentan subclases. • Clase 4 Diatesis: preposicionales  intransitivos presencia de atributos. subclases 4.1 Diatesis: preposicional/intransitiva con atributos 4.2 Totalmente preposicional 4.3 Diatesis: transitivos  preposicionales.

  19. Aplicación del Classificador

  20. Porcentaje de sentidos bien clasificados en el primer nivel de clustering para la aproximación con esquemas de función y categoría que ocurren más de 10 veces 5 clases

  21. Porcentaje de sentidos bien clasificados en el segundo nivel de clustering para la aproximación con esquemas de función y categoría que ocurren más de 10 veces. 12 clases

  22. Pendiente… • Decidir el mejor clasificador • Reconsiderar la clasificación en función de los resultados del clasificador? • Compactar clases?  evaluación • WSD automática sobre SenSem • Aplicación y evaluación de WSD • Aplicación del clasificador • Aplicación del clasificador sobre corpus desambiguados automáticamente  adquisición • Estudiar la posible generalización de los vectores (alternancias de diátesis)

More Related