1 / 28

Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida)

SenSemCat : Corpus de la lengua catalana anotado con información morfológica, sintáctica y semántica. Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida) M. Elena Beà (U. Lleida). Seminari sobre Tractament Automàtic del Llenguatge (TAL) Barcelona 2011.

reia
Download Presentation

Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SenSemCat: Corpus de la lengua catalana anotado con información morfológica, sintáctica y semántica Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida) M. Elena Beà (U. Lleida) Seminari sobre Tractament Automàtic del Llenguatge (TAL) Barcelona 2011 26è Congrés Internacional de Lingüística i Filologia Romàniques, València 2010

  2. Objetivo Construcción de un corpus anotado para el catalán con información sobre la semántica oracional

  3. Marco general • Español: Corpus periodístico y literario • Anotado: morfología, sintaxis y semántica • Nivel: palabra, sintagma y oración • Léxico verbal asociado al corpus • Énfasis: semántica de la oración • Construcción • Aspectualidad • Modalidad

  4. Motivación • Aportación del primer corpus anotado del catalán con información semántica de la oración: • Construcción • Aspectualidad • Modalidad • Polaridad Revisión (corpus anotados –no lenguaje oral): • Anotación morfológica: categorías y lemas • Anotación sintáctica: sintagmas, funciones, dependencias • Anotación semántica: • Sentidos verbales y nominales • Constituyentes: roles semánticos, correferencia • Oración: construcción pasiva

  5. Motivación • Factibilidad de la tarea: • Reutilitzación de recursos: Adaptación de la infraestructura creada para el SenSEm español a un formato multilingüe. • Similitud y gran afinidad estructural de español y catalán

  6. Metodología SenSemCat • Léxico verbal inicial: • 1.1 Informática: • Reconversión de la estructura de la base de datos léxica (de monolingüe a plurilingüe) • Editor para el léxico: permite la introducción de las traducciones del catalán a los sentidos en español. • Hipertextualidad entre las entradas de las dos lenguas.

  7. Metodología SenSemCat Figura 1: editor de sentidos

  8. Metodología SenSemCat Figura 2. Entrada léxica del sentido acordar 1 (español).

  9. Metodología SenSemCat 1.2 Lingüística: • Traducción de los verbos al catalán • Traducción de las definiciones • Ampliación de los sentidos del catalán con sinónimos

  10. Metodología SenSemCat EXEMPLE:36386- ¿Gusta usted pasar, caballero?.34853Cuando gusten vuestras mercedes

  11. Metodología SenSemCat • Corpus (periodístico): • 2.1 Informática: Remodelación de las herramientas para la anotación de las frases del catalán y su consulta: • Reestructuración de la base de datos del corpus para el almacenamiento multilingüe. • Reelaboración de la interfazde anotación: • Inclusión de un módulo de conexión con el traductor de Google • Incorporación del espacio de edición manual de la traducción • Incorporación del espacio de edición manual de la anotación • Reelaboración de la interfaz de consulta externa del corpus: http://grial.uab.es/tools/buscador/

  12. Metodología SenSemCat • 2.2 Lingüística: a) Traducción de las oraciones: • Traducción automática: Google • Corrección manual de la traducción: • La mayoría de los errores vienen motivados por las diferencias existentes entre las lenguas • Ortográficos: apóstrofes, ele geminada, etc. • Morfológicos: posesivos, tiempo perfecto perifrástico • Léxicos • Sintácticos: preposiciones, pronombres clíticos • Estructurales: problemas de alineación • Algunos no tienen explicación aparente

  13. Ortografía • Apostrofación • O no la hace • O laa hace de forma incorrecta

  14. Ortografía • Ele geminada (l·l)

  15. Morfología • Formas verbales

  16. Léxico • Lemas Obligación: Español: tener+que+infinitivo Catalán : haver+de+infinitivo Haber  haver-hi

  17. Léxico

  18. Sintácticos • Para que

  19. Sintácticos • Al/en: Español: al + infinitivo Catalán: en +infinitivo

  20. Sintácticos (no motivados)

  21. Problemas de alineación: limitaciones del editor • Alineación a nivel de palabra: • Al pasar de 2 a 1 elemento: el editor no permite unir dos campos del español a uno catalán • Alineación a nivel de sintagma: más graves • Al pasar de 0 a 1 elemento: el editor no permite añadir campos nuevos al catalán • Cambios de orden: el editor no permite cambiar el orden respecto al español

  22. Alineación a nivel de palabra: de 1 a 2 elementos • Posesivos  falta exemple

  23. Alineación a nivel de sintagma: de 0 a 1 elemento • Posar l’exemple del “estudia allí” Problema grave: el elemento coincide con un constituyente y requiere anotación

  24. Alineación a nivel de sintagma: cambio de orden Aquí jo trauria la foto i posaria la frase del castellà (sencera, no un fragment) i la traducció que hauria de ser en català pq es vegi el context i el canvi d’ordre millor

  25. MetodologíaSenSemCat 2.2 Lingüística: Anotación de las oraciones: • Morfología: Freeling Catalán • Sintaxis y semántica de los constituyentes: • Herencia directa del español • Corrección según los cambios de la traducción respecto a las estructuras del español • Anotación nueva de los elementos incluidos • Semántica de la oración: herencia directa del español (en principio, algún cambio de construcciones pronominales vs. no pronominales)  caerse vs. caure

  26. Cambiar la anotación • SP  SN

  27. Anotar nuevos elementos • Pronombres débiles:

More Related