130 likes | 218 Views
LEXICONES Y CORPUS. Carlos Mario Zapata J. EJEMPLOS DE LEXICONES. Diccionario: Merriam-Webster. Lexicones: EuroWordNet Proyecto Aries Universidad de Maryland CIC-IPN. LEXICON VS. CORPUS. La calidad de los sistemas de PLN se mide con la calidad del lexicón asociado.
E N D
LEXICONES Y CORPUS Carlos Mario Zapata J. Lingüística Computacional
EJEMPLOS DE LEXICONES • Diccionario: • Merriam-Webster. • Lexicones: • EuroWordNet • Proyecto Aries • Universidad de Maryland • CIC-IPN Lingüística Computacional
LEXICON VS. CORPUS • La calidad de los sistemas de PLN se mide con la calidad del lexicón asociado. • Algunas palabras suelen escapar al alcance de los diccionarios convencionales y los legibles por máquina. • Solución: Generación de lexicones, a partir de textos en lenguaje natural. • Se realiza un proceso de adquisición léxica que se realiza con corpus anotados. Lingüística Computacional
ADQUISICIÓN DE CONOCIMIENTO LÉXICO • Se deben poblar los lexicones. • Se requieren miles de entradas, con muchas características cada entrada. • Las fuentes son relativamente limitadas: existen pocos lexicones y no son muy completos; además, suelen ser costosos. • La información ingresada al lexicón debería ser consistente y completa. Lingüística Computacional
FORMAS DE ADQUISICIÓN DE CONOCIMIENTO LÉXICO • Manual: • Es la más costosa. • Muy usada para poblar lexicones. • Costos iniciales bajos. • La mayoría de aplicaciones en Lingüística Computacional son relativamente pequeñas y sólo requieren precisión en las palabras. Lingüística Computacional
FORMAS DE ADQUISICIÓN DE CONOCIMIENTO LÉXICO • Diccionarios Legibles por Máquina: • La información requerida por los lexicones se encuentra en los diccionarios convencionales. • No es posible simplemente “citar” un diccionario. • Los diccionarios convencionales se producen con el usuario humano en mente (¿Sistemas de bases de datos?). • Los diccionarios convencionales pueden tener problemas de plenitud, consistencia y coherencia. • Se requiere una estructura para leer e incorporar la información en el lexicón (¿Se requeriría un sistema de PLN para leer el lexicón?). Lingüística Computacional
LINGÜÍSTICA DE CORPUS • Corpus: Cuerpo de evidencia lingüística compuesta típicamente por usos probados del lenguaje. • Ej: Conversaciones diarias, publicidad radial, escritos publicados, etc. • Generalmente en formato legible por máquina. • Colecciones bien organizadas de datos, recogidas mediante un marco de ejemplos diseñado para permitir la exploración de cierta característica lingüística mediante los datos recogidos Lingüística Computacional
TIPOS DE CORPUS • Monolingüe: De un solo lenguaje. • Comparable: Varios corpus monolingües recogidos en distintos lenguajes pero bajo ejemplificación similar. • Paralelo: Un corpus monolingüe y sus traducciones a otros lenguajes. • Hablados: Colecciones de grabaciones, pero que tienen mayor valor computacional cuando se acompañan de transcripciones. Lingüística Computacional
ANOTACIÓN DE CORPUS • Mejoramiento de la información de un corpus con información de tipo lingüístico. • Proceso manual (con analistas humanos), semiautomático o automático (haciendo uso de ciertas herramientas como lematizadores y etiquetadores de habla (part-of-speech taggers). • La calidad de la anotación automática es inferior a la anotación manual. Lingüística Computacional
VENTAJAS DE LA ANOTACIÓN DE CORPUS • Facilidad de explotación: Los corpus anotados tienen más utilidad que los corpus no anotados. • Reusabilidad. • Multifuncionalidad: surge de la reusabilidad, la cual genera nuevas formas de uso y funciones para los corpus anotados. • Análisis explícito: se pueden analizar características lingüísticas específicas, e incluso recolectar el corpus con ellas en mente. Lingüística Computacional
CRÍTICAS A LA ANOTACIÓN DE CORPUS • La anotación produce corpus impuros, puesto que la interpretación del analista se plasma en el corpus cuando lo anota. • Existen diferencias apreciables en precisión y consistencia entre anotaciones automáticas y manuales. Las primeras son menos precisas pero más consistentes. Lingüística Computacional
USOS DE LOS CORPUS ANOTADOS • Etiquetado de habla. • Desambiguación. • Extracción de Términos. • Construcción de Bases de Conocimientos. • Evaluación de Sistemas de Procesamiento del lenguaje. • Anotación automática a partir de anotación manual. Lingüística Computacional
EJEMPLOS DE CORPUS • Google. • MICASE. Lingüística Computacional