1 / 40

Introducción al PLN 1

Introducción al PLN 1. Presentación del curso Ingeniería lingüística Tareas Recursos Aplicaciones Niveles de procesamiento lingüístico. Del PLN a la Ingenier í a Ling üí stica.

garvey
Download Presentation

Introducción al PLN 1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introducción al PLN 1 • Presentación del curso • Ingeniería lingüística • Tareas • Recursos • Aplicaciones • Niveles de procesamiento lingüístico

  2. Del PLN a la Ingeniería Lingüística • La Ingeniería Lingüística es la aplicación del conocimiento de la lengua al desarrollo de sistemas informáticos capaces de reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas. • La IL comprende: • Métodos, Técnicas y Herramientas • Recursos (Lingware) • Aplicaciones

  3. Componentes de la Tecnología TEXTO VOZ IMAGEN RECURSOS LINGÜÍSTICOS ENTRADA Reconocer y Validar Analizar y Comprender Aplicar Generar TEXTO VOZ IMAGEN SALIDA

  4. Técnicas utilizadas • Identificación del hablante. Verificación • Reconocimiento del habla • Reconocimiento de caracteres e imágenes • Comprensión de la lengua • Generación de lenguaje • Sistemas basados en diálogos • Síntesis del habla

  5. Identificación del hablante. Verificación • Problemas: • Hablante desconocido • Ruido (en el entorno o en el medio de transmisión) • Cambios temporales en el hablante

  6. Reconocimiento del habla • Discurso discreto vs continuo • Adquisición y uso de modelos estadísticos de los fonemas y palabras • Reconocimiento de cualquier locutor (sin necesidad de entrenamiento) • Ruido • Acento, dialectos, agramaticalidades

  7. Reconocimiento de caracteres e imágenes • Reconocimiento de caracteres impresos (OCR) • tipo de letra desconocido • mala calidad del texto • Reconocimiento de texto escrito a mano (ICR) • Reconocimiento de imágenes • Análisis del documento. • Separación en gráficos, texto, fotografías • Análisis del texto: títulos, encabezados, párrafos, etc...

  8. Comprensión de la lengua • Comprensión completa o parcial • Análisis incremental: • Análisis parcial y/o superficial • localización de focos de interés • Análisis más detallados de dichos focos • Técnicas lingüísticas, estadísticas e híbridas • Modelos semánticos • Palabras desconocidas

  9. Generación de lenguaje • Representación semántica del texto • Qué decir y Cómo decirlo (what to say, how to say) • Planificación del contenido y de la forma • Elementos retóricos

  10. Sistemas basados en diálogos • Alto nivel de comprensión • Calidad del diálogo • Detección del contenido ilocutivo de las intervenciones del interlocutor humano • Acciones primitivas locutivas y no locutivas • comunicaciones, órdenes, peticiones, preguntas, etc... • Actos de habla directos e indirectos

  11. Síntesis del habla • Contenido • Forma: intensidad, entonación, duración • Generación a partir de piezas pregrabadas. Concatenación

  12. Recursos • Lexicones generales • Diccionarios • Lexicones especializados • Ontologías • Gramáticas • Corpus textuales • Internet como fuente de información

  13. Lexicones generales • Repositorios de palabras • lemarios, formarios, listas de palabras, ... • Conocimiento sobre las palabras • Fonología • Morfología: categoría, concordancia.. • Sintaxis: categoría, subcategorización, estructura argumental, valencia, patrones de co-occurrencia... • Semántica: clase semántica,restricciones selectivas... • Pragmática: uso, registro, dominio, ...

  14. Diccionarios • MRDs • tipos: generales, normativos, de uso, de aprendizaje, mono/bilingües... • tamaño, contenido, organización • entrada, acepción, relaciones, ... • Bases de datos léxicas • ej. Acquilex LDB • Otras fuentes: enciclopedias, tesauros,...

  15. Lexicones especializados • Nombres propios • Bases de datos terminológicas • Gazetteers • Diccionarios de locuciones, lexías,... • Wordnets • Siglas, jergas • Detectores de fechas, números, fórmulas,...

  16. Ejemplo: relaciones morfoléxicas. U. Las Palmas (O. Santana)

  17. Ejemplo: utilización de Gazetteers en sistemas de Q&A • Multitext (U.Waterloo) • Clarke et al, 2001, 2002 • Structured data • biographies (25,000), Trivial Q&A (330,000), Country locations (800), acronyms (112,000), cities (21,000), animals (500), previous TREC Q&A (1393), ... • 1 Tb of Web data • Altavista • AskMSR (Microsoft) • Brill, 2002

  18. Gramáticas • Gramáticas morfológicas • Gramáticas sintácticas • Gramáticas de constituyentes • Gramáticas de dependencias • Gramáticas de casos • Gramáticas Transformacionales • Gramáticas sistémicas • Gramáticas sintagmáticas vs de unificación • Gramáticas probabilísticas • Cobertura, lengua, categorías

  19. Ontologías • Ontologías léxicas vs conceptuales • Ontologías generales vs de dominio • Ontologías de tareas, metaontologías • Contenido, granularidad, relaciones • Interlinguas: KIF, PIF • CYC, Frame-Ontology, WordNet, EuroWordNet, GUM, MikroKosmos

  20. Corpus 1 • Textuales vs orales • Gran tamaño (1Mw - 1Gw) • Poco (o nada) estructurados • Información no disponible en forma más tratable: • colocaciones, estructura argumental, contexto de aparición, inducción gramatical, relaciones léxicas, restricciones selectivas, lexías, ejemplos de utilización,...

  21. Corpus 2 • Corpus anotados (tagged) • categoría gramatical (pos tagging) posible o desambiguada • lema • acepción (granularidad) • parentizados • analizados sintácticamente (profundidad) • alineados • Corpus equilibrados, piramidales, oportunistas

  22. Corpus 3 ejemplos • Brown Corpus • ACL/DCI (Wall Street Journal, Hansard, ...) • ACL/ECI (European Corpus Initiative) • USA-LDC (Linguistic Data Consortium) • LOB (ICAME, International Computer Archive of Modern English) • BNC (British National Corpus) • SEC (Lancaster Spoken English Corpus) • TOSCA • Collins-Cobuild • PAROLE • IBM/Lancaster treebank • Penn Treebank • Susanne • SemCor • Trésor de la Langue Française (TLF)

  23. Corpus 4 ejemplos • Instituto Cervantes. Observatorio Español de Industrias de la Lengua "http://www.cervantes.es/oeil/Oeil0.htm • CREA, recopilado por la RAE. 200 Mw. etiquetado y lematizado • CRATER, (esp, ing, fran), U.A.Madrid. 5.5Mw. alineado, anotado morfosintácticamente • ALBAYZIN. Corpus oral, frases aisladas, consultas a BD geográfica. UPC (TSC), UGr, UPMad, UPVal, UABar • LEXESP, 5Mw, anotado morfosintácticamente, lematizado, UBar, UPC • IEC en el marco del DCC (catalán)

  24. Ejemplo: proyecto 3lb

  25. Internet como fuente de información 1 • Fuente ingente de información • 1000 Millones de páginas, decenas de Tb, • expansión (doble en 2 años) • (Cho, 2002) • Heterogénea • contenido, lengua (70% inglés), formatos • Servidores de información general • (Medialinks) • 14.000 servidores (5000 periódicos, 70 en España)

  26. Internet como fuente de información 2 • Internet hoy • documentos HTML • dirigidos al consumo (visualización) humano • muchos generados automáticamente por aplicaciones • acceso a través de • URLs conocidas • buscadores (o metabuscadores) de propósito general • buscadores específicos de una URL determinada • Limitaciones • dificultad de consumir (por las aplicaciones) texto marcado (generalmente mal) HTML • dificultad de construcción (y mantenimiento!) de los wrappers

  27. Internet como fuente de información 3 • Tareas relacionadas con la gestión de información en Internet • Modelado y consulta a la Web • Localización de páginas potencialmente útiles • Consulta a fuentes heterogéneas • Question Answering • Extracción de Información • Integración de Información • Construcción (y reestructuración) de Web sites • Agentes (crawlers, spiders, softbots, infobots ...)

  28. Internet como fuente de información 4 • Fuentes de información en la Web • Estructuradas • Bases de datos • Semi-estructuradas • Exhiben cierta regularidad • No suelen emplear LN no restringido • Elementos extraños que pueden ayudar (marcas HTML, XML) o confundir (applets, propaganda, ...) • Una alta proporción de recursos actuales en Internet son fuentes semi-estructuradas => útiles • Semantic Web • Libres • texto no restringido

  29. Recursos: Repositorios y otras iniciativas 1 • ELRA (European Language Resources Association) • http://www.icp.grenet.fr/ELRA/home.html • LDC (Linguistic Data Consortium) • http://www.ldc.upenn.edu/ • Eagles (Expert Advisory Group on Language Engineering Standards) • http://www.ilc.pi.cnr.it/EAGLES/home.html • TEI (Text Encoding Initiative) • http://www.tei-c.org/ • ELSNET (European Network in Language and Speech) • http://www.elsnet.org/

  30. Recursos: Repositorios y otras iniciativas 2 • ACL NLP/CL Universe • http://www.summarization.com/~radev/u/db/acl/ • ACL- DCI Data Collection Initiative • The NLP/CL Universe, a publicly extensible indexed compilation of Web resources related to computational linguistics. • Multext (Multilingual Text Tools and Corpora) • http://www.lpl.univ-aix.fr/projects/multext/ • CLR (Consortium for Lexical Resources) • EDR

  31. Aplicaciones 1 • Aplicaciones genéricas • (ayuda a la) traducción automática • gestión de la información (multilingüe) • authoring (multilingüe) • interfaz persona/máquina (multilingüe, multimodal) • Obtención de recursos • Aplicaciones específicas

  32. Aplicaciones 2 • traducción automática • TA con intervención humana, • TH. asistida • entornos de ayuda a la TH • Adquisición automática de recursos para la TA (corpus alineados, modelos de traducción, memorias de traducción, ...)

  33. Aplicaciones 3 • gestión de la información • productores de resúmenes, • indiciadores, • {recuperación, extracción, formateo, filtrado, encaminado} de información, • minería de información textual, • buscadores conceptuales, • alineadores de textos, • “guessers” • sistemas de búsqueda de la respuesta

  34. Aplicaciones 4 • “authoring” • correctores léxicos, gramaticales, estilísticos, • consulta online de diccionarios, tesauros, ontologías, • facilidades para la estructuración e integración de documentos • interfaz persona/máquina (multilingüe, multimodal)

  35. Aplicaciones 5 • Obtención de recursos lingüísticos • corpus alineados • gramáticas • gazetteers • morfología • restricciones de selección • patrones de subcategorización • Topic Signatures • ...

  36. Aplicaciones 4 • gestión de la información • productores de resúmenes, indiciadores, {recuperación, extracción, formateo, filtrado, encaminado} de información, buscadores conceptuales, alineadores de textos, “guessers” • “authoring” • correctores léxicos, gramaticales, estilísticos, consulta online de diccionarios, tesauros, ontologías, facilidades para la estructuración e integración de documentos • interfaz persona/máquina (multilingüe, multimodal)

  37. La ingeniería lingüística en Europa • planes nacionales de investigación y desarrollo tecnológico • 5º Programa Marco de I+D de la Unión Europea (1998-2002) • 9 áreas científico-tecnológicas • área de las Tecnologías de la Información y las Comunicaciones • 12 áreas sectoriales • área de la Sociedad de la Información • 6ºPrograma Marco (2004-2008)

  38. Los programas marco de la UE • Ingeniería Lingüística • Dirección General XIII • Human Language Technologies • Programas concretos • ESPRIT (Information Technologies) • LRE (Linguistic Research Engineering) • MLIS (Multilingual Information Society) • INCO (International Cooperation) • LE (Language Engineering) • HLT (Human Language Technologies).

  39. La investigación española en ingeniería lingüística • Investigación de grupos españoles vs investigación sobre la lengua española • Técnicas independientes de la lengua • Mecanismos de evaluación para el inglés • Otras lenguas • Otros grupos europeos • Grupos americanos

  40. Cuántos grupos • Unos 30 grupos • SEPLN (1997) • I.Cervantes • Almansa et al, 1998 • Llisterri, Garrido, 1998 • 75% en Universidades y C. Investigación • Equilibrio texto/habla/recursos • Áreas, aplicaciones • Especial interés en Recursos

More Related