Aplicaciones del pln
This presentation is the property of its rightful owner.
Sponsored Links
1 / 66

Aplicaciones del PLN PowerPoint PPT Presentation


  • 113 Views
  • Uploaded on
  • Presentation posted in: General

Aplicaciones del PLN. Traducción Automática Recuperación de la Información Information Retrieval (IR) Búsqueda de la Question Answering (Q&A) Resumen automático Clasificación de documentos. Traducción Automática 1.

Download Presentation

Aplicaciones del PLN

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Aplicaciones del pln

Aplicaciones del PLN

  • Traducción Automática

  • Recuperación de la Información

    • Information Retrieval (IR)

  • Búsqueda de la

    • Question Answering (Q&A)

  • Resumen automático

  • Clasificación de documentos


Traducci n autom tica 1

Traducción Automática 1

  • Proceso de pasar un texto en una lengua fuente a uno en una lengua objetivo preservando una serie de propiedades

    • la principal es el significado

  • TA textual vs oral

  • TA vs Traducción asistida

    • MAHT, HAMT

  • Historia de la TA


Traducci n autom tica 2

Traducción Automática 2

  • Algunas lecturas introductorias

    • Generales

      • Juan Alberto Alonso (2000) La Traducció automàtica capítulo 4 de Les tecnologies del llenguatge, M.A.Martí (ed) UOC

      • Joseba Abaitua (1997)

        • http://www.uvigo.es/webs/sli/paxinas/abaitua.html

    • TA estocástica

      • Kevin Knight (1999)

        • http://www.isi.edu/natural-language/people/knight.html

      • Horacio Rodriguez (2001) Técnicas estadísticas para la TA

        • http://www.lsi.upc.es/~horacio/doctorat/tapln/StochasticMT.zip

      • Otras fuentes

        • http://www.clsp.jhu.edu/ws99/projects/mt/

        • http://www.iti.upv.es/~fcn/

        • http://www.iti.upv.es/~prhlt/


Traducci n autom tica 3

Traducción Automática 3

  • Aproximaciones básicas

    • Sistemas de traducción directa

    • Sistemas basados en transfer

    • Sistemas basados en Interlingua

    • Memorias de traducción

  • Sistemas probabilísticos vs simbólicos


Traducci n autom tica 4

Traducción Automática 4

Interlingua

E. Semántica

E. Semántica

transfer

semántico

E. Sintáctica

E. Sintáctica

transfer sintáctico

E. Léxica

E. Léxica

traducción directa

Texto fuente

Texto objetivo


Traducci n autom tica 5

Traducción Automática 5

  • Recorrido histórico

    • 1940's nacimiento (Weaver & Booth, GAT, CETA, ...)

    • 1950's investigación activa (Systran, Metal, ...)

    • 1966 Informe ALPAC

    • hasta 1975 travesía del desierto

    • 1975 hasta 1985 resurgencia (Europa y Japón)

      • Eurotra, Atlas,

    • 1985 recuperación gradual


Traducci n autom tica 6

Traducción Automática 6

  • Razones de la recuperación

    • Necesidad

    • Cambio (humilde!!) en las expectativas

    • Potencia de computación

    • WWW

    • Desarrollo de la LC

    • Sistemas estadísticos e híbridos


Aplicaciones del pln

Traducción Automática Estadística

  • Dado un texto en un lenguaje fuente (f ) deseamos obtener su traducción en un lenguaje objetivo (o) de forma que se maximice la probabilidad de o dado f, P(o|f).

Modelodellenguaje objetivo Modelo de la traducción


Aplicaciones del pln

Noisy Channel Model 1

e

f

ê

Noisy Channel

Decoder

  • Problemas

    • obtención de los modelos

      • P(f|e)

      • P(e)

    • búsqueda de ê (decoder)


Aplicaciones del pln

Noisy Channel Model 2

  • P(f|e)

    • Asegura una "buena" traducción de las palabras del texto

  • P(e)

    • Asegura una "buena" gramaticalidad del texto en la lengua objetivo


Aplicaciones del pln

Proceso de Traducción

f'

Lexicon Model

Transformación

Alignment Model

f

Language Model

Decoder

e

Transformación

e'


Aplicaciones del pln

Modelos estadísticos del lenguaje

  • Modelos estadísticos

  • Modelos del lenguaje (LM)

  • Vocabulario (V), palabra

    • w  V

  • Lenguaje (L), oración

    • s  L

    • L  V* normalmente infinito

  • s = w1,…wN

  • Probabilidad de s

    • P(s)


Aplicaciones del pln

Implementación de LM

  • Implementación intuitiva

    • Enumerar s  L

    • Calcular las p(s)

    • Parámetros del modelo |L|

  • Simplificaciones

  • historia

    • hi = { wi, … wi-1}

  • Modelos de Markov


Aplicaciones del pln

Modelo de traducción 1

  • P(f|e)

  • fuente: f = f1f2...fm

  • objetivo:e = e1e2…el

  • alineamiento:a = a1a2…am

  • en general

    • a  {1,…,m}  {1,…,l}

  • se suele tomar

    • a: {1,…,m}  {0,…,l}

      • a(j)  0a fj le corresponde ea(j)

      • a(j) =0fj no está alineada

  • A(f,e) es el conjunto de alineamientos posibles

    • existen 2lm alineamientos


Aplicaciones del pln

Modelo de traducción 2

  • Lo básico es estimar las probabilidades de los alineamientos, normalmente a partir de corpus alineados, parallel corpora, (a veces a partir de corpus simplemente equivalentes o comparables)

  • Modelos clásicos de traducción

    • IBM 1: sólo probabilidades léxicas

    • IBM 2: + posición

    • IBM 3: + fertilidad

    • ...


Alineamientos 1

Alineamientos 1

and the program has been implemented

123456

leprogramme aétémisenapplication

1234567


Alineamientos 2

Alineamientos 2

the balance was the territory oftheaboriginal people

12345 678 9

leresteappartenaitaux autochtones

12345


Alineamientos 3

Alineamientos 3

the poor don't haveanymoney

123456

lespauvressontdemunis

1234


Alineamientos 4

Alineamientos 4

NULLMarydidnot slapthegreenwitch

01234567

Maryno dióunabofetada a la bruja verde

12 345 6789

alineamiento:

[1, 3, 4, 4, 4, 0, 5, 7, 6]


Alineamientos 5

Alineamientos 5

x

x

x

xxx

x

x

witch

green

the

slap

not

did

Mary

Marynodióunabofetada a la bruja verde

12 3456789


Aplicaciones del pln

Recuperación de la Información 1

La IR trata de la Representación, Almacenamiento,

Organización y acceso a las

Unidades de Información

Textos (documentos)

Hipertextos,

Multimedia,

...


Componentes de un sri oard dorr 96

Componentes de un SRI (Oard,Dorr,96)

{0,1}

juicio humano: j

espacio de las consultas: Q

espacio de los documentos: D

Consulta

Documento

q

d

representación 1

representación 2

espacio de representación: R

función de comparación: c

{0,1}


Sistema ideal

Sistema ideal

c(q(cons), d(doc)) = j(cons, doc)

cons Q

doc D


Proceso de la recuperaci n de informaci n

Proceso de la Recuperación de Información

texto

consulta

Interfaz de

usuario

texto

Opeaciones textuales

realimentación

representación

operaciones

sobre la consulta

Indexado

consulta

Gestor de BD

Búsqueda

Indices

documentos

recuperados

documentos

clasificados

Base de

textos

Clasificación


Caracter sticas de los sri

Características de los SRI

  • Tipo de información almacenada

    • Texto, voz, información estructurada

  • Lenguaje de consulta

    • Exacto, ambiguo

  • Tipo de emparejamiento

    • Exacto, aproximado

  • Tipo de información deseada

    • Vaga, precisa

  • Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.


Operaciones sobre los documentos

Operaciones sobre los documentos

  • Preproceso

    • análisis léxico, estandarización

      • formas no estándard, fechas, números, siglas, locuciones, lexías, ...

    • lematización

      • análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter

    • filtrado

    • Stopwords (diccionarios negativos)

  • Clasificación

    • manual

    • automática

      • clasificación

      • clustering

  • Compresión


Indexado

Indexado

  • indexado manual vs automático

  • indicadores

    • objetivos: estructurales

    • subjetivos: textuales (de contenido)

  • indexado pre-coordinado vs post-coordinado

  • términos simples vs términos en contexto

Modelo más corriente: Bag of simple words


Representaci n de los documentos

Representación de los documentos

  • Modelos clásicos

    • texto completo

    • booleano

    • vectorial

    • probabilístico

  • Variantes evolucionadas del modelo probabilístico

    • Bayesiano

    • Redes de inferencia

    • Redes de creencia

  • paradigmas alternativos

    • Modelo vectorial generalizado

    • Modelo booleano extendido

    • Latent Semantic Indexing

    • Redes neuronales


Operaciones de consulta

Operaciones de consulta

Modelo booleano simple

Expresiones booleanas sobre términos

que aparecen en el documento o

palabras clave.

Conectivos: AND, OR, NOT,

paréntesis

Extensiones:

restricciones de distancia (nivel párrafo,

nivel frase, adyacencia)

ventana fija o variable

Modelo booleano extendido:

ponderación de términos: frecuencia del

término en el documento, en la colección,

normalización

Expansión de las consultas

uso de F.Conocimiento externas (ej. WN)

extensión con sinónimos y/o hiperónimos

truncado de términos

generalización morfológica

relevance feedback


Medidas de calidad de la recuperaci n

Medidas de calidad de la recuperación

recuperados = a + b

relevantes = a + d

recall (cobertura) = a / (a + d)

precisión = a / (a + b)

a

recuperado

b

d

recall = están todos los que son

precisión= son todos los que están

c

relevante

Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) y

no un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos de

cobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.


Modelo booleano

Modelo booleano

t1 t2 t3 ... ti ... tm

d1 0 1 0

d2 1 0 1 0

d3

...

dj

...

dn

atributos: todos los términos (palabras, lemas,

multipalabras, ...) que aparecen en la colección

(excepto los stopwords)

filas: cada documento representado por un vector

de booleanos (1 si el término aparece en el documento,

0 en caso contrario). Hay n documentos

columnas: cada término representado por un vector

de booleanos. Hay m términos

no es posible una respuesta ponderada

no se tiene en cuenta ni frecuencia ni orden ni

importancia de los términos


Modelo vectorial 1

Modelo Vectorial 1

t1 t2 t3 ... ti ... tm

d1

d2

d3

...

dj wij

...

dn

wij peso (relevancia) del término j en el documento i

Forma más corriente de definir la relevancia

tfij frecuencia del término tj en el documento di

dfj # documentos en los que aparece tj

idfj log (N / dfj )

wij = tfij *idfj


Modelo vectorial 2

Modelo Vectorial 2

Otra forma

dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad)

dvj = Q - Qj

Q densidad sin seleccionar el término tj

N = # documentos

Qj densidad seleccionando el término tj

relevancia: wij = tfij *dvj


Modelo vectorial 3

Modelo Vectorial 3

Otra forma

C = centroide de la colección de documentos

Q densidadrespecto al centroide C

El cálculo de la relevancia es idéntico al caso anterior

En cualquier caso la consulta se representa también vectorialmente

y se seleccionan los documentos más próximos de acuerdo a una

distancia


Medidas de similitud

Medidas de similitud

Medida de similitud

Producto escalar

Coeficiente de Dice

Coseno

Coeficiente de Jaccard

Modelo booleano Modelo vectorial


Ir y ln

IR y LN

  • Recursos de LN

  • Tareas de PLN

    • Indexado

      • palabras, raices, lemas, acepciones, multitérminos

      • , frases, …

      • problemas:

        • nombres propios

        • palabras desconocidas

        • unidades no estándar

        • polisemia

      • => Sólo levemente mejor que usar monotérminos (formas)

    • Recuperación

      • expansión de las consultas


Aplicaciones del pln

CLIR

  • Cross Language Information Retrieval

  • Recuperación de documentos de acuerdo a peticiones formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas

  • Técnicas

    • Traducir los documentos

    • Traducir las consultas

    • Proyectar unos y otras a un espacio de indexado neutral

  • Limitaciones

    • Los textos de las consultas son más cortos que los documentos

    • El contexto (y la fiabilidad) al traducir la consulta es menor

    • Los errores de traducción son menos graves en los documentos


Aproximaciones a clir oard 97

Aproximaciones a CLIR (Oard,97)

CLIR

Texto libre

Vocabulario

Controlado

Basado en Corpus

Basado en Conocimiento

Corpus

paralelos

Corpus

comparables

Corpus

monolingües

Basado en

Diccionarios

Basado en

Ontologías

Alineación

de documentos

Alineación

de oraciones

Alineación

de términos

Basado en

Tesauros


Question answering 1

Sistemas de Q&A

Un sistema de QA parte de una consulta expresada en lenguaje natural y debe devolver no un documento que sea relevante (es decir que contenga la respuesta) sino la propia respuesta (normalmente un hecho)

Si los sistemas de IR convencionales utilizaban técnicas básicamente estadísticas, los sistemas de Q&A utilizan de forma creciente técnicas de TLN

Question Answering 1


Question answering 2

Algunos sistemas de QA accesibles a través de Internet:

START

http://www.ai.mit.edu/projects/infolab/globe.html

IO search engine

http://www.ionaut.com:8400/

Webclopedia

http://www.isi.edu/natural-language/projects/webclopedia/

AskJeeves

http://www.ask.com

LCC

http://www.languagecomputer.com/

Question Answering 2


Question answering 3

Aparición en las competeciones del TREC a partir del TREC-8 (1999)

Disciplinas relacionadas

Recuperación de la información (obviamente) y disciplinas afines (I routing, filtering, harvesting, ...)

Answer Finding

Dada una base de preguntas y respuestas (como las habituales FAQ) se trata de localizar la (s) pregunta (s) más próximas a la planteada para devolver su (s) respuesta (s)

FAQ Finder: http://infolab.cs.uchicago.edu/faqfinder/

Interfaces en LN a bases de datos

Sistemas de Integración de información (InformationIntegration, II)

Extracción de la Información (InformationExtraction, IE)

Question Answering 3


Aplicaciones del pln

Q&A, Qué leer

  • Horacio Rodriguez (2001)

    • http://www.lsi.upc.es/~horacio/doctorat/tapln/QA.zip

  • Documentos de las conferencias TREC

    • TREC-8 http://trec.nist.gov/pubs/trec8/t8_proceedings.html

    • TREC-9 http://trec.nist.gov/pubs/trec9/t9_proceedings.html

    • TREC-10 http://trec.nist.gov/pubs/trec10/t10_proceedings.html

http://www.isi.edu/natural-language/projects/webclopedia/

http://www.seas.smu.edu/~sanda/

http://www.cs.utexas.edu/users/sanda/

http://www.languagecomputer.com/

http://www.dlsi.ua.es/~vicedo/

http://www.dlsi.ua.es/~antonio/


Q a en las evaluaciones del trec

Q&A en las evaluaciones del TREC

Evaluación del TREC 9


Q a en las evaluaciones del trec y clef

Q&A en las evaluaciones del TREC y CLEF

  • Participación del grupo Talp (UPC) en

    • TREC 2003

    • CLEF 2004

    • TREC 2004


Q a arquitectura b sica 1

Q&A, Arquitectura básica 1

  • Uso detécnicas de IR

    • utilizar las palabras de la pregunta como términos de una consulta y recuperar los documentos más relevantes de acuerdo a ella.

    • Extensiones de tipo heurístico para localizar la respuesta

    • Más adecuadas en la competición de 250 bytes

    • Pero ...

      • no todas las palabras de la pregunta son relevantes para buscar la respuesta

      • recuperar el documento relevante no concluye la tarea, hay que extraer de él la respuesta.


Q a arquitectura b sica 2

Q&A, Arquitectura básica 2

La mayoría de los sistemas de QA se organizan en 4 subtareas

  • Tratamiento de la pregunta

  • IR de los documentos relevantes

  • Segmentación en fragmentos,

  • IR de los fragmentos

  • Extracción de la respuesta.


Q a arquitectura b sica 3

Q&A, Arquitectura básica 3

Normalmente las cuatro tareas se abordan en secuencia

  • Tratamiento de la pregunta

Términos relevantes

Tipo de pregunta

Foco

...

  • IR de los documentos

  • relevantes

Documentos relevantes

  • Segmentación en fragmentos,

  • IR de los fragmentos

fragmentos relevantes

  • Extracción de la respuesta.

respuesta


Resumen autom tico 1

Resumen Automático 1

  • A summary is a reductive transformation of a source text into a summary text by extraction or generation

    • Sparck-Jones, 2001


Resumen autom tico 2

Resumen Automático 2

  • Localizar las partes de un texto que son relevantes (para las necesidades de un usuario) y producir un resumen de las mismas

  • Sum vs IE

    • IE

      • Se define a priori la estructura a extraer

        • “Sé lo que deseo, búscamelo”

    • Sum

      • No tiene por qué haber una definición previa de criterios de interés

        • “Qué hay aquí de interesante”


Resumen autom tico qu leer

Resumen automático, Qué leer

  • Tutorial

    • E.Hovy, D. Marcu (1998)

  • Horacio Rodriguez (2001) Summarization

    • http://www.lsi.upc.es/~horacio/doctorat/tapln/Summarisation.zip


Caracter sticas del resumen 1

Características del resumen 1

  • Tipo

    • Indicativo vs informativo

    • Extract vs Abstract (vs gist)

    • Genérico vs respuesta a una consulta (query based)

    • Background vs Novedad (just-the-news)

    • un solo documento vs multidocumento

    • general vs dependiente del dominio

    • textual vs multimedia

  • Entrada

    • dominio, género, forma, tamaño


Caracter sticas del resumen 2

Características del resumen 2

  • Disciplinas relacionadas

    • IE, IR, Q&A, Topic identification (TI), Document Classification (DC), Event (topic) detection and tracking (TDT)

  • Evaluación

  • Aplicaciones

    • recensiones biográficas

    • resúmenes de historiales médicos

    • resúmenes de correo electrónico

    • de páginas Web

    • de noticias

    • extracción de titulares (headlines)

    • apoyo a los sistemas de recuperación de información

    • resúmenes de reuniones


Esquema b sico

Esquema básico

condiciones

multi-document

extract

single-document

abstract

Summarizer

headline

query


T cnicas empleadas 1

Técnicas empleadas 1

  • cadenas léxicas

    • [Barzilay, 1997]

  • cadenas de correferencia

    • [Baldwin, Morton, 1998]

    • [Bagga, Baldwin, 1998]

  • técnicas de alineación

    • [Banko et al, 1999]

  • Compresión, reducción o simplificación de oraciones (cut & paste)

    • [Jing, 2000]

    • [Jing, McKeown, 1999]


T cnicas empleadas 2

Técnicas empleadas 2

  • modelos estadísticos

    • modelos estadísticos de la lengua

      • [Berger, 2001], [Berger, Mittal, 2000]

    • modelos bayesianos

      • [Kupiec et al, 1995], [Schlesinger et al, 2001]

    • cadenas ocultas de Markov

    • Regresión logística

      • [Conroy et al, 2001]

  • Machine Learning

    • árboles de decisión

    • ILP

      • [Knight, Marcu, 2000], [Tzoukerman et al, 2001]

  • medidas de similitud y divergencia

    • MMR

      • [Carbonell, Goldstein, 1998]


T cnicas empleadas 3

Técnicas empleadas 3

  • IE

    • [Kan, McKeown, 1999]

  • Topic Detection

    • [Hovy, Lin, 1999]

    • [Hovy, 2000]

  • Topic Signatures

    • [Lin, Hovy, 2001]

  • estructura retórica del documento

    • [Marcu, 1997]

  • Combinación

    • [Goldstein et al, 1999], [Kraaij et al, 2001],

    • [Muresan et al, 2000], [White et al, 2001].


Multidocument summarization mds 1

Multidocument Summarization (MDS) 1

Objetivos

  • Contenido de una colección de documentos

  • Briefing

    • concise summary of the factual matter of a set of news articles on the same or related events (SUMMONS, Radev,1999)

  • Actualización de información ya conocida

  • localización de las secciones de una serie de documentos relevantes para las necesidades de información del usuario


Mds 2

MDS 2

Diferencias SDS MDS

  • Factor de compresión más bajo

  • Medidas anti-redundancia

  • dimensión temporal

  • mayor reto de la correferencia

  • aplicación a la búsqueda de información

    • interfaz de usuario


Mds 3

MDS 3

Requisitos

  • Clustering de documentos y pasajes

  • cobertura

  • anti-redundancia

  • cohesión del resumen

  • calidad

    • legible

    • relevante

    • contexto

  • inconsistencias de las fuentes

  • actualizaciones


Mds 4

MDS 4

Tipos

  • A partir de las secciones comunes a los documentos de la colección

  • Secciones comunes + secciones únicas

  • Centroides

  • Centroides + outliers

  • Último documento + outliers

  • Secciones comunes + secciones únicas + factor de ponderación del tiempo


Mds 5

MDS 5

  • Information Fusion (Barzilay et al,1999)

    • artículos que presentan diferentes descripciones de la misma noticia

    • La repetición es buen indicador de relevancia

    • automatically generate a concise summary by identifying similarities and differences across a set of related documents.

      • Identifying themes

      • Information Fusion

      • Generation (Reformulation)

  • Approaches

    • Columbia Univ.

      • Barzilay et al, 1999, McKeown et al,1999, Hatzivassilogtlou et al,1999

      • Barzilay et al, 2001, Elhadad, Mc.Keown, 2001

    • CMU

      • Mittal et al,1999


Mds 6

Generation Component

Analysis Component

Feature Extraction

Theme Intersection

Themes

Feature Synthesis

Sentence Planner

Rule Induction

Sentence Generator

article 1 .... article n

Summary

MDS 6

Mc.Keown et al, 1999 MULTIGEN


Clasificaci n de documentos 1

Clasificación de documentos 1

  • Clasificación vs. Clustering

  • Asignar cada documento a una clase perteneciente a un conjunto predefinido de clases

  • Ejemplos:

    • filtrado de mensajes spam

    • identificación de la lengua

    • documento interesante para un usuario

    • asignación del dominio temático

      • categorías temáticas


Clasificaci n de documentos 2

Clasificación de documentos 2

  • Variaciones:

    • Multiclass

      • un documento puede ser asignado a más de una clase

    • Rank

      • se asocia a cada documento la probabilidad de pertenencia a cada una de las clases

  • Factores para la categorización

    • Contenido textual

    • Metadatos


Clasificaci n de documentos 3

Clasificación de documentos 3

  • Aproximaciones

    • Vectoriales

      • Categorizar cada clase como un documento prototípico (Topic Signature, Lexical Profile, ...)

      • Representar el documento a clasificar usando el VSM (Vector Space Model)

      • Utilizar alguna medida de similitud comparando el vector asociado al documento con los asociados a cada una de las clases

      • Elegir la (s) mejor (es) u ordenarlas

    • Uso de técnicas de ML

      • Naive Bayes, Listas de decisión, árboles de decisión, máxima entropía, SVM, boosting, ...


Clasificaci n de documentos 4

Clasificación de documentos 4

  • Precision = good messages kept all messages kept

  • Recall =good messages kept all good messages


  • Login