extracci n y recuperaci n de informaci n n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Extracción y Recuperación de Información PowerPoint Presentation
Download Presentation
Extracción y Recuperación de Información

Loading in 2 Seconds...

play fullscreen
1 / 95

Extracción y Recuperación de Información - PowerPoint PPT Presentation


  • 169 Views
  • Uploaded on

Extracción y Recuperación de Información. SEPLN 99 Tutorial Horacio Rodríguez UPC horacio@lsi.upc.es. Recuperación y Extracción de Información. Information{retrieval, filtering, routing, summarising harvesting, mining, extraction, formatting, integration, ...} Dos familias básicas

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Extracción y Recuperación de Información' - Jimmy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
extracci n y recuperaci n de informaci n
Extracción y Recuperación de Información

SEPLN 99 Tutorial

Horacio Rodríguez

UPC

horacio@lsi.upc.es

recuperaci n y extracci n de informaci n
Recuperación y Extracción de Información
  • Information{retrieval, filtering, routing, summarising harvesting, mining, extraction, formatting, integration, ...}
  • Dos familias básicas
    • Recuperación de información (Information Retrieval, IR)
    • Extracción de información (Information Extraction, IE)
  • Dos ámbitos
    • Colecciones de documentos
    • Internet => (500 Mpáginas)
  • Papel del LN
    • IR: marginal y discutido (pero... uso de recursos, CLIR)
    • IE: básico
aplicaciones
Aplicaciones
  • Directas
    • Servicios de Información
      • Bibliotecas digitales, buscadores de internet, extraccción de información de la Web, enciclopedias, ofimática, documentación (patentes, leyes, bibliografía), integración y distribución de noticias, multilingüismo ...
  • Indirectas
    • Construcción de recursos:
      • lexicones, corpus, ontologías, bases de conocimiento ...
    • Afinado (tuning) de recursos
the top 10 research issues for companies that use and sell ir systems croft 1995
The top 10 Research Issues for Companies that Use and Sell IR Systems (Croft 1995)
  • Relevance Feedback
  • Information Extraction
  • Multimedia
  • Effective Retrieval
  • Routing & Filtering
  • Interfaces & Browsing
  • “Magic”
  • Efficient, Flexible Indexing and retrieval
  • Distributed IR
  • Integrated Solutions => V.A.Kulyukin (1999)
organizaci n del tutorial
Organización del tutorial
  • Recuperación de información (IR)
  • Papel del LN en los sistemas de IR
  • Cross Lingual IR (CLIR)
  • Extracción de Información (IE)
slide9

La IR trata de la Representación, Almacenamiento,

Organización y acceso a las

Unidades de Información

Textos (documentos)

Hipertextos,

Multimedia,

...

qu leer
¿Qué leer?
  • Libros
    • R. Baeza-Yates, B. Ribeiro-Neto (1999)
    • Grefenstette, G. (1998)
    • M.T. Maybury (1997)
    • G. Salton, M.J. McGill (1983)
    • T. Strzalkowski (1999)
    • C.J. van Rijsbergen (1979)
  • Actas
    • TREC http://trec.nist.gov/
  • Cursos
    • F.Verdejo, J. Gonzalo, A. Peñas
      • Information Retrieval & Natural Language Processing
      • http://rayuela.ieec.uned.es/~ircourse/
componentes de un sri oard dorr 96
Componentes de un SRI (Oard,Dorr,96)

{0,1}

juicio humano: j

espacio de las consultas: Q

espacio de los documentos: D

Consulta

Documento

q

d

representación 1

representación 2

espacio de representación: R

función de comparación: c

{0,1}

sistema ideal
Sistema ideal

c(q(cons), d(doc)) = j(cons, doc)

cons Q

doc D

representaci n del documento indexado baeza yates ribeiro neto 99
Representación del documento: indexado (Baeza-Yates, Ribeiro-Neto,99)

documento: texto + estructura

reconocimiento de la estructura

acentos, espaciado, etc...

stopwords

grupos nominales

términos que forman el índice

lematización

indexación manual o automática

proceso de la recuperaci n de informaci n
Proceso de la Recuperación de Información

texto

consulta

Interfaz de

usuario

texto

Opeaciones textuales

realimentación

representación

operaciones

sobre la consulta

Indexado

consulta

Gestor de BD

Búsqueda

Indices

documentos

recuperados

documentos

clasificados

Base de

textos

Clasificación

caracter sticas de los sri
Características de los SRI
  • Tipo de información almacenada
    • Texto, voz, información estructurada
  • Lenguaje de consulta
    • Exacto, ambiguo
  • Tipo de emparejamiento
    • Exacto, aproximado
  • Tipo de información deseada
    • Vaga, precisa
  • Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.
base de documentos 1
Base de Documentos (1)
  • Organización de la BD
    • Colecciones, Tesauros, Clusters
      • clasificación previa de los documentos: lengua, dominio, estructura
    • ej. UMLS: http://www.nlm.nih.gov/
  • Organización de las unidades
    • contenido
    • operaciones
    • modelo del documento
    • lenguajes de representación del texto (formato)
      • texto simple: ASCII, Unicode, ...
      • texto marcado: SGML, HTML, XML
base de documentos 2
Base de Documentos (2)
  • Documento:
    • simple
    • estructurado: capítulos, secciones, párrafos, oraciones, ...
  • Sublenguajes:
    • Documentación técnica, terminología, jergas, multilingúismo
    • Sekine,98
  • Documentos semiestructurados
    • Hearst,98
  • Páginas Internet
    • Amitay,97
  • Metadatos:
    • Título, resumen, listas, hiperenlaces, texto del hiperenlace, ...
operaciones sobre los documentos
Operaciones sobre los documentos
  • Preproceso
    • análisis léxico, estandarización
      • formas no estándard, fechas, números, siglas, locuciones, lexías, ...
    • lematización
      • análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter
    • filtrado
    • Stopwords (diccionarios negativos)
  • Clasificación
    • manual
    • automática
      • clasificación
      • clustering
  • Compresión
indexado
Indexado
  • indexado manual vs automático
  • indicadores
    • objetivos: estructurales
    • subjetivos: textuales (de contenido)
  • indexado pre-coordinado vs post-coordinado
  • términos simples vs términos en contexto

Modelo más corriente: Bag of simple words

representaci n de los documentos
Representación de los documentos
  • Modelos clásicos
    • texto completo
    • booleano
    • vectorial
    • probabilístico
  • Variantes evolucionadas del modelo probabilístico
    • Bayesiano
    • Redes de inferencia
    • Redes de creencia
  • paradigmas alternativos
    • Modelo vectorial generalizado
    • Modelo booleano extendido
    • Latent Semantic Indexing
    • Redes neuronales
operaciones de consulta
Operaciones de consulta

Modelo booleano simple

Expresiones booleanas sobre términos

que aparecen en el documento o

palabras clave.

Conectivos: AND, OR, NOT,

paréntesis

Extensiones:

restricciones de distancia (nivel párrafo,

nivel frase, adyacencia)

ventana fija o variable

Modelo booleano extendido:

ponderación de términos: frecuencia del

término en el documento, en la colección,

normalización

Expansión de las consultas

uso de F.Conocimiento externas (ej. WN)

extensión con sinónimos y/o hiperónimos

truncado de términos

generalización morfológica

relevance feedback

medidas de calidad de la recuperaci n
Medidas de calidad de la recuperación

recuperados = a + b

relevantes = a + d

recall (cobertura) = a / (a + d)

precisión = a / (a + b)

a

recuperado

b

d

recall = están todos los que son

precisión= son todos los que están

c

relevante

Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) y

no un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos de

cobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.

modelo booleano
Modelo booleano

t1 t2 t3 ... ti ... tm

d1 0 1 0

d2 1 0 1 0

d3

...

dj

...

dn

atributos: todos los términos (palabras, lemas,

multipalabras, ...) que aparecen en la colección

(excepto los stopwords)

filas: cada documento representado por un vector

de booleanos (1 si el término aparece en el documento,

0 en caso contrario). Hay n documentos

columnas: cada término representado por un vector

de booleanos. Hay m términos

no es posible una respuesta ponderada

no se tiene en cuenta ni frecuencia ni orden ni

importancia de los términos

modelo vectorial 1
Modelo Vectorial (1)

t1 t2 t3 ... ti ... tm

d1

d2

d3

...

dj wij

...

dn

wij peso (relevancia) del término j en el documento i

Forma más corriente de definir la relevancia

tfij frecuencia del término tj en el documento di

dfj # documentos en los que aparece tj

idfj log (N / dfj )

wij = tfij *idfj

modelo vectorial 2
Modelo Vectorial (2)

Otra forma

dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad)

dvj = Q - Qj

Q densidad sin seleccionar el término tj

N = # documentos

Qj densidad seleccionando el término tj

relevancia: wij = tfij *dvj

modelo vectorial 3
Modelo Vectorial (3)

Otra forma

C = centroide de la colección de documentos

Q densidadrespecto al centroide C

El cálculo de la relevancia es idéntico al caso anterior

En cualquier caso la consulta se representa también vectorialmente

y se seleccionan los documentos más próximos de acuerdo a una

distancia

medidas de similitud
Medidas de similitud

Medida de similitud

Producto escalar

Coeficiente de Dice

Coseno

Coeficiente de Jaccard

Modelo booleano Modelo vectorial

relevance feedback
Relevance Feedback
  • Etapas
    • formular la consulta
    • obtener los documentos más próximos
    • someterlos al juicio del usuario
      • relevantes
      • irrelevantes
    • expandir la consulta
      • añadir los términos más relevantes de los documentos calificados de tales
    • volver a seleccionar
extensiones de la rf
Extensiones de la RF
  • Autorelevance feedback (Blind feedback)
    • considerar (sin intervención humana) como relevantes los documentos más próximos a la consulta
  • Uso de información histórica
    • consultas similares
      • Keim, Lewis, Madigan, 96
    • summarization-based
      • extracción de términos relevantes a partir de resúmenes (5-10%)
      • Strzalkowski, Lin, Pérez-Carballo,97
    • extraction-based
      • búsqueda de fragmentos (passages) relevantes
modelos probabil sticos
Modelos probabilísticos

Excelente survey: F. Crestani, M. Lalmas, C.J.Van Rijsbergen, I. Campbell (1998)

Dada una consulta qk se debe calcular para cada documento di la probabilidad de que

sea relevante:

O irrelevante:

Un documento podría devolverse si

o bien si la diferencia supera un cierto

umbral

modelos probabil sticos binarios 1
Modelos probabilísticos binarios (1)

Son los más utilizados

donde Xi toma valores 0 ó 1

dada una consulta qk

se puede asumir (es mucho

asumir pero ¡qué remedio!)

que las componentes del vector

X son independientes cuando

están condicionadas a R.

modelos probabil sticos binarios 2
Modelos probabilísticos binarios (2)

Si notamos

y somos capaces de estimar (mediante

historia o Relevance Feedback) los

valores de pi y qi

entonces

para un documento dj podemos

calcular g(dj) y aceptar el documento

cuando supere un umbral

otros modelos
Otros modelos
  • Modelo bayesiano
    • M. Keim, D.D. Lewis, D. Madigan (1996)
  • Teoría de la evidencia (Dempster-Shafer)
    • M.Lalmas, I.Ruthven, M.Theophylactou (1997)
  • Modelo vectorial generalizado
    • Yang et al,97
  • Latent Semantic Indexing
    • Dumais et al,97
    • Evans et al,98
modelo vectorial generalizado
Modelo vectorial generalizado

Crítica del modelo vectorial: Asume los términos ortogonales (independientes)

cuando es evidente que hay relaciones semánticas de coocurrencia de términos.

t1 t2 t3 ... ti ... tm

d1

d2

d3

...

dj

...

dn

VSM: espacio de m dimensiones, la base

del espacio son términos, los vestores que

representamos son documentos

GVSM: (espacio dual). Espacio de n dimensiones.

La base del espacio son los documentos,

ahora los vectores son términos

latent semantic indexing lsi
Latent Semantic Indexing (LSI)

doc3

doc3

t1

doc2

t2

Dimension 2 lsi

t2

doc1

doc2

doc1

t1

Dimension 1 lsi

Espacio de m (# términos) dimensiones,

en él representamos n (# documentos)

puntos (o vectores)

LSI: análisis factorial: análisis de componentes principales.

Se calculan los valores y vectores propios y se recogen los p valores más significativos.

Se crea un espacio de p (200-300) dimensiones (con los vectores propios como base) y se proyectan en él términos, documentos y consultas.

ir y ln lecturas generales
IR y LN: lecturas generales
  • T. Strzalkowski,99
  • Smeaton, A.(1995)
    • transparencias de un tutorial
  • Smeaton, A. (1999)
  • Lewis, D, Sparck Jones K. (1996)
    • divulgación más bien crítica
  • T. Strzalkowski et al, 97,98
    • participación en TREC-6 y TREC-7
  • Voorhees,99
    • transparencias de un tutorial
ir y ln
IR y LN
  • Recursos de LN
  • Tareas de PLN
    • Indexado
      • palabras, raices, lemas, acepciones, multitérminos
      • , frases, …
      • problemas:
        • nombres propios
        • palabras desconocidas
        • unidades no estándar
        • polisemia
      • => Sólo levemente mejor que usar monotérminos (formas)
    • Recuperación
      • expansión de las consultas
indexaci n con palabras
Indexación con palabras
  • Palabras para indexar y consultar
    • variación morfológica
    • no siempre buenos indicadores del contenido
    • polisemia
    • relaciones semánticas entre palabras
      • sinonimia
      • hiper/hiponimia
  • Agrupación de términos
    • términos multipalabras
    • dependencia terminológica
    • colocaciones
    • clustering
indexaci n con palabras y categor as
Indexación con palabras y categorías
  • No parece aportar nada
  • Krowetz,97
    • Más de la mitad de los términos de un duccionario que difieren en categoría gramatical tienen algún tipo de relación semántica
  • Gonzalo et al,99
    • La anotación e indexado con categoría gramatical (incluso realizada manualmente) parece demasiado discriminatoria para ser útil para la RI
indexaci n con acepciones
Indexación con acepciones
  • Problema: etiquetado semántico
    • inventario de acepciones
      • diccionario (cuál), WordNet (synset, variant, file), Clusters
    • algoritmo de desambiguación: WSD
  • Evaluación
    • Krowetz,Croft,92
      • ambigüedad en la acepción => 2% de degradación
    • Sanderson,94
      • es necesaria una precisión del 90% para que sea útil
    • Gonzalo et al, 99
      • importancia de WSD. Mejora con precisión > 70%
    • Schultz,Pedersen,95
      • 7-17% de mejora
indexaci n con frases 1
Indexación con frases (1)
  • Desambiguación morfosintáctica (pos tagging)
  • Análisis sintáctico superficial (shallow parsing)
  • Análisis fragmental (chunkers)
  • Detección automática de colocaciones (Smadja,93)
  • Extracción de grupos nominales
  • Problema de la ambigüedad sintáctica
    • no tenerla en cuenta
    • normalizar, ej. CLARIT (CMU)
    • indexar con árboles de dependencias que capturen la ambigüedad
indexaci n con frases 2
Indexación con frases (2)
  • Xerox
    • pares de palabras que coocurren
    • pares de palabras con dependencia sintáctica
      • sujeto/verbo, verbo/complemento directo, adjetivo/nombre, …
    • sólo mejora con contextos grandes
  • Claritech
    • extracción de frases nominales, normalización => indexado
  • GE + Rutgers
    • stream-based IR
    • actuación de varios módulos alternativos de indexado (stopwords, lematización, extracción de frases, nombres propios, normalización, …) y ponderación
recuperaci n expansi n de las consultas
Recuperación:expansión de las consultas
  • Añadir términos a la consulta basados en la aparición en documentos relevantes y no aparición en documentos irrelevantes
    • CLARIT, Umass
  • Uso de tesauros
  • WordNet
  • EWN
wn en ir
WN en IR
  • Indexado
    • discriminación de acepciones
    • agrupación de palabras relacionadas semánticamente
    • Sanderson,94 (Glasgow)
  • Expansión de las consultas
    • Smeaton 95
      • Hierarchical Concept Graphs
    • Vorhees,94
    • Richardson, Smeaton, 95
    • Smeaton,Quigley,96
    • Gonzalo et al,98
      • comparación al indexar por synset, acepción o palabra
      • mejora a partir de 70% de precisión en WSD
slide45
CLIR
  • Cross Language Information Retrieval
  • Recuperación de documentos de acuerdo a peticiones formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas
  • Técnicas
    • Traducir los documentos
    • Traducir las consultas
    • Proyectar unos y otras a un espacio de indexado neutral
  • Limitaciones
    • Los textos de las consultas son más cortos que los documentos
    • El contexto (y la fiabilidad) al traducir la consulta es menor
    • Los errores de traducción son menos graves en los documentos
clir lecturas b sicas
CLIR: lecturas básicas
  • Grefenstette, G. (1998)
  • Yang et al,97
  • J.Klavans, E.Hovy (1999)
  • D.W.Oard, B. Dorr (1996)
  • Oard, D. (1997)
  • P.Schäuble, P. Sheridan (1998)
  • Fluhr,95
aproximaciones a clir oard 97
Aproximaciones a CLIR (Oard,97)

CLIR

Texto libre

Vocabulario

Controlado

Basado en Corpus

Basado en Conocimiento

Corpus

paralelos

Corpus

comparables

Corpus

monolingües

Basado en

Diccionarios

Basado en

Ontologías

Alineación

de documentos

Alineación

de oraciones

Alineación

de términos

Basado en

Tesauros

aproximaciones basadas en conocimiento
Aproximaciones basadas en conocimiento
  • Uso de diccionarios bilingües
    • Oard, D. and P. Hackett (1997) usan el sistema LOGOS de TA para traducir documentos y consultas
    • Ballesteros, L. and Croft, W. (1998) usan y comparan SYSTRAN con T1(Langenscheidt) para traducir las consultas
    • EMIR (European Multilingual IR), Fluhr,95
  • Uso de ontologías
    • EWN
      • Peters, C. and Picchi, E. (1997)
      • Gonzalo, J., F. Verdejo, C. Peters and N. Calzolari (1998)
aproximaciones basadas en corpus
Aproximaciones basadas en corpus
  • Corpus paralelos
    • alineados a nivel de documento
      • Dumais et al,97
      • Yang et al,97
    • alineados a nivel de oración
      • Davis, M. and Ogden, W. (1997)
    • alineados a nivel de término
      • D.W.Oard, B. Dorr (1996)
  • Corpus comparables
      • P.Schäuble, P. Sheridan (1998)
      • Peters, C. and Picchi, E. (1997)
  • Corpus no alineados (monolingües)
      • Ballesteros, L. and Croft, W. (1998)
ejemplo davis odgen 97
Ejemplo: Davis,Odgen,97
  • Usa un diccionario biligüe y un corpus (UN) bilingüe español/inglés
  • Las consultas en español son desambiguadas
  • Se expanden las consultas con la traducción de los términos categorizados usando el bilingüe
  • Si existe ambigüedad se realiza una desambiguación usando el corpus bilingüe
    • consulta en español => 30 documentos más significativos en la parte española del corpus
    • se extraen los 5000 términos ingleses más significativos (Rochio) de la traducción de los 30 documentos
    • en caso de ambigüedad se utiliza el término inglés mejor clasificado entre los 5000
ejemplo gonzalo et al 98
Ejemplo: Gonzalo et al,98
  • Indexado de los documentos en términos de ILIs
  • Documento: vector ponderado de ILIs
  • indexado:
    • dependiente de la lengua
      • tagging
      • identificación de términos: lematización, multipalabras
      • WSD
      • proyección sobre elILI
    • independiente de la lengua
      • ponderación (cálculo de la relevancia)
  • consulta
    • expresión vectorial de la consulta
    • uso del coseno como métrica
    • medida de distancia semántica (no simple emparejamiento)
futuro del ln en ir
Futuro del LN en IR
  • Interacción basada en el significado (búsqueda conceptual)
  • Respuesta a preguntas concretas no búsqueda de documentos
  • Resumen automático como respuesta a las consultas
  • Integración de información
  • Consultas altamente descriptivas, precisas y elaboradas
  • Multilingüismo: CLIR !!!
extracci n de la informaci n
Extracción de la Información

Localizar las porciones de un texto dado que contengan información relevante

para las necesidades de un usuario y proporcionar dicha información de forma

adecuada a su proceso (manual o automático)

El criterio de relevancia viene indicado por modelos predefinidos

(normalmente mediante modelos Objeto/Atributo/Relación)

sistemas de extracci n de informaci n
Sistemas de Extracción de Información

Típicamente un SEI extrae informaciones sobre entidades, relaciones y eventos

a partir de documentos en un dominio restringido

El color blanco de su sombrero pasa a amarillo crema al corte.

El sombrero ennegrece si se corta.

Ejemplo: dominio

micológico (M-Turbio)

color_1

base: blanco

tono: indef

luz: indef

Sombrero_1

color:

virar_1

inicio:

final:

causa: corte

color_2

base: amarillo

tono: crema

luz: indef

Sombrero_2

color:

virar_2

inicio: indef

final:

causa: corte

color_3

base: indef

tono: negro

luz: indef

ejemplo muc 6
Ejemplo (MUC-6)

A bomb went off this morning near a power tower in San Salvador leaving

a large part of the city without energy, but no casualties have been reported.

According to unofficial sources, the bomb -allegedly detonated by urban

guerrilla commandos- blew up a power tower in the northwestern part of

San Salvador at 0650.

Incident type: bombing

date: March 19

Location: El Salvador: San Salvador (city)

Perpetrator: urban guerrilla commandos

Physical target: power tower

Human target: -

Effect on physical target: destroyed

Effect on human target: no injury or death

Instrument: bomb

lecturas b sicas ei
Lecturas básicas EI
  • Pazienza, M.T. (1997)
    • R.Yangarber, R.Grishman
    • R.Grishman
    • Y.Wilks
  • E. Hovy (1999)
  • J.Cowie, W.Lehnert (1996)
  • C.Cardie (1997)
  • R.J.Mooney, C.Cardie (1999)
  • Atserias et al,98
  • Turmo et al,98
historia ei
Historia EI
  • Precedentes
    • Sager 81: LSP
    • deJong 82: FRUMP => ATRANS (93)
    • Cowie 81
    • Zarri 83
    • Hayes 86: JASPER
  • Conferencias MUC (87-99)
  • Proyectos LRE
    • TREE, AVENTINUS, FACILE, ECRAN, SPARKLE
aplicaciones1
Aplicaciones
  • Extracción de información de la Web
  • Construcción de BD de noticias
  • Integración de información
  • Dominios: médico, finanzas, militar, ...

Limitaciones:

inútil si la precisión < 90%

alto coste de transporte y adaptación

conferencias muc
Conferencias MUC
  • MUCK-1 (1987), MUCK-2(1989)
    • operaciones navales
  • MUC-3 (1991), MUC-4 (1992)
    • terrorismo en Latinoamérica
    • estructura de salida con 18 atributos
    • cobertura y precisión
  • MUC-5 (1993)
    • noticias financieras, microelectrónica
    • inglés, japonés
  • MUC-6 (1995), MUC-7 (1998)
    • Entidades propias, entidades estructuradas, correferencias, eventos
componentes de un sei cowie lehnert 96
Componentes de un SEI (Cowie,Lehnert,96)
  • Nivel texto
    • filtrado => relevancia
  • Nivel palabra
    • pos tagging
  • Nivel frase
    • chunks, sintagmas, categorización semántica
  • Nivel oración
    • relaciones sintácticas
  • Nivel interoracional
    • correferencia
  • Nivel esquema
    • proyección sobre el formato (prescrito) de salida
arquitectura de un sei
Arquitectura de un SEI
  • Hobbs:
    • Cascada de transductores (o módulos) que a cada paso añaden estructura y a menudo eliminan información irrelevante aplicando reglas que son adquiridas manual o automáticamente
arquitectura de un sei ej proteus
Arquitectura de un SEI (ej. Proteus)

Lexicon

Análisis Léxico

Reconocimiento de Entidades

Jerarquía conceptual

Análisis sintáctico parcial

Patrones de extracción

Base de Patrones

Resolución de la referencia

Análisis del discurso

Formato de salida

Generación de la salida

caracter sticas de los sei 1
Características de los SEI (1)
  • Importancia de la Ingeniería del Conocimiento
    • Modularidad
      • Tareas básicas
      • Tareas específicas
  • Uso de conocimiento débil y local
  • Recursos de LN
    • MRDs, Ontologías, Lexicones, Corpus, …
  • Importancia de la transportabilidad y afinado (tuning)
  • Técnicas empíricas
    • Aprendizaje automático (ML) Mooney,Cardie,99
  • Salida: texto marcado o bases de datos
caracter sticas de los sei 2
Características de los SEI (2)
  • Fuerte dependencia del dominio (Cardie,97)
  • Estructura prescrita (Wilks,97, Grishman,97)
  • Semántica vs. Sintaxis
  • Análisis sintáctico superficial, parcial i global
  • Análisis del discurso
  • Arquitectura en cascada
    • Técnicas de estados finitos
  • Estructura del texto
    • metainformación
    • sublenguajes
      • género
      • dominio
relaciones con otras disciplinas
Relaciones con otras disciplinas
  • IE & IR
    • a veces IR precede a IE
  • Resumen automático
    • McKeown et al,99, Barzilay et al,99, Mittal et al,99, Hatzivassiloglou et al,99
  • Minería de datos textuales
    • M.A.Hearst (1999)
  • Integración de información
    • M.A.Hearst (1998), Kushmerick (1997)
  • Clasificación de documentos
    • Yang,97
an lisis l xico
Análisis léxico
  • (a veces) Identificación de la lengua
  • División del texto en unidades (tokens)
  • Consulta a diccionarios
    • ej. PROTEUS (NYU)
      • Comlex, Nombres propios (personas, geográficos, empresas), ...
  • Procesadores específicos
    • fechas, cantidades, siglas, locuciones, términos multipalabras, ...
  • Reconocedores de nombres propios (Named Entities)
    • Lexicones especializados
    • patrones (expresiones regulares)
  • Palabras desconocidas
desambiguaci n morfosint ctica pos tagging
Desambiguación morfosintáctica (pos tagging)
  • Sistemas
    • basados en reglas
    • estadísticos
    • híbridos
  • tagset
  • calidad de la desambiguación:
    • por encima del 97%
an lisis sint ctico
Análisis sintáctico
  • Global
    • aproximación estándar: LaSIE, LOLITA
      • ineficiencia, limitaciones de las gramáticas, tamaño de las gramáticas
    • aproximación en cascada: Pinocchio, Alembic
      • se solucionan algunos de los problemas anteriores
  • Parcial
    • Fastus => Proteus, PLUM, PIE, Umass, HASTEN, TURBIO, ESSENCE
      • ausencia de dependencias globales.
      • uso de metarreglas para precompilar patrones
ejemplo proteus
Ejemplo PROTEUS
  • Grupos nominales y verbales no recursivos (chunks)
  • Grupos nominales más amplios sólo si existe evidencia semántica
  • uso de metarreglas (similares a las de GPSG) para ampliar la cobertura sintáctica
sem ntica
Semántica
  • Normalmente sólo a nivel léxico
  • A veces WSD
  • Representación semántica explícita a niveles más complejos de proceso sintáctico
    • Alembic (MITRE) => forma lógica proposicional
      • M.Vilain (1999)
    • Pinocchio => quasi logical form
      • F.Ciravegna, A.Lavelli (1999)
patrones de extracci n
Patrones de extracción
  • Normalmente las reglas de extracción constan de
    • un patrón que debe aplicarse sobre la estructura (texto marcado, bosque de análisis, formas lógicas) que se ha obtenido de los procesos previos para intentar el matching
    • una o varias acciones a realizar
      • creación de ejemplares de objetos
      • relleno de atributos
      • establecimiento de relaciones
  • Normalmente creados manualmente
  • Uso limitado (pero creciente) de técnicas de ML
    • como ligar los esquemas (templates) con su expresión en LN
tipos de patrones
Tipos de patrones
  • 3 niveles
    • bajo nivel: gran aplicabilidad (normalmente incluidos en el sistema)
    • intermedio: librerías de patrones (aplicables a diferentes dominios)
      • ej. extractores de entidades (persona, empresa, lugar, organización)
      • extractores de relaciones (persona/oranización, organización/lugar)
    • específicos del dominio
ejemplo proteus1
Ejemplo (PROTEUS)

np(C-organization) sa vg(C-appoint) sa np(C-person) sa “as” np(C-position)

IBM yesterday appointed Fred Smith as president

proceso discursivo
Proceso discursivo
  • Resolución de expresiones referenciales
    • anáforas
    • referencias definidas
  • Inferencias
  • Integración (merging) de la información
sistemas notables 1
Sistemas Notables (1)
  • FASTUS
    • SRI (Appelt, Hobbs, ...)
  • PROTEUS
    • NYU (Grishman,Sekine, ...)
  • CIRCUS
    • U. Mass (Lehnert, Cardie, Riloff, ...)
    • AutoSlog, Badger, Marmot
  • CRYSTAL
    • U. Mass (Soderland, Lehnert, Fisher, ...)
  • LsSIE
    • U. Sheffield (Wilks, Cunningham, Gaizauskas, ...)
    • GATE
sistemas notables 2
Sistemas Notables (2)
  • Pinocchio
    • ITC-IRST (Trento) (Ciravegna, Lavelli,...)
    • FACILE
  • TREVI
    • Tor Vergata (Roma) Basili, ...
  • Alembic
    • MITRE (Vilain, ...)
  • HASTEN
    • SRA (Krupka, ...)
  • PALKA (Kim,Moldovan), LIEP (Huffman), PLUM (Weischedel), TIMES(Chai, Biermann, ...), ESSENCE (Català), TURBIO(Turmo)
portabilidad 1
Portabilidad (1)
  • Es una cualidad fundmental dada la gran dependencia del dominio de la EI
  • Normalmente se deben afinar o crear de nuevo los resursos:
    • Lexicones
      • Background vs. Foreground (Kilgarriff)
    • Ontologías
    • Base de patrones
    • estructura de salida (templetas)
portabilidad 2
Portabilidad (2)
  • Forma de llevar a cabo el afinado
    • automáticmente
    • manualmente
    • semi-automáticamente
  • La mayor dificultad (y la tarea que tiene un coste mayor) reside en la (re)construcción de la base de patrones. Por ello es aquí donde se han aplicado más esfuerzos en intentar automatizar la tarea
portabilidad 3
Portabilidad (3)
  • Afinado (tuning) de lexicones y ontologías
    • dos aproximaciones (Wilks,99)
      • Lexicón antiguo + corpus del (nuevo) dominio => lexicón nuevo
      • corpus del (nuevo) dominio => lexicón nuevo
    • elementos a modificar
      • palabras
      • acepciones
      • preferencias verbales (posibles alternancias de diátesis, régimen proposicional, restricciones selectivas, ...)
  • Proceso
    • manual (el más corriente) con editores especilizados
    • automático: E. Riloff & R. Jones (1999)
portabilidad 4
Portabilidad (4)
  • Creación o afinado de la base de patrones
    • Uso de herramientas interactivas para la adquisición manual
      • NYU Interactive tool
        • C.Nobata, S.Sekine (1998)
        • R.Yangarber, R.Grishman (1997)
      • El usuario proporciona un ejemplo (o lo extrae del corpus)
      • El usuario codifica la información a extraer a partir del ejemplo
      • El sistema utiliza la base actual de patrones para crear una descomposición estructural del ejemplo
      • Usuario y sistema interaccionan para extender y/o generalizar sintácticamente (metarreglas) y semánticamente (jerarquía conceptual) el o los patrones implicados
    • Uso de técnicas de ML
uso de t cnicas de aprendizaje autom tico ml
Uso de técnicas de Aprendizaje Automático (ML)
  • Utilización creciente de ML basado en la explotación de corpus para:
    • Construcción de patrones de extracción
    • Otras tareas de bajo nivel
      • pos tagging
      • límites de las oraciones
      • chunking
      • dependencias sintácticas entre unidades
      • correferencias
    • Tareas afines o complementarias
      • resumen automático
      • clasificación de textos
  • Mooney,Cardie 1999, C.Cardie (1997)
slide82
ML(1)
  • Simbólico (la mayoría) vs Subsimbólico
    • Árboles de decisión
    • Inducción de reglas
      • FOIL (Quinlan), RIPPER, FLIPPER (Cohen)
    • Instance-based, Memory-based, Case-based
  • Supervisado (la mayoría) vs No supervisado
  • Integración de modelos múltiples
    • Bagging
    • Boosting
  • Recursos de ML:
      • http://www.ai.univie.ac.at/oefai/ml/ml-resources.html
ml 2 construcci n de patrones de extracci n
ML(2) :Construcción de patrones de extracción
  • UMass en MUC-3 (Lehnert et al,91)
  • AutoSlog en MUC-4 (Riloff,96)
  • AutoSlog-TS (Riloff,Shoen,95)
  • CRYSTAL (Soderland et al,95)
  • HASTEN en MUC-6 (Krupka,95)
  • PALKA (Kim,Moldovan,95)
  • LIEP (Huffman,96)
  • RAPIER (Califf,Mooney,97)
  • WHISK (Soderland,99)
  • SRV (Freitag,98a,b)
ejemplos 1
ejemplos (1)

AutoSlog (Riloff,96)

Sistema guiado por una serie de reglas lingüísticas independientes del dominio

extracción de Concept Nodes

Witnesses confirm that the twister occurred

without warning at approximtely 7:15 p.m

and destroyed two mobile homes

concept = damage

trigger = “destroyed”

position = direct-object

constraints = ((physical-object))

enabling Conditions = ((active-voice))

damage = two mobile homes

ejemplos 2
ejemplos (2)

proceso:

1) generar el corpus de aprendizaje apropiado (información etiquetada con

etiquetas semánticas)

2) identificar roles sintácticos de las partes etiquetadas

3) identificar las palabras activadoras (trigger words)

4) proceso de aprendizaje guiado por un paquete de heurísticas que actúan

sobre las palabras activadoras y su contexto inmediato

AutoSlog-TS prescinde de la supervisión. La intervención humana se

limita a clasificar de relevante o irrelevante el texto que se incorpora al

proceso de aprendizaje

ejemplos 3
ejemplos (3)

CRYSTAL (Soderland et al,95)

Utiliza técnicas de formación de conceptos (Concpt Induction Learning Michalski).

Dominio médico (utiliza la jerarquía semántica de UMLS).

Usa corpus anotado para el aprendizaje (analizado sintácticamente).

Generaliza a partir de contextos lingüísticos especificados con gran detalle.

Aproximación ascendente. Se relajan gradualmente las restricciones sobre la definición inicial (máxima especificidad) de forma que se amplía la cobertura incorporando los conceptos más similares (integrando sus definiciones) para lograr un diccionario más compacto

ejemplos 4
ejemplos (4)

WHISK (Soderland,99)

Aprendizaje de patrones expresados como expresiones regulares de forma que

es posible la extracción simultánea de varios descriptores

Inducción de reglas

Inducción descendente iniciada por un ejemplo específico

Uso de clases semánticas dependientes del dominio para clasificar las palabras

Aplicación a:

texto libre

texto marcado HTML

texto previamente analizado sintácticamente

ejemplos 5
ejemplos (5)

RAPIER (Califf,Mooney,97)

Robust Automated Production of Information Extraction Rules

Aprendizaje de patrones expresados como expresiones regulares

pre-filler pattern

filler pattern

post-filler pattern

Algoritmo ILP que actúa sobre el texto asignado a cada descriptor y su contexto (ilimitado) inmediato.

Utiliza el texto con etiquetado morfosintáctico desambiguado (tagger de Brill)

Utiliza WordNet

ejemplos 6
ejemplos (6)

ejemplo de RAPIER

“... sold to the bank for an undisclosed amount...”

“... paid Honeywell an undisclosed price...”

Pre-filler Filler Post-filler

1) POS: {nn,nnp} 1) “undisclosed ” 1) Sem: price

2) List: maxlength 2 POS: jj

ejemplos 7
ejemplos (7)

SRV (Freitag,98ab)

Aprendizaje relacional (derivado de FOIL)

Rasgos simples (atributos) y relacionales

Relaciones sintácticas: Link Grammar

Relaciones semánticas: WordNet

Aplicado (entre otros) a la clasificación de páginas Web

En Freitag,98b se combinan tres estrategias de aprendizaje

ejemplos 8
ejemplos (8)

TIMES (Chai,Biermann,Guinn,99)

Trainable InforMation Extraction System.

A partir de un ejemplo proporcionado por el usuario el sistema propone en forma automática un serie de posibles generalizaciones. Cuando las modificaciones de las reglas propuestas tienen éxito, el sistema las incorpora a su base de reglas

WordNet

generalización semántica

combinación

permutación

generalización sintáctica

ejemplos 9
ejemplos (9)

(Riloff,Jones,99)

Mutual Bootstrapping.

Aprendizaje simultáneo de un lexicón semántico (dominio) y de la base de patrones (escenario).

Utiliza un corpus no anotado.

Para cada clase semántica se define (manualmente) un conjunto inicial de palabras (seed words).

Ampliación: Multi-Level Bootstrapping.

nuevos

patrones

ejemplos

patrón

ejemplos 10
ejemplos (10)

Algoritmo de Mutual Bootstrapping (Riloff,Jones,99)

Generar a partir del corpus de aprendizaje (con AutoSlog) los patrones candidatos

Aplicar los patrones al corpus de aprendizaje, patrones, ejemplares => EPdata

{seed words} => SemLex

{} => Cat_EPlist

iterar:

Valorar (métrica RlogF) todos los patrones en EPdata

best_EP = patrón mejor valorado de los no presentes en Cat_EPlist

añadir best_EP a Cat_EPlist

añadir los ejemplares de best_EP a SemLex

futuro del ln en ie
Futuro del LN en IE
  • Tratamiento de fenómenos lingüísticos no locales
  • Modelización de la semántica del dominio (más allá del modelo de templetas)
  • Mejoras en los métodos de aprendizaje
    • Conocimiento de base
    • criterios de selección de rasgos
  • Multilingualidad
  • Integración de información
  • Adaptabilidad
    • descubrimiento de información (modelo no prescrito)
  • Transportabilidad
direcciones tiles de internet
Direcciones útiles de Internet

TREC http://trec.nist.gov/

UMLS http://www.nlm.nih.gov/

SIGIR http://www.acm.org/sigir/

Univ. Glasgow http://www.dcs.gla.ac.uk/idom/ir_resources/

ML http://www.ai.univie.ac.at/oefai/ml/ml-resources.html

Curso IR UNED http://rayuela.ieec.uned.es/~ircourse/

MUC http://www.muc.saic.com/

Proyecto ITEM http://sensei.ieec.uned.es/item/

Grupo LSI-UPC http://www.lsi.upc.es/~acquilex/nlrg.html