Uso de Grafos
This presentation is the property of its rightful owner.
Sponsored Links
1 / 63

Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro PowerPoint PPT Presentation


  • 116 Views
  • Uploaded on
  • Presentation posted in: General

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios : Biomedicina , Periodismo y Turismo. Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro Dr. D. Alberto Díaz Esteban. Contents.

Download Presentation

Tesis doctoral Laura Plaza Morales Dirigida por Dr . D. Pablo Gervás Gómez-Navarro

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios: Biomedicina, Periodismo y Turismo

Tesis doctoral

Laura Plaza Morales

Dirigida por

Dr. D. Pablo Gervás Gómez-Navarro

Dr. D. Alberto Díaz Esteban


Contents

Contents

  • Introduction

  • UsingSemanticGraphs in AutomaticSummarization

  • Case Studies

  • Evaluation

  • Conclusions and FutureWork

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

Contenidos

  • Introducción

    • Definición del Problema

    • Motivación y Contribución

  • Uso de Grafos Semánticos para la Generación Automática de Resúmenes

  • Casos de Estudio

  • Evaluación

  • Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Introducci n definici n del problema

Introducción – Definición del Problema

  • Sobrecarga de información

    • Resúmenes mono-documento

    • Resúmenes multi-documento

  • Resumen: Transformación de uno o varios documentos mediante reducción de su contenido

    • Selección de lo importante  Extracción

    • Generalización de lo importante Abstracción

  • Predominio de los enfoques por extracción

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Introducci n definici n del problema1

Introducción – Definición del Problema

  • La GeneraciónAutomática de Resúmenes (GAR) esunatareacompleja

    • Detección de temas

    • Desambiguación léxica y semántica

    • Resolución de acrónimos

    • Resolución de anáforas y referencias

    • Simplificación y fusión de oraciones

    • Eliminación de redundancia

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Introducci n definici n del problema2

Introducción – Definición del Problema

  • Técnicas de generación de resúmenesporextracción

    • Enfoques superficiales

      • Posición de las oraciones

      • Frecuencias de los términos

      • Expresiones o frases indicativas

    • Técnicas discursivas

      • Análisis de la estructura del discurso y de las relaciones entre términos

    • Técnicas basadas en grafos

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Introducci n motivaci n y contribuci n

Introducción – Motivación y Contribución

  • Problema:Representación del documentomedianteinformaciónque se extraedirectamente del documento (palabras u oraciones)

  • Cerebrovascular disorders during pregnancy results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.

  • Brain vascular diseases during gestation results from any of three major mechanisms: arterial infarction, hemorrhage, or venous thrombosis.

El uso de conocimiento del dominio para representar semánticamente el documento mejora la calidad de los resúmenes generados

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Introducci n motivaci n y contribuci n1

Introducción – Motivación y Contribución

  • Problema: Sistemasgenéricosfrente a sistemasespecializados

    • Sistemasgenéricos:Capaces de generarresúmenes de cualquiertipo de documento, a costa de reducir la calidad del resultado

    • Sistemasespecializados:Capaces de generarresúmenes de mayor calidad, aunquerestringidos a un únicodominio de aplicación

Método genérico para la GAR dependientes del dominio, aunque configurable para tratar con documentos de diferentes dominios

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Introducci n motivaci n y contribuci n2

Introducción – Motivación y Contribución

  • Problema: Ningún intento por resolver abreviaciones

  • Problema: Ningún intento por resolver la ambigüedad

Estudio del efecto de la ambigüedad e incorporación de mecanismos de desambiguación apropiados para cada dominio/fuente de conocimiento

Incorporación de mecanismos para expandir acrónimos y abreviaturas en función del dominio de aplicación

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Introducci n motivaci n y contribuci n3

Introducción – Motivación y Contribución

  • Métodogenéricopara la GAR de textos de diferentestipologías y campos de conocimiento

    • Representación del documentocomo un grafo de conceptos y relaciones del dominio

    • Técnicas de agrupamientoparadetectargrupos de conceptosfuertementerelacionados, quedeterminan los distintostemastratados en el documento

  • Generación de distintostipos de resúmenes en función del contenidodeseado

  • Estudio del efecto de la ambigüedad y la presencia de acrónimos

  • Evaluación del método en tresdominios

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

Contenidos

  • Introducción

  • Uso de Grafos Semánticos para la GeneraciónAutomática de Resúmenes

  • Casos de Estudio

  • Evaluación

  • Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Arquitectura

Arquitectura

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa i pre procesado

Etapa I: Pre-procesado

  • Eliminación de secciones irrelevantes

  • Eliminación de palabras vacías

  • Extracción del cuerpo, título y abstract

  • Segmentación en oraciones (GATE)

<CONFIG>

<CATEGORY name "DOCUMENT_PREPROCESSING">

<PROPERTY name =“FORMAT”></PROPERTY>

<PROPERTY name=“IGNORED_TAGS”></PROPERTY>

<PROPERTY name = “STOP_LIST”></PROPERTY>

</CATEGORY>

<CATEGORY name ="TAG">

<PROPERTY name ="XML_TITLE“></PROPERTY>

<PROPERTY name ="XML_ABSTRACT“></PROPERTY>

<PROPERTY name ="XML_BODY"></PROPERTY>

</CATEGORY>

…..

</CONFIG>

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa ii traducci n de oraciones a conceptos

Etapa II: Traducción de Oraciones a Conceptos

  • Objetivo: Traducir del léxico de cada oración a conceptos del dominio

  • Requisitos:

    • Base de conocimiento

    • Mecanismo de traducción

    • Algoritmo de desambiguación (WSD)

BC

<CONFIG>

…..

<CATEGORY name =“KW_BASE">

<PROPERTY name =“NAME”></PROPERTY>

<PROPERTY name =“WSD”></PROPERTY>

</CATEGORY>

<CATEGORY name =“CONCEPT_FILTER">

<PROPERTY name =“FILTER_1”></PROPERTY>

</CATEGORY>

…..

</CONFIG>

Oración: término1término2 … términon

WSD

  • concepto1concepto2 … concepton

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa iii representaci n de la oraci n

Etapa III: Representación de la Oración

  • Objetivo: Crear una jerarquía de conceptos que representa a cada oración

  • Requisitos:

    • Relación de hiperonimia en la base de conocimiento

    • Definir los niveles de la jerarquía a ignorar

hiperónimo{1,2,3,n-1,n}

hiperónimo{2,3,n-1,n}

hiperónimo1

hiperónimo{2,3,n-1,n}

hiperónimo1

hiperónimo{3,n-1,n}

hiperónimo2

hiperónimo1

hiperónimo3

hiperónimo{n-1,n}

hiperónimo2

concepto1

concepto3

hiperónimon

hiperónimon-1

concepto2

concepton

concepton-1

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa iv representaci n del documento

Etapa IV: Representación del Documento

  • Objetivo: Crear un grafo de conceptos y relaciones semánticas que representa al documento

    • Fusionar los grafos de las oraciones

    • Añadir nuevas relaciones entre conceptos

    • Asignar pesos a las aristas del grafo

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa iv representaci n del documento1

Etapa IV: Representación del Documento

  • Requisitos:

    • Definir las relaciones semánticas a utilizar

    • Definir la fórmula para el cálculo del peso de las aristas

<CONFIG>

…..

<CATEGORY name =“KW_BASE">

<PROPERTY name =“NAME”></PROPERTY>

<PROPERTY name =“WSD”></PROPERTY>

<PROPERTY name =“LEVEL_THRESHOLD”></PROPERTY>

</CATEGORY>

<CATEGORY name =“RELATIONS">

<PROPERTY name =“HYPERNYMY”>YES</PROPERTY>

<PROPERTY name =“RELATION_1”></PROPERTY>

<PROPERTY name =“RELATION_2”></PROPERTY>

</CATEGORY>

<CATEGORY name “HYPERNYMY">

<PROPERTY name =“WEIGTH”></PROPERTY>

</CATEGORY>

…..

</CONFIG>

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa iv representaci n del documento2

Etapa IV: Representación del Documento

Coeficiente de Jaccard

Coeficiente de Dice-Sorensen

hiperónimo{1,2,n-1,n}

1/2

1/2

hiperónimo{2,n-1,n}

hiperónimo1

2/3

2/3

hiperónimo1

hiperónimo{2,n-1,n}

3/4

3/4

3/4

hiperónimo{n-1,n}

hiperónimo2

hiperónimo1

4/5

4/5

hiperónimo{n-1,n}

4/5

hiperónimo{1,2,n-1,n}

concepto2

5/6

5/6

concepto1

1

hiperónimon

concepton-1

2/3

2/3

hiperónimo{2,n-1,n}

hiperónimo1

1

6/7

concepton

4/5

4/5

hiperónimo1

hiperónimo{2,n-1,n}

6/7

6/7

6/7

hiperónimo{n-1,n}

hiperónimo2

hiperónimo1

8/9

4/5

hiperónimo{n-1,n}

8/9

10/11

concepto2

10/11

concepto1

1

hiperónimon

concepton-1

1

12/13

concepton

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa v agrupamiento de conceptos

Etapa V: Agrupamiento de Conceptos

  • Objetivo: Construir grupos o clusters de conceptos estrechamente relacionados entre sí, donde cada conjunto representa un tema distinto del documento

  • Hipótesis: El grafo del documento se comporta como una red de libre escala (Barabasi & Albert, 1999)

  • Agrupamiento basado en la conectividad (Yoo et al., 2007)

    • Cálculo del prestigio osalience de cada vértice

    • Los n vértices de mayor salience se denominan concentradores ohubs

    • Iterativamente, los hubvertices se agrupan enHubVertex Sets

    • Los restantes vértices se asignan al HVS al que se encuentran más conectados para producir los clusters finales

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa vi asignaci n de oraciones a clusters

Etapa VI: Asignación de Oraciones a Clusters

  • Objetivo: Calcular la similitud entre cada oración y cluster, ¿de qué trata cada oración?

  • En función del número de conceptos que coinciden entre el grafo de la oración y el cluster

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa vii selecci n de oraciones

Etapa VII: Selección de Oraciones

  • Objetivo: Seleccionar las N oraciones para el resumen final, en función del tipo de resumen que se desee generar

    • Heurística 1: Todas las oraciones se seleccionan del cluster de mayor tamaño (tema principal del documento)

    • Heurística 2: Todos los clusters contribuyen con un número de oraciones proporcional a su tamaño

    • Heurística 3: Para cada oración, se calcula una única puntuación, como la suma de sus similitudes respecto a cada uno de los clusters promediados por su tamaño, y se seleccionan las N oraciones con mayor puntuación global

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Etapa vii selecci n de oraciones1

Etapa VII: Selección de Oraciones

  • Criterio Posicional (Pos): Asigna mayor puntuación a las oraciones cercanas al inicio y final del documento

  • Criterio de similitud con el título (Tit): Asigna mayor puntuación a las oraciones similares al título

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Gar multi documento

GAR Multi-documento

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

Contenidos

  • Introducción

  • Uso de Grafos Semánticos para la Generación Automática de Resúmenes

  • Casos de Estudio

    • Resúmenes mono-documento de Artículos Biomédicos

    • Resúmenes mono-documento de Noticias Periodísticas

    • Resúmenes multi-documento de Páginas Web Turísticas

  • Evaluación

  • Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio biomedicina

Caso de Estudio: Biomedicina

  • Configuración de las etapas I, II, III y VI del método genérico para resumir artículos científicos de biomedicina del corpus de BioMed Central

  • Características:

    • Multiplicidad contenido: texto, tablas, imágenes.

    • Estructura IMRAD (Introduction, Method, Results And Discussion)

    • Terminología especializada

      • Sinónimos y homónimos

      • Elisiones, neologismos y abreviaciones

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio biomedicina1

Caso de Estudio: Biomedicina

  • Etapa I: Pre-procesado:

    • Formato: xml

    • Secciones irrelevantes: Autores, Instituciones, Publicación, Conflicto de intereses, Agradecimientos, Contribuciones, Referencias.

    • Lista de palabras vacías:PubMedStopWords: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/pmhelp.html#Stopwords

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio biomedicina2

Caso de Estudio: Biomedicina

  • Etapa II: Traducción de oraciones a conceptos

    • Base de conocimiento:

      • UnifiedMedicalLanguageSystem (UMLS)

      • MetaMap

    • Algoritmos de desambiguación:

      • Journal Descriptor Indexing

      • Personalized PageRank

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Unified medical language system

UnifiedMedicalLanguageSystem

  • Léxico Especializado

  • Metatesauro

    • Conceptos ↔ C0009443:Common Cold

    • Relaciones ↔C0009443:Common Coldrelated_toC0027442:Nasopharynx

  • Red Semántica

    • Tipos Semánticos ↔ T047:Disease orSyndrome

    • Relaciones Semánticas ↔ Bacterium es_unOrganism

  • Metatesauro ↔ Red Semántica

    C0009443:Common Cold↔T047:Disease orSyndrome

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Unified medical language system1

UnifiedMedicalLanguageSystem

  • MetaMap

    • Traducción automática de texto a conceptos del Metatesauro

Phrase: HeartAttackTrial

Meta Candidates (8):

827 C0008976:Trial (Clinical Trial) [Research Activity]

734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome]

660 C0018787:Heart [Body Part, Organ, or Organ Component]

660 C0277793:Attack, NOS (Onset of illness) [Finding]

660 C0699795:Attack (Attackdevice) [MedicalDevice]

660 C1261512:attack (Attackbehavior) [Social Behavior]

660 C1281570:Heart (Entire heart) [Body Part, Organ, or Organ Component]

660 C1304680:Attack (Observation of attack) [Finding]

Meta Mapping (901):

734 C0027051:Heart attack (Myocardial Infarction) [Disease or Syndrome]

827 C0008976:Trial (Clinical Trials) [Research Activity]

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Unified medical language system2

UnifiedMedicalLanguageSystem

  • Ambigüedad en el Metatesauro

Phrase: Tissues

Meta Mapping (1000):

1000 C0040300:Tissues (Bodytissue)

Phrase:are

Phrase:oftencold

MetaMapping(888):

694 C0332183:Often (Frequent)

861 C0234192:Cold (ColdSensation)

MetaMapping (888):

694 C0332183:Often (Frequent)

861 C0009443:Cold (CommonCold)

MetaMapping (888):

694 C0332183:Often (Frequent)

861 C0009264:Cold (ColdTemperature)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Desambiguación

  • JournalDescritorIndexing

    • Conceptos semánticamente consistentes con el resto de conceptos en su contexto.

  • Personalized PageRank

    • Un grafo que representa la jerarquía completa de la base de conocimiento, para cada palabra ambigua

    • Adaptación a UMLS

      • Metatesauro como base de conocimiento

      • Conjunto de candidatos: Meta Mappings

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio biomedicina3

Caso de Estudio: Biomedicina

Activity

Disease

Personnel

Anatomic Structure

Clinical or

Research Activity

Professional

Personnel

System or

Substance

Disorder Or Finding

Finding by Site or System

Research Activity

Disease or Disorder

Clinicians

Organ System

Cardiovascular System Finding

Non-Neoplastic Disorder

Disorder by Site

Study

Cardiovascular

System

Non-Neoplastic

Disorder by Site

Respiratory and

Thoracic Disorder

Eliminación de los dos niveles

superiores

Blood Pressure Finding

Clinical Study

Non-Neoplastic

Cardiovascular Disorder

Hypertensive

Disease

Thoracic Disorder

Clinical Trials

Non-Neoplastic

Vascular Disorder

Non-Neoplastic

Heart Disorder

Heart Disorder

Cerebrovascular

Disorder

Congestive Heart

Failure

Coronary Heart Disease

Cerebrovascular

Accident

The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension.

  • Etapa III: Representación de la oración


Caso de estudio biomedicina4

Caso de Estudio: Biomedicina

  • Etapa IV: Representación del documento

    • Relaciones Semánticas:

      • Relación related to entre conceptos del Metatesauro

      • Relación associatedwithentre tipos de la Red Semántica

The goal of the trial was to assess cardiovascular mortality and morbidity for stroke, coronary heart disease and congestive heart failure, as an evidence-based guide for clinicians who treat hypertension

While event rates for fatal cardiovascular disease were similar, there was a disturbing tendency for stroke to occur more often in the doxazosin group, than in the group taking chlorthalidone

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio biomedicina5

Caso de Estudio: Biomedicina

Disease or Disorder

Non-Neoplastic Disorder

Disorder by Site

Finding by Site or System

Respiratory and

Thoracic Disorder

Disorder of

Cardiovascular System

Non-NeoplasticDisorder by Site

Organ System

Cardiovascular

Diseases

Non-NeoplasticCardiovascular Disorder

Cardiovascular System Finding

Cardiovascular

System

Thoracic Disorder

Non-Neoplastic

Heart Disorder

Non-Neoplastic

Vascular Disorder

Blood Pressure

Finding

Heart Disorder

Congestive

Heart Failure

Cerebrovascular Disorder

Hypertensive

Disease

Coronary Heart

Disease

Cerebrovascular

Accident

Pharmaceutical

Adjuvant

Cardiovascular

Drug

Research Activity

1/2

1/2

Diuretic

Study

Alpha-Adrenergic

BlockingAgent

2/3

2/3

Thiazide Diuretics

Clinical Study

Clinicians

1

3/4

Doxazosin

Chlorthalidone

Clinical Trials


Caso de estudio periodismo

Caso de Estudio: Periodismo

  • Configuración de las etapas I, II, III y VI del método genérico para resumir noticias periodísticas del corpus de la conferencia DUC 2002

  • Características:

    • Estructura: Titular, Entrada y Cuerpo

    • Organización: Pirámide invertida

    • Amplitud temática y de vocabulario

    • Concisión

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio periodismo1

Caso de Estudio: Periodismo

  • Etapa I: Pre-procesado:

    • Formato: xml

    • Secciones irrelevantes: Autores, Entrada, Fecha de publicación, Nombre de la publicación

    • Lista de palabras vacías: WordNet Stop List: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

Caso de Estudio: Periodismo

  • Etapa II: Traducción de oraciones a conceptos

    • Base de conocimiento:

      • WordNet

      • WordNet::SenseRelate

    • Algoritmo de desambiguación:

      • Lesk

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Wordnet

WordNet

  • Conocimiento de ámbito general

  • Concepto ≈ Synset (Synonym set)

    {00007626} person#1, individual#1, someone#1, somebody#1, mortal#1, soul#2

  • Definición ≈ Gloss

    person#1 - (a human being; "there was too much for one person to do")

    person#2 - (a human body; "a weapon was hidden on his person")

  • Relaciones

    • Hiponimia/Hiperonimia

    • Holonimia/Meronimia

  • Términos coordinados

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Wordnet1

WordNet

  • Ambigüedad en WordNet

Tissues

1. tissue (part of an organism …)

2. tissue, tissue paper (a soft thin …)

Are

1. be (have the quality of being)

13. cost, be (be priced at)

often

1. frequently, often (many times...)

2. much, a great deal, often (frequently...)

cold

1. cold, common cold (a mild viral…)

2. coldness, cold (the absence of heat…)

3. cold, coldness (the sensation …)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

39


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

WordNet::SenseRelate

  • Traducción de texto a conceptos de WordNet y desambiguación de su significado

    • Lesk

> wsd.pl −−type WordNet::Similarity::lesk −−contextsentencesFile

−−formattagged −−stoplistconfig/SRStopWord.txt

The red#n#4 car#n#1 be#v#1 parked#a#1 near#a#2 the supermarket#n#1

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio periodismo2

Caso de Estudio: Periodismo

  • Etapa III: Representación de la oración

    • Eliminación de los tres niveles superiores de la jerarquía

  • Etapa IV: Representación del documento

    • Relaciones Semánticas:

      • Relación de similitud semántica entre conceptos, calculada según la métrica jcn definida en WordNet::Similarity

      • Sólo aquellas entre conceptos cuya similitud supera un determinado umbral de similitud

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio periodismo3

Caso de Estudio: Periodismo

entity

physical entity

abstract entity

abstraction

physical object

process

thing

geological

formation

group

measure

location

phenomenon

body of

water

fundamental

quantity

1/2

social group

region

shore

natural

phenomenon

sea

2/3

coast

territory

organization

physical

phenomenon

time period

territorial

division

defense

3/4

calendar day

atmospheric

phenomenon

country

4/5

Hurricane Gilbert swept toward the Dominican RepublicSunday, and the Civil Defense alerted its heavily populated south coast to prepare for high winds, heavy rains and high seas

day of

the_week

windstorm

weather

Dominican

Republic

5/6

cyclone

wind

precipitation

rest day

6/7

hurricane

rain

1

sunday

1

  • Etapa IV: Representación del documento


Caso de estudio turismo

Caso de Estudio: Turismo

  • Configuración del método para generar resúmenes multi-documento de páginas web turísticas (Aker y Gaizauskas, 2009)

  • Características:

    • Terminología amplia y poco especializada, vocabulario cotidiano

    • No estructurados

    • Amplitud temática

      • Tipo de monumento/lugar descrito, ubicación, información histórica y artística, información sobre horarios de visita, precios, etc.

      • Foros, publicidad, publicidad de la empresa que aloja la información, etc.

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Caso de estudio turismo1

Caso de Estudio: Turismo

  • Misma configuración que para el caso de estudio periodístico

    • Resumen multi-documento  ¡¡Redundancia!!

    • Eliminación del contenido repetido utilizando el sistema de Implicación Textual de Ferrández et al. (2007)

  • O1 implica O2  La información de O2 está contenida en O1  O2 se descarta del resumen

  • O1 implica O2YO2 implica O1 O1 y O2 son semánticamente equivalentes  Se descarta la oración de menor puntuación

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

Contenidos

  • Introducción

  • Uso de Grafos Semánticos para la Generación Automática de Resúmenes

  • Casos de Estudio

  • Evaluación

    • Metodología de Evaluación

    • Parametrización

    • Efecto de la ambigüedad

    • Comparación con otros sistemas

  • Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Metodología

  • Métricas

    • Contenido informativo: ROUGE

      • Comparación automática de resúmenes automáticos y modelos

    • Legibilidad: Criterios DUC/TAC

      • Calidad gramatical

      • Redundancia

      • Claridad referencial

      • Foco

      • Estructura y coherencia

  • Colecciones

    • 150 artículos científicos (BioMed Central)

    • 567 noticias periodísticas (DUC 2002)

    • 308x10 páginas web turísticas (Aker & Gaizauskas, 2010)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Metodología

  • Ratio de compresión: 30%, 100 palabras (≈16%) y 200 palabras (≈2%), respectivamente

  • Significancia estadística:Test de los signos de Wilcoxon

  • Parametrización

    • Porcentaje de hubvertices

    • Combinación de relaciones semánticas

    • Umbral de similitud

    • Peso de las aristas (Jaccard vs. Dice-Sorensen)

    • Combinación de criterios de selección de oraciones

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Parametrización

Biomedicina

Periodismo

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Efecto de la Ambigüedad

  • Biomedicina

* Test de los signos Wilcoxon (p<=0.01)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Efecto de la Ambigüedad

  • Periodismo

* Test de los signos Wilcoxon (p<=0.05)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Comparación con otros sistemas

  • Biomedicina

* Test de los signos Wilcoxon (p<=0.01)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Comparación con otros sistemas

  • Periodismo

* Test de los signos Wilcoxon (p<=0.05)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Comparación con otros sistemas

  • Turismo

* Test de los signos Wilcoxon (p<=0.01)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Discusión

  • El método produce resúmenes de mayor calidad que el resto de sistemas analizados, para todos los casos de estudio

  • La heurística 3 se comporta mejor que las demás

    • En general, un buen resumen incluye cierta información secundaria

  • Aunque todas las heurísticas se comportan de manera muy similar

  • Necesidad de mejorar la coherencia y la claridad referencial de los resúmenes

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Discusión

  • Importantes divergencias entre los resúmenes individuales

    • Biomedicina

      • Longitud

      • Cobertura de la base de conocimiento

      • Abreviaciones

    • Periodismo

      • Longitud

    • Turismo

      • Cobertura de la base de conocimiento

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Evaluación– Discusión

  • Biomedicina: Frecuencia de acrónimos y abreviaturas

    • No estándares, definidos ad hoc en el cuerpo del documento

  • BioText(Schwartz y Hearst, 2003)

    • Ej. SSR (Simple SequenceRepeat)

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

Contenidos

  • Introducción

  • Uso de Grafos Semánticos para la Generación Automática de Resúmenes

  • Casos de Estudio

  • Evaluación

  • Conclusiones y Trabajo Futuro

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Conclusions & FutureWork

  • The use of domainknowledgeimprovesthequality of theautomaticsummaries

  • The summarizer performs significantly better when WSD is used

  • Single-document and multi-documentsummarization

  • Typical problems of extractive summarization: coherence and referential clarity

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

58


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Conclusions & FutureWork

  • Improvingreferentialclaritythroughanaphoricresolutiontechniques

A new study finds that many women with early breast cancer do not need a painful procedure that has long been routine: removal of cancerous lymph nodes from the armpit.

The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.

The discovery turns standard medical practice on its head. Surgeons have been removing lymph nodes for 100 years, believing it would prolong women’s lives by keeping the cancer from spreading or coming back.

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

59


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Conclusions & FutureWork

  • Improvinglegibilitythroughreferringexpressiongenerationtechniques

Acropolis (Grakros, akron, edge, extremity + polis, city, pl acropoleis) literally means city on the edge (or extremity).

The Acropolis was designated as a UNESCO World Heritage site in 1987, for its, illustrating the civilizations, myths, and religions that flourished in Greece over a period of more than 1,000 years.

The Acropolis, the site of four of the greatest masterpieces of classical Greek art — the Parthenon, the Propylaea, the Erechtheum, and the Temple of Athena Nike—can be seen as symbolizing the idea of world heritage.

The Acropolis, a hill c.260 ft (80 m) high, with a flat oval top c.500 ft (150 m) wide and 1,150 ft (350 m) long, was a ceremonial site beginning in the Neolithic Period and was walled before the 6th cent. B.C. by the Pelasgians.

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

60


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Conclusions & FutureWork

  • Improvingthestructure and coherence of thesummariesthroughsentencesimplification and fusiontechniques

Ana, whois 40, graduated in Mathematics in 1992

Later, shegot a PhD in ComputerScience

Ana has worked since 1998 as a financial consultant

Ana, whograduated in Mathematics and got a PhD in ComputerScience, workssince 1998 as a financialconsultant

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios


Tesis doctoral laura plaza morales dirigida por dr d pablo gerv s g mez navarro

  • Conclusions & FutureWork

  • Improvingacronymresolutionmechanisms

  • Exploring new knowledgesources (e.g.Wikipedia)

  • Query-basedsummarization

  • Implementing a method fordetecting and removingredundancy

  • New languages and domains

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

Uso de Grafos Semánticos en la Generación Automática de Resúmenes y Estudio de su Aplicación en Distintos Dominios

62


Muchas gracias

Muchas gracias

?


  • Login