UNIVERSITÀ DEGLI STUDI DI BARI
This presentation is the property of its rightful owner.
Sponsored Links
1 / 19

UNIVERSITÀ DEGLI STUDI DI BARI FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI PowerPoint PPT Presentation


  • 107 Views
  • Uploaded on
  • Presentation posted in: General

UNIVERSITÀ DEGLI STUDI DI BARI FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI CORSO DI LAUREA IN INFORMATICA TESI DI LAUREA IN METODI AVANZATI DI PROGRAMMAZIONE. REALIZZAZIONE DI STRUMENTI DI INFORMATION EXTRACTION PER TASK DI TEXT-MINING IN BIOINFORMATICA. Relatori:

Download Presentation

UNIVERSITÀ DEGLI STUDI DI BARI FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

UNIVERSITÀ DEGLI STUDI DI BARI

FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI

CORSO DI LAUREA IN INFORMATICA

TESI DI LAUREAINMETODI AVANZATI DI PROGRAMMAZIONE

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Relatori:

Prof. Donato Malerba

Correlatore:

Dr. Corrado Loglisci

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Information Extraction

  • Un sistema di Information Extraction(IE) : Dato un testo scritto in un linguaggio naturale e contenente informazione non strutturata, IE identifica informazione di interesse e la rappresenta in forma strutturata.

  • Tale informazione può essere utilizzata in processi di Text Mining (TM) ovvero il Data Mining applicato a collezioni di testi.

  • TM – Algoritmi:

  • Classificazione

  • Clustering

  • Scoperta di trend

  • Scoperta di pattern

  • Summarization

  • Scoperta di dipendenze

  • IE – Attività:

  • Named Entity Recognition (NE)

  • Coreference Resolution (CO)

  • Template Element Construction (TE)

  • Template Relation Construction (TR)

  • Scenario Template Production (ST)

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

NamedEntityRecognition e

TemplateFilling

TF: riconoscere un insieme di entità nominate e legate tra loro concettualmente e rappresentare questa informazione in strutture pre-definite

NER: riconoscere entità nominate di interesse presenti all’interno dei testi. Il processo di identificazione impiega features morfologiche, sintattiche e semantiche delle entità.

The authors describe a novel pathogenic G5540A transition in the mitochondrial transfer RNA

(tRNA)Trp gene of a sporadic encephalomyopathy characterized by spinocerebellar ataxia. Clinical

features also included neurosensorial deafness, peripheral neuropathy, and dementia”

gene

malattia

starting approximately 35kb upstream (telomeric) to the GJB2 gene was identified in 7 patients from 4 unrelated

Jewish Ashkenazi families with non-syndromic hearing loss. These patients were heterozygous for one of the common mutations

167delT or 35delG

diseasesymptomsclinics

mutazione

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Ambito della Tesi

  • Named Entity Recognition per un task di

  • Textual Profile Clustering

  • Named Entity Recognition per un task di

  • Semantic Search Engine

  • Template Filling con strutture

  • Predicato-Argomento per un task di

  • Pattern Discovery

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Textual Profile Clustering

Textual Profile Clustering (TPC): Tecnica di raggruppamento di testi basata su similarità tra testi rappresentati in forma di textual profile: un profile tiene conto di keyword presenti nel testo e di loro caratteristiche (posizione, frequenza,…)

Ruolo di NER per TPC:

  • …35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…

  • …of inheritance of GJB2 and GJB6 genes that encode two different

  • connexins; connexin 26 and connexin 30, or it may abolish…

GJB6

GJB2

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Textual Profile Clustering

Soluzione Proposta

  • 1.Riconoscimento delle Entità Biomediche di interesse presenti nei documenti

  • Normalizzazione di nomi varianti (sinonimie, abbreviazioni, acronimi) con nomi canonici

  • Interpretazione delle entità secondo conoscenza di dominio

…35kb upstream to the GJB2 gene

…connexin 26 and connexin 30, or it may abolish…

GJB6

…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Textual Profile Clustering

2. Normalizzazione di

varianti con canonici

1. Riconoscimento di

Entità Biomediche

di interesse

3. Interpretazione

delle entità

  • Impiego di librerie di Text Analytics (GATE)

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Textual Profile Clustering

Risultati Sperimentali

  • Dataset: 10 artificiali + 10 reali

  • Sperimentazioni condotte per il riconoscimento di

  • 1)entità del problema specifico, 2)entità biomediche generali)

  • Valutazione manuale Precision & Recall

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Textual Profile Clustering

Risultati Sperimentali

input

Mutations in the gene GJB2 encoding connexin 26 (Cx26), a gap junction protein, have been shown to be responsible for a majority

of recessive nonsyndromic hereditary hearing impairment in children.

Over 60 different mutations in Cx26 have been reported. To obviate the need for direct sequencing of each specimen,

a variety of screening techniques have been used to detect mutations in Cx26.

output

Mutation CD44 the Genes GJB2 encoding GJB2 , a RGS6PL-5283, have been shown to be responsible WWOX a majority

BRIP1 recessive nonsyndromic hereditary hearing impairment CD44 children.

Over 60 different Mutation CD44 GJB2 have been reported. To obviate the need WWOX direct sequencing BRIP1 each

specimen, a variety BRIP1 screening techniques have been used to detect Mutation CD44 GJB2.

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Semantic Search Engine

Semantic Search Engine (SSE): Tecnica di Information Retrieval basata su indicizzazione semantica dei termini rappresentativi del documento (index term): operazioni di trasformazione del testo sono necessarie per ridurre il numero degli index term

Ruolo di NER per SSE:

  • …35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…

  • …of inheritance of GJB2 and GJB6 genes that encode two different

  • connexins; connexin 26 and connexin 31, or it may abolish…

GJB6

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Semantic Search Engine

Soluzione Proposta

  • 1.Riconoscimento delle Entità Biomediche di interesse presenti nei documenti

  • Interpretazione delle entità secondo conoscenza di dominio

  • Labeling di entità riconosciute

  • Rappresentazione in formalismo standard IOB-2

…35kb upstream to the GJB2 gene

  • …35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…

Genes

  • …of inheritance of GJB2 and GJB6 genes that encode two different

  • connexins; connexin 26 and connexin 31, or it may abolish…

Connexins

GJB6 B – Genes  Index Term Singoli

ConnexinB – Connexins

31 I  Index Term Multi-Word

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Semantic Search Engine

1. Riconoscimento di

Entità Biomediche

di interesse

1. Riconoscimento di

Entità Biomediche

di interesse

2. Interpretazione

delle entità

3.& 4. Labeling &

Rappresentazione IOB-2

  • Impiego di librerie di Text Analytics (GATE)

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Named Entity Recognition

per Semantic Search Engine

Risultati Sperimentali

  • Dataset: 10 artificiali + 10 reali

  • Sperimentazioni condotte per il riconoscimento di

  • 1)entità del problema specifico, 2)entità biomediche generali)

  • Valutazione manuale Precision & Recall

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Template Filling basato su Strutture Predicato-Argomento

per Pattern Discovery

Pattern Discovery (PD): Estrazione di regolarità statistiche nella forma di co-occorrenze di items/eventi. L’uso di strutture Predicato-Argomento (PAS) supporta la scoperta di co-occorrenze di items in termini di predicati verbali che li mettono in relazione.

Ruolo di Template Filling per PD:

  • …A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)…

  • PAS-truncate template

Pubblicazioni

Scientifiche

Pattern Discovery

Relazionale

Estrazione di PAS

Template Filling

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Template Filling basato su Strutture Predicato-Argomento

per Pattern Discovery

Soluzione Proposta

  • Estrazione di PAS dai testi

  • Filling di Templates pre-definiti sulla base di PAS di background

  • Rappresentazione in formalismo relazionale (Datalog)

…A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)…

["truncate" "342-kb deletion" "GJB6 Gene“]

chromosomal name

gene name

locus name

["truncate" "342-kb " "GJB6 “]

predicate

pas(paper_1,structure_1). predicate(structure_1,truncate). chromosomal_name(structure_1,342-kb). gene_name(structure_1,GJB6). locus_name(structure_1,generic_locus_name).

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Template Filling basato su Strutture Predicato-Argomento

per Pattern Discovery

3.Rappres. in formalismo relazionale

1.Estrazione di PAS

dai testi

2. Filling di PAS

templates

  • Impiego di librerie di Text Analytics (MontyLingua, GATE)

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Template Filling basato su Strutture Predicato-Argomento

per Pattern Discovery

Risultati Sperimentali

  • Pubblicazioni con minimo 5 istanze PAS

  • 13 PAS templates di background

  • Dataset: 6584

  • Minsup: 2%

  • 2382 Pattern relazionali in termini di PAS

  • Pattern più informativi (4) con PAS-structure inhibit

abs(A),pas(A,B),verb_rule(B,inhibit), homosapiens_gene_role0(B,prkab1),

chemicals_and_drugs_role2(B,metformin), biological_sciences_role1(B,growth) supporto:2.9%

abs(A),pas(A,B),verb_rule(B,inhibit),organisms_role2(B,brucella_abortus),

homosapiens_gene_role1(B,sema6a), homosapiens_gene_role0(B,taf8) supporto: 2.9%

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

Conclusioni & Sviluppi Futuri

  • Sviluppo di tre strumenti di IE a supporto della investigazione di biomedicina basata su analisi di dati testuali.

  • Valutazione dell’ accuratezza mostra buona performance degli strumenti di NER.

  • Applicazione dello strumento di TF per PD ad insiemi di testi più voluminosi e ad altri domini (esempio, web news).

REALIZZAZIONE DI STRUMENTI DI

INFORMATION EXTRACTION PER TASK DI

TEXT-MINING IN BIOINFORMATICA

Laureando:

Pietro La Grotta


Universit degli studi di bari facolt di scienze matematiche fisiche e naturali

GRAZIE

PER LA VOSTRA

CORTESE ATTENZIONE


  • Login