1 / 16

Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi

Università degli Studi di Modena e Reggio Emilia. Facoltà di Ingegneria - Corso di Laurea in Ingegneria Informatica. Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi. Erika Stefanini. Correlatori: Dott. Federica Mandreoli Ing. Riccardo Martoglia. Relatore:

Download Presentation

Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria - Corso di Laurea in Ingegneria Informatica Risoluzione di ambiguità semantiche per la ricerca di similarità tra frasi Erika Stefanini Correlatori: Dott. Federica Mandreoli Ing. Riccardo Martoglia Relatore: Prof. Paolo Tiberio Anno Accademico 2002/2003

  2. Obiettivi della tesi: • realizzazione di un modulo indipendente per la risoluzione di ambiguità semantiche (word sense disambiguation) di termini appartenenti a frasi di lingua inglese • questo modulo verrà poi utilizzato all’interno del progetto EXTRA

  3. Ricerca approssimata di frasi (Pre-traduzione) Suggerimenti per la traduzione Edit distance = 3 Testo da tradurre Testo tradotto Traduttoreprofessionista Allineamento Sistema EXTRA: The white cat is hunting the mouse Sim =1- ed/lung = 0,57 The white feline is catching the rodent The white computer is detecting a mouse

  4. La risoluzione di ambiguità semantiche dei termini (word sense disambiguation): • è stata un tema di grande interesse fin dagli anni ’50 • è stata studiata ed utilizzata in diversi settori: intelligenza artificiale (comprensione del linguaggio naturale), traduzione automatica, information retrieval • consiste nel determinare in modo automatico il significato più appropriato di una parola in base al contesto (frase) in cui si trova • 2 tipi di approccio per il wsd

  5. WordNet È un sistema lessicale basato sulle teorie psicolinguistiche della memoria lessicale umana • La caratteristica principale di WordNet è l’organizzazione delle informazioni lessicali delle parole in base al loro significato e non alla loro forma (lemma) • Ogni parola è l’associazione tra la sua forma (il modo in cui viene scritta) ed il significato che esprime; questa corrispondenza viene espressa tramite la matrice lessicale WordNet è stato realizzato presso il Cognitive Science Laboratory della Princeton University da un gruppo di psicologi e linguisti coordinati dal prof. George A. Miller.

  6. Ogni categoria è organizzata in insiemi di sinonimi (synset) che rappresentano un concetto. I synset sono collegati tra loro da diversi tipi di relazioni semantiche. IPERONIMIA Un concetto rappresentato dal synset {y, y’,…} è un iperonimo del concetto rappresentato dal synset {x, x’,…} se si può costruire una frase del tipo An x is a (kind of) y. L’iperonimia genera una gerarchia simile alle gerarchie di specializzazione presente nei modelli E/R. Entity, physical thing Substance, matter Object, physical object Natural object Solid Plant part Food Reproductive structure Produce,green goods,… Fruit Edible fruit Pome, false fruit Apple (significato numero 1) WordNet divide l’insieme delle parole in 4 categorie: • Nomi • Aggettivi • Avverbi • Verbi Gli algoritmi implementati tengono conto solo dei nomi e dei verbi.

  7. frase originale stemming parsing frase “parserizzata” frase “stemmizzata” Algoritmo wsd nomi estrazione di nomi e verbi nomi = {cat,mouse} lista nomi , lista verbi Algoritmo wsd verbi nomi = {cat,mouse} verbi = {be,hunting} TRASFORMAZIONE PRELIMINARE DELLA FRASE The white cat is hunting the mouse The/DT white/JJ cat/NN is/VBZ hunting/VBG the/DT mouse/NN white cat be hunt mouse nomi = {cat, mouse}, verbi = {be, hunt}

  8. Placental mammal Osservazione: se un insieme di parole polisemiche sono simili, il loro concetto comune dà informazioni su quale significato di ognuna delle parole sia quello più adatto. Carnivore Rodent Feline, felid Mouse (significato 1) Cat (significato 1) sim(cat#1,mouse#1) = 1,856 ALGORITMO DI WORD SENSE DISAMBIGUATION DEI NOMI 3 4 Dato un insieme di nomi W = { w1, w2,…} considero tutte le possibili coppie (wi, wj) 2 5 Calcolo della SIMILARITÀ SEMANTICA di due nomi: si basa sulla lunghezza del cammino necessario a percorrere la distanza che li separa dal loro concetto minimo comune 1 len(cat#1, mouse#1) = 5

  9. un insieme di nomi w1, w2, …, wn • sim(wi, wj) per ogni coppia di nomi • c[i,j] = concetto minimo comune a wi e wj Dati: Si vuole determinare: φ(w,k) funzione che indica la confidenza con cui si può dire che la parola w ha il significato k • coppia di nomi wi e wj si determina v[i,j] = sim(wi, wj) * G(di – dj) oppure se c[i,j] è un iperonimo di sense (wi , k) allora support[i,k] += v[i,j] normalization[i] += v[i,j]; normalization[j] += v[i,j];  + = 1 calcolo della confidenza ALGORITMO DI WORD SENSE DISAMBIGUATION DEI NOMI Il significato migliore di un nome è quello che ha il più alto valore di φ. PASSI

  10. Sense 2 look, appear, seem -- (give a certain impression or have a certain outward aspect; "She seems to be sleeping"; "This appears to be a very difficult problem"; "This project looks fishy"; "They appeared like people who had not eaten or slept for a long time") Descrizione del significato + frasi di esempio ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Per i verbi approccio di tipo diverso: definizioni dei significati di WordNet

  11. N = insieme nomi presenti nella frase in cui compare verbo v • nomi_es(v, k) = insieme nomi nella definizione del significato k del verbo v; • sim(nomei, nome_esj) ,  nomei  N e  nome_esj nomi_es(v,k) Dati: Si vuole determinare: φ(v,k) funzione che indica la confidenza con cui si può dire che il verbo v ha il significato k  nomei  N Calcolo della confidenza ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Il significato migliore del verbo v è quello con il valore più alto di φ. PASSI

  12. R(k) > R(k+1) φ(v,k) = R(k)*T(v,k) > R(k+1) > R(k+1)*T(v,k+1) = φ(v,k+1) Si può smettere di calcolare φ(v,k) per k > k+1, visto che in questo intervallo si otterrebbero valori minori di φ(v,k) ALGORITMO DI WORD SENSE DISAMBIGUATION DEI VERBI Poiché WordNet contiene verbi con oltre 30 significati, si è deciso di sfruttare l’andamento di R(k) per migliore l’efficienza dell’algoritmo. La retta R(k) è decrescente Se risulta vera la condizione φ(v,k) > R(k+1)

  13. Frase originale: Frase originale: Frase originale: The white cat is hunting the mouse The white feline is catching the rodent The white computer is detecting a mouse Frase “stemmizzata”: Frase “stemmizzata”: Frase “stemmizzata”: white cat be hunt mouse white computer be detect mouse white feline be catch rodent Frase con codici: Frase con codici: Frase con codici: white 1788952 2058045 903354 1993014 white 7846548 2058045 658546 85657 white 1788952 2058045 837447 1993014 GENERAZIONE CODICI WordNet assegna ad ogni significato un codice numerico univoco. Dopo aver eseguito gli algoritmi di word sense disambiguation, ad ogni nome o verbo della frase “stemmizzata” viene sostituito il codice del significato che è risultato essere migliore.

  14. caso primaedopo = 0 casi primaedopo = 0 e primaedopo > 0 a confronto 1=DPaint 2=elettrodom. 3=op.letterarie RISULTATI ALGORITMO WSD NOMI Media delle percentuali di successo Collezioni dati di tipo tecnico e di tipo generico (da opere letterarie)

  15. RISULTATI ALGORITMO WSD VERBI È molto difficile stabilire con certezza il giusto significato di un verbo Esempio: The great musician Mozart composed nine symphonies and many other musical composition. Frase originale: • The verb compose has 6 senses (first 5 from tagged texts): • (14) compose -- (form the substance of; "Greed and ambition composed • his personality") • 2. (5) compose, write -- (write music; "Beethoven composed nine symphonies") • 3. (4) write, compose, pen, indite -- (produce a literary work; "She composed a • poem"; "He wrote four novels") • 4. (3) compose, compile -- (put together out of existing material; "compile a list") • 5. (1) compose -- (calm (someone, esp. oneself); make quiet; "She had to compose • herself before she could reply to this terrible insult") • 6. frame, outline, compose, draw up -- (draw up the plans or basic details for; • "frame a policy")

  16. Obiettivi raggiunti : • definizione della funzione di similarità semantica: fornisce una misura della somiglianza di significato tra due concetti • tramite questa funzione sono stati sviluppati gli algoritmi di word sense disambiguation: per ogni significato si è determinata la confidenza con cui poter giudicare quanto fosse appropriato • si è aumentata l’efficacia dell’algoritmo relativo ai nomi valutando anche i nomi delle frasi adiacenti Sviluppi futuri : • Per i nomi: considerare anche altri tipi di relazioni oltre l’iperonimia • Per i verbi: analizzare le frasi in base all’analisi logica per determinare soggetto ed eventuale complemento oggetto • Approccio di tipo statistico

More Related