1 / 18

Text Processing WordNet

Text Processing WordNet. Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: ernandes@dii.unisi.it. Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis. Cos’è WordNet.

halil
Download Presentation

Text Processing WordNet

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Text ProcessingWordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: ernandes@dii.unisi.it Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis

  2. Cos’è WordNet • E’ nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. • WordNet è un vero e proprio DataBase Relazionale Lessicale. • E’ un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. • La conoscenza linguistica formalizzata: • è di senso comune • è domain-independent

  3. A cosa serve • Nella comunità di Text Processing WordNet si usa per aggiungere semantica. • “Semantizzare” un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! • Esempi di utilizzo: • Riadattamento delle tecniche di indicizzazione • Word-sense disambiguation (es: scotch  whiskey o nastro adesivo? interpretare  cercare di capire o recitare ?)

  4. La filosofia di WordNet • Il concetto di parola viene definito come associazione tra due elementi: • Word-form (forma-parola): stringa di caratteri (lettere) che definiscono l’espressione “fisica” di una parola • Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). • Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. • Le word-form mappate su più word-meaning sono definite: polysemous. • Word-form diverse associate alla stessa word-meaning sono definite: synonym.

  5. WordNet: i synset • Una word-meaning viene rappresentata dall’insieme di tutte le word-form che possono essere usate per esprimerla. • Questo insieme di word-form si chiama: synset. (E’ lo strumento che permette di rappresentare una word-meaning) • Le word-form sono mappate tra loro grazie ai synset (e ad altri “puntatori”). • Le word-meaning sono mappate tra loro grazie a relazioni tra synset.

  6. Categorie lessicali e relazioni • Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi • I nomi sono legati da 2 tipologie di relazioni: • Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). • synomymy vs. antonymy (per l’inglese ci sono anche le relazioni morfologiche) • Relazioni semantiche: si instaurano tra word-meaning. • hyponymy vs. hyperonymy • meronymy vs. holonymy • Alcuni aggettivi possono essere in relazione synonimy vs. antonymy • I verbi possiedono la relazione di entailment.

  7. Relazioni Lessicali • Synonymy: due word-form sono sinonime se sostituendo l’una con l’altra non si cambia il valore di verità di una frase. • Le word-form sinonime appaiono nello stesso synset • Antonymy “!”: due word-form sono antonime se il loro significato è opposto. • A opposto di B non implica che A = not(B) !!! • es: alto e basso. • Per l’antonimia esiste un vero puntatore da una word_form a un’altra. Non vale tra synset!

  8. Relazioni semantiche 1 • Hyponymy “~”: relazione “is a” (sottoinsieme). • Un synset A è hyponym di un synset B se A “è del tipo di” B. • Es: associazione  hypo  organizzazione, carpa  hypo  pesce, abete  hypo  albero. • La relazione deve valere per ogni forma all’interno dei synset (CHE SUCCEDE ALTRIMENTI?) • Hyperonymy “@”: relazione inversa dell’hyponymy (famiglia di appartenenza) • Un synset A è hyponym di un synset B se B “è del tipo di” A. • Es: felino  hyper  gatto, laureato  hyper  ingegnere

  9. Relazioni semantiche 2 • Meronymy “%”: relazione “part of” (componente di). • Un synset A è meronym di un synset B se A “è un componente di” B. • Es: volante  mero  auto, argento  mero  specchio. • Attenzione: i meronym non sono tutti “part of”! (es: argento e specchio) • Holonymy “#”: relazione inversa di meronymy • Un synset A è holonym di un synset B se B “è componente di” A. • Es: aeroplano  holo  carlinga, computer  holo  CPU

  10. Relazioni semantiche 3 • La relazione di “part-of” non rappresenta tutte le possibili meronimie! • Tipi di meronimia: • componente-oggetto: ramo / albero, motore / auto, ala / aereo • membro-insieme: albero / foresta, pecora / gregge • parte-massa: fetta / torta • materia-oggetto: sabbia / specchio • caratteristica-attività: pagamento / acquisto • posto-zona: provincia / regione / nazione / continente • fase-processo: adolescenza / crescita

  11. Relazioni semantiche 4 • WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. • Ci sono 25 radici: organismi, sostanza, etc… • queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. • vale il principio di ereditarietà • I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): • NO: relazioni di attributo (es: canarino  giallo) • NO: relazioni di funzionalità (es: canarino  volare) • Sì: relazioni di componente (es: canarino  ala).

  12. {oggetto} {computer, data_processor, electronic_computer, Information_processing_system} {strumentazione} {apparecchio, arnese, congegno, dispositivo} | = corresponds_to {macchina} ~ ~ ~ ~ ~ @ @ @ @ @ % % # # {monitor, schermo, video} {cpu, unità centrale di elaborazione} Esempio MultiWordNet {artefatto} {elaboratore, computer, cervello_elettronico, calcolatore}

  13. Gli aggettivi • Gli aggettivi attribuiscono una proprietà ad un nome. • Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: “sedia grande” stabilisce il valore dell’attributo dimensione(sedia) = grande. • Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). • Aggettivi relazionali: derivano da un nome. Es: “igienico”, “dentale”, “familiare”, etc… • Possiedono un puntatore al nome dal quale derivano. • Non possiedono antonimi!

  14. I verbi • I verbi sono il nucleo semantico di una frase: stabi-liscono una relazione tra i diversi elementi della frase. • Il verbo A “entails” il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. • ES: russare entails dormire / parlare entails comunicare • Le relazioni tra verbi sono di 2 tipologie: • Entailment “*” • Troponymy • Co-extensiveness • Proper-Inclusion • Backward-Presupposition • Cause “>”

  15. Verbi: le relazioni • L’entailment troponymy è simile all’hyponymy nei nomi: • Il verbo A è troponimo del verbo B se l’attività indicata da A è “del tipo” dell’attività di B. • La troponymy si verifica tra verbi legati da: • “co-extensiveness”, cioè avvengono in modo assolutamente sincrono. • Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormire • La relazione inversa è l’hyperonym • proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) • Es: russare / dormire – virare / navigare

  16. Verbi: le relazioni • Backward-presupposition: • Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. • Es: vincere / partecipare – colpire / mirare • Cause “>”: • il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). • Es: lasciare_in_eredità / possedere – bere / dissetarsi • Cause è trattato come una relazione a parte (non è un entailment).

  17. Un po’ di numeri • Inglese: • # synsets • # word forms • # relazioni • # verbi, nomi, aggettivi, avverbi

  18. Un po’ di numeri • Statistiche sui nomi (nel 2004) • Inglese: • # synsets = ca. 102.000 • # word forms = ca. 125.000 • # relazioni = ca. 125.000 • Italiano: • # synsets: ca. 34000 (collegati all’inglese) • # word forms: ca. 41000

More Related