1 / 23

Semantic Similarity in a Taxonomy

Semantic Similarity in a Taxonomy . -Hvordan man måler semantisk lighed vha. taksonomi. Hvad er taksonomi?. 1. taxonomy -- (a classification of organisms into groups based on similarities of structure or origin etc)

morwen
Download Presentation

Semantic Similarity in a Taxonomy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Semantic Similarity in a Taxonomy -Hvordan man måler semantisk lighed vha. taksonomi

  2. Hvad er taksonomi? • 1. taxonomy -- (a classification of organisms into groups based on similarities of structure or origin etc) • 2. taxonomy -- ((biology) study of the general principles of scientific classification) • 3. taxonomy -- (practice of classifying plants and animals according to their presumed natural relationships) Wordnet 1.7

  3. Hvad er lighed? • Lighed ikke lig relationer • Relationen mellem en bil og benzin er større end mellem en bil og en cykel. • Ligheden mellem en bil og en cykel er større end mellem en bil og benzin

  4. Traditionel måde at måle semantisk lighed i en taksonomi • At måle afstanden mellem knudepunkterne på det som sammenlignes • Dvs. en motorbåd har mere lighed med vand end luft…. • Problem: Distancerne i en taksonomi er ikke uniforme. Hvad afhænger en distance af? • Distancen ml. sikkerhedsventil og ventil syntes mindre end ml. symaskine og maskine • Kort distance: ’rabbit ears’ og tv-antenne • Stor distance: ’Phytoplankton’ og organisme

  5. Resniks strategi • Vil basere lighed på ’Information Content’ • Vil undgå distance problemet • Vil kombinere sine metoder med sandsynlighedsudregning baseret på empiri • Vil vise hvordan man kan bruge udregningen af semantisk lighed til at fjerne flertydighed i naturlige sprog

  6. Information Content • Lighed kunne bestemmes af den grad til hvilken koncepterne deler information • Lighed kunne bestemmes af det koncept som er dem begge overordnet. Eks. ’Nickel’ og ’Dime’ er underordnet ’Coin’, Mens ’Nickel’ og ’Credit Card’ begge er underordnet ’Medium of Exchange’

  7. Hvordan målesInformation Content • Ved at associere sandsynlighed med koncepter i taksonomien • Alle koncepter i taksonomien tildeles en værdi baseret på den sandsynlighed der er for at støde på konceptet i taksonomien • Værdien kan ligge mellem 0 og 1, hvor 1 betyder at konceptet ikke er underordnet andre koncepter. Men også at dets informationsindhold er lig 0. • Stiger informationsværdien vil sandsynlighedsværdien falde. Desto mere abstrakt konceptet er, desto lavere er dets informationsindhold. • Desto mere information to koncepter deler, desto større er deres lighed. Dvs. ligheden af to begreber bestemmes af deres fælles overordnede begreb. F.eks. det begreb som har mest til fælles med ’Nickel’ og ’Dime’ er ’Coin’

  8. Multiple nedarvning

  9. 38 personer fik 30 ord i par som de skulle vurdere ud fra skalaen 0-4 => Korrelation 0.97 Resnik gentog forsøget og fik korrelation 0.96 Empiri

  10. Lighed målt vha. computer • ’Information Content’ (wsim) • Distance ml. begreber (wsimedge) • Koncepters sandsynlighed (wsimp(c))

  11. Problemer ved ’Information Content’ • Kontra-intuitive resultater • Skyldes mangel på algoritme som finder ords mening • Løsning: medtag relevans i udregningen (baseret på tekst materiale).

  12. Hvad kan vi bruge det til? • Opløse flertydighed i naturlige sprog • Ordbogs problemer

  13. Flertydighed(sammensatte navneord) • Bank and (warehouse guard) vs. (bank and warehouse) guard • (Policeman and park) guard vs. (policeman) and (park guard)

  14. Strategier vedr. flertydighed • Antal: several businesses and university groups • Mening: ’a television and radio personality’ har større lighed end ’a psychologist and sex researcher’ • Modifikation: ’corn and peaunut butter’ = ’Corn butter and peaunut butter’ vs. ’corn and peaunut crops’ = ’Corn crops and peaunut crops’

  15. Strategiernes nyttighed

  16. Komplekse flertydigheder • freshman ((business and marketing) major) • (food (handling and storage)) procedures • ((mail fraud) and bribery) charges

  17. Menneske vs. computer

  18. Paradigmer • Selection – skal vælge hvilke af WordNets ord hvis mening bør inkluderes • Filtering – skal vælge hvilke af WordNets ord hvis mening ikke bør inkluderes

  19. Resultater • Precision – de meningsbetydninger som er inkluderet • Recall – de meningsbetydninger som burde være inkluderet

  20. Konklusion • Selv ekspert har svært ved at matche den indfødtes resultater. Dette fortæller lidt om opgavens sværhed. • Algoritmen håndterer ’filtering precision’ bedre end ekspert • Algoritmen er bedst egnet til ’sense filtering’ fremfor ’sense selction’ • ’Information Content’ godt byd på opløsning af flertydighed • Metoderne bør nok bruges semi-automatisk under menneskelig supervision

  21. Kilder • Philip Resnik: Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language, http://new-isl.ruc.dk/~troels/KIS/resnik99a.pdf • Ordbøger • WordNet - http://www.cogsci.princeton.edu/~wn/ • Wordsmyth English Dictionary-Thesaurus http://www.wordsmyth.net/ ), an on-line educational dictionary aliated with the ARTFLtext database project (http://humanities.uchicago.edu/ARTFL)

More Related