Za to nam treba hrvatski wordnet
This presentation is the property of its rightful owner.
Sponsored Links
1 / 21

Zašto nam treba hrvatski WordNet? PowerPoint PPT Presentation


  • 100 Views
  • Uploaded on
  • Presentation posted in: General

Zašto nam treba hrvatski WordNet?. Krešimir Šojat, Božo Bekavac, Marko Tadić ([email protected], [email protected], [email protected]) Filozofski fakultet Sveučilišta u Zagrebu Z avod za lingvistiku i Odsjek za lingvistiku HDPL , Split, 2004-05-15. Plan izlaganja. što je WordNet (WN)

Download Presentation

Zašto nam treba hrvatski WordNet?

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Za to nam treba hrvatski wordnet

Zašto nam treba hrvatski WordNet?

Krešimir Šojat, Božo Bekavac, Marko Tadić([email protected], [email protected], [email protected])

Filozofski fakultet Sveučilišta u ZagrebuZavod za lingvistiku i Odsjek za lingvistiku

HDPL, Split, 2004-05-15


Plan izlaganja

Plan izlaganja

  • što je WordNet (WN)

  • čemu služi i kako je nastao

  • osnovni pojmovi

  • višejezični wordneti

  • primjeri iz HrWN-a


To je wordnet i emu mo e slu iti

Što je WordNet i čemu može služiti

  • računalno modelirana mreža semantičkih odnosa među riječima

  • računalni model leksikona (leksičke semantike)

  • koristan za sve oblike NLP-a u kojima se rabe leksičkosemantički podatci

    • leksikografija (WN = gotov tezaurus, dopuna postojećih rječnika)

    • korpusna lingvistika (WN = sredstvo za semantičko obilježavanje korpusa)

    • pretraživanje dokumenata (document retrieval), crpljenje informacija (information extraction), data mining

    • indeksiranje (document indexing) i sažimanje dokumenata (document summarization)

    • strojno razumijevanje poruka (message understanding)

    • strojno prevođenje (machine translation)


Mre no modelirani semanti ki odnosi

Mrežno modelirani semantički odnosi


Kako je wordnet nastao

Kako je WordNet nastao

  • prvi WN: George A. Miller, Princeton

    • skupina psihologa, lingvista i informatičara

    • 1985. inicijalni sastanci

    • sastavljanje leksičke baze s kodiranim odnosima među riječima

    • polazna ideja

      • omogućiti pojmovno umjesto abecedno pretraživanje rječnika

      • dopuna konvencionalnim (digitalnim) rječnicima

    • razradom nastao WordNet (WN), 1990. započet projekt

      • = rječnik temeljen na psiholingvističkim zasadama

    • WN obuhvaća samo “semantički pune” engleske riječi

      • imenice, glagole, pridjeve, priloge

  • http://www.cogsci.princeton.edu/~wn/


Wordnet osnovne zna ajke

WordNet – osnovne značajke

  • semantička mreža organizirana prema načelu sinonimije: natuknice strukturirane u skupove jednog ili više sinonima (synset)

  • značenje riječi opisano definicijom (glosom) i kontekstualnim primjerima uporabe

  • 2003. g: 140.000 riječi u cca. 100.000 sin-skupova (synset)

  • određena riječ može se nalaziti u nekoliko različitih sin-skupova (ako ima više značenja)


Osnovni pojmovi 1

Osnovni pojmovi 1

  • kodiranje odnosa među riječima = kodiranje njihovih značenja

  • leksička matrica

  • riječi O1 i O2 su sinonimiriječ O2 je višeznačna (polisemna)


Osnovni pojmovi 2

Osnovni pojmovi 2

  • semantički odnosi među riječima

    • sinonimija

    • antonimija

    • hipo- i hiperonimija

    • meronimija

  • sinonimija = najvažniji odnos

    • riječi u WN složene u sinonimske skupove, sin-skupove (synsets)

  • imenice u WN

    • nadređeni termin + razlikovna obilježja

  • hiponimija = mreža s hijerarhijskom topologijom


Primjer semanti kih odnosa

Primjer semantičkih odnosa


Osnovni pojmovi 3

Osnovni pojmovi 3

  • popis 25 vršnih polazišta za imenice

    • {čin, radnja}{prirodni objekt}{životinja, fauna}{prirodna pojava}{tvorevina, artefakt}{osoba, ljudsko biće}{atribut, svojstvo}{biljka, flora}{tijelo}{posjedovanje}{spoznaja, znanje}{proces}{komunikacija}{količina, iznos}{događaj, zbivanje}{odnos}{osjećaj, emocija}{oblik}{hrana}{stanje}{skup, skupina}{tvar}{mjesto, lokacija}{vrijeme}{motiv}


Osnovni pojmovi 31

Osnovni pojmovi 3

  • primjer hiponimskih odnosa između nekoliko polazišta za različite opipljive entitete

  • {entitet}

  • {organizam}{stvar, fiz. objekt}

  • {biljka} {čovjek} {prirodni objekt}{tvar}

  • {životinja}{tvorevina}


Ostali va ni wn projekti

Ostali važni WN projekti

  • EuroWordNet I. i II.

    • 1996. g. i 1998. g.

    • višejezičnost: I: (brit.) eng, niz, špa, tal

      II: njem, fra, češ i est

  • BalkaNet

    • započeo: 2000. g.

    • grč, rum, bug, tur, srp (+ češ kao promatrač)

  • IndiaNet

    • kananda, tamilski...

  • SkandiNet

    • nor, šve, dan...

  • Global WordNet udruga


Eurowordnet

EuroWordNet

  • također načelo sinonimije odnosno sin-skupova

  • svaki sin-skup sadrži:

    • jedinstveni brojčani podatak (synset record number)

    • podatak o vrsti riječi članova

    • podatak o međusobnim semantičkim odnosima između pojedinih sin-skupova


Eurowordnet osnovni pojmovi 1

EuroWordNet – osnovni pojmovi 1

  • poveznice unutar pojedinih jezika, odnosno između sin-skupova (internal language records - ILR)

  • poveznice između pojedinih jezika u EuroWordNetu i interlingualnog indeksa (ILI)

  • poveznice između ILI-ja i vršne ontologije (top-ontology) i oznaka domena (domain labels)


Eurowordnet osnovni pojmovi 2

EuroWordNet – osnovni pojmovi 2

  • ILR (internal language records) – služe za označavanje međusobnih odnosa sin-skupova u nacionalnom wordnetu

  • ILI (interlingual index) – služi za povezivanje različitih jezika u EuroWN

    • nestrukturirani popis značenja iz WN 1.5. Svaki ILI zapis sastoji se od sinseta, glose i podatka o njegovom izvoru

  • Vršna ontologija (top-ontology)

    • hijerarhijska struktura jezično-nezavisnih koncepata (npr. OBJECT, LOCATION, DYNANIC)

    • podijeljena u entitete 1., 2. i 3. reda

    • 63 temeljne semantičke kategorije prema kojima je podijeljeno oko 1300 ILI-ja. Ti ILI zapisi predstavljaju skup temeljnih pojmova (base concepts) zajedničkih za sve jezike u EuroWN


Eurowordnet osnovni pojmovi 3

EuroWordNet – osnovni pojmovi 3

  • Ontologije vršnih sin-skupova (top synsets) izrađene su za svaki pojedini jezik i preko ILI-a povezane s vršnom ontologijom

  • Jezgra svakog wordneta u EuroWordNetu obavezno uključuje nacionalne ekvivalente temeljnih pojmova i minimalno sljedeće odnose

    • njihove hiperonime

    • njihove hiponime jedan stupanj niže

    • oznaku ekvivalencije s ostalim wordnetima


Eurowordnet osnovni pojmovi 4

EuroWordNet – osnovni pojmovi 4


Primjeri iz hrwn a

Primjeri iz HrWN-a


Primjeri iz hrwn a1

Primjeri iz HrWN-a


Primjeri iz hrwn a2

Primjeri iz HrWN-a

  • #


Zaklju ak i perspektive

Zaključak i perspektive

  • početak 2004

  • Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu

  • izrada skupa temeljnih pojmova

  • izrada oglednih sin-skupova

  • dodijeljivanje interlingualnog indeksa i povezivanje s vršnom ontologijom

  • uporaba hrvatskih rječnika

    • dobro bi došla proširena uporabivost 4. izd. Anića na CD-u

    • pretraživanje po desnoj strani rječnika

  • neformalna inicijativa za CEWN

    • poljski, madžarski, slovački, slovenski, hrvatski (+češki i njemački kao promatrači)


  • Login