Za to nam treba hrvatski wordnet
Download
1 / 21

- PowerPoint PPT Presentation


 • 136 Views
 • Uploaded on

Zašto nam treba hrvatski WordNet?. Krešimir Šojat, Božo Bekavac, Marko Tadić (ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr) Filozofski fakultet Sveučilišta u Zagrebu Z avod za lingvistiku i Odsjek za lingvistiku HDPL , Split, 2004-05-15. Plan izlaganja. što je WordNet (WN)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - bowie


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Za to nam treba hrvatski wordnet

Zašto nam treba hrvatski WordNet?

Krešimir Šojat, Božo Bekavac, Marko Tadić(ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr)

Filozofski fakultet Sveučilišta u ZagrebuZavod za lingvistiku i Odsjek za lingvistiku

HDPL, Split, 2004-05-15


Plan izlaganja
Plan izlaganja

 • što je WordNet (WN)

 • čemu služi i kako je nastao

 • osnovni pojmovi

 • višejezični wordneti

 • primjeri iz HrWN-a


To je wordnet i emu mo e slu iti
Što je WordNet i čemu može služiti

 • računalno modelirana mreža semantičkih odnosa među riječima

 • računalni model leksikona (leksičke semantike)

 • koristan za sve oblike NLP-a u kojima se rabe leksičkosemantički podatci

  • leksikografija (WN = gotov tezaurus, dopuna postojećih rječnika)

  • korpusna lingvistika (WN = sredstvo za semantičko obilježavanje korpusa)

  • pretraživanje dokumenata (document retrieval), crpljenje informacija (information extraction), data mining

  • indeksiranje (document indexing) i sažimanje dokumenata (document summarization)

  • strojno razumijevanje poruka (message understanding)

  • strojno prevođenje (machine translation)Kako je wordnet nastao
Kako je WordNet nastao

 • prvi WN: George A. Miller, Princeton

  • skupina psihologa, lingvista i informatičara

  • 1985. inicijalni sastanci

  • sastavljanje leksičke baze s kodiranim odnosima među riječima

  • polazna ideja

   • omogućiti pojmovno umjesto abecedno pretraživanje rječnika

   • dopuna konvencionalnim (digitalnim) rječnicima

  • razradom nastao WordNet (WN), 1990. započet projekt

   • = rječnik temeljen na psiholingvističkim zasadama

  • WN obuhvaća samo “semantički pune” engleske riječi

   • imenice, glagole, pridjeve, priloge

 • http://www.cogsci.princeton.edu/~wn/


Wordnet osnovne zna ajke
WordNet – osnovne značajke

 • semantička mreža organizirana prema načelu sinonimije: natuknice strukturirane u skupove jednog ili više sinonima (synset)

 • značenje riječi opisano definicijom (glosom) i kontekstualnim primjerima uporabe

 • 2003. g: 140.000 riječi u cca. 100.000 sin-skupova (synset)

 • određena riječ može se nalaziti u nekoliko različitih sin-skupova (ako ima više značenja)


Osnovni pojmovi 1
Osnovni pojmovi 1

 • kodiranje odnosa među riječima = kodiranje njihovih značenja

 • leksička matrica

 • riječi O1 i O2 su sinonimiriječ O2 je višeznačna (polisemna)


Osnovni pojmovi 2
Osnovni pojmovi 2

 • semantički odnosi među riječima

  • sinonimija

  • antonimija

  • hipo- i hiperonimija

  • meronimija

 • sinonimija = najvažniji odnos

  • riječi u WN složene u sinonimske skupove, sin-skupove (synsets)

 • imenice u WN

  • nadređeni termin + razlikovna obilježja

 • hiponimija = mreža s hijerarhijskom topologijomOsnovni pojmovi 3
Osnovni pojmovi 3

 • popis 25 vršnih polazišta za imenice

  • {čin, radnja} {prirodni objekt}{životinja, fauna} {prirodna pojava}{tvorevina, artefakt} {osoba, ljudsko biće}{atribut, svojstvo} {biljka, flora}{tijelo} {posjedovanje}{spoznaja, znanje} {proces}{komunikacija} {količina, iznos}{događaj, zbivanje} {odnos}{osjećaj, emocija} {oblik}{hrana} {stanje}{skup, skupina} {tvar}{mjesto, lokacija} {vrijeme}{motiv}


Osnovni pojmovi 31
Osnovni pojmovi 3

 • primjer hiponimskih odnosa između nekoliko polazišta za različite opipljive entitete

 • {entitet}

 • {organizam} {stvar, fiz. objekt}

 • {biljka} {čovjek} {prirodni objekt} {tvar}

 • {životinja} {tvorevina}


Ostali va ni wn projekti
Ostali važni WN projekti

 • EuroWordNet I. i II.

  • 1996. g. i 1998. g.

  • višejezičnost: I: (brit.) eng, niz, špa, tal

   II: njem, fra, češ i est

 • BalkaNet

  • započeo: 2000. g.

  • grč, rum, bug, tur, srp (+ češ kao promatrač)

 • IndiaNet

  • kananda, tamilski...

 • SkandiNet

  • nor, šve, dan...

 • Global WordNet udruga


Eurowordnet
EuroWordNet

 • također načelo sinonimije odnosno sin-skupova

 • svaki sin-skup sadrži:

  • jedinstveni brojčani podatak (synset record number)

  • podatak o vrsti riječi članova

  • podatak o međusobnim semantičkim odnosima između pojedinih sin-skupova


Eurowordnet osnovni pojmovi 1
EuroWordNet – osnovni pojmovi 1

 • poveznice unutar pojedinih jezika, odnosno između sin-skupova (internal language records - ILR)

 • poveznice između pojedinih jezika u EuroWordNetu i interlingualnog indeksa (ILI)

 • poveznice između ILI-ja i vršne ontologije (top-ontology) i oznaka domena (domain labels)


Eurowordnet osnovni pojmovi 2
EuroWordNet – osnovni pojmovi 2

 • ILR (internal language records) – služe za označavanje međusobnih odnosa sin-skupova u nacionalnom wordnetu

 • ILI (interlingual index) – služi za povezivanje različitih jezika u EuroWN

  • nestrukturirani popis značenja iz WN 1.5. Svaki ILI zapis sastoji se od sinseta, glose i podatka o njegovom izvoru

 • Vršna ontologija (top-ontology)

  • hijerarhijska struktura jezično-nezavisnih koncepata (npr. OBJECT, LOCATION, DYNANIC)

  • podijeljena u entitete 1., 2. i 3. reda

  • 63 temeljne semantičke kategorije prema kojima je podijeljeno oko 1300 ILI-ja. Ti ILI zapisi predstavljaju skup temeljnih pojmova (base concepts) zajedničkih za sve jezike u EuroWN


Eurowordnet osnovni pojmovi 3
EuroWordNet – osnovni pojmovi 3

 • Ontologije vršnih sin-skupova (top synsets) izrađene su za svaki pojedini jezik i preko ILI-a povezane s vršnom ontologijom

 • Jezgra svakog wordneta u EuroWordNetu obavezno uključuje nacionalne ekvivalente temeljnih pojmova i minimalno sljedeće odnose

  • njihove hiperonime

  • njihove hiponime jedan stupanj niže

  • oznaku ekvivalencije s ostalim wordnetima


Zaklju ak i perspektive
Zaključak i perspektive

 • početak 2004

 • Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu

 • izrada skupa temeljnih pojmova

 • izrada oglednih sin-skupova

 • dodijeljivanje interlingualnog indeksa i povezivanje s vršnom ontologijom

 • uporaba hrvatskih rječnika

  • dobro bi došla proširena uporabivost 4. izd. Anića na CD-u

  • pretraživanje po desnoj strani rječnika

 • neformalna inicijativa za CEWN

  • poljski, madžarski, slovački, slovenski, hrvatski (+češki i njemački kao promatrači)