Za to nam treba hrvatski wordnet
Download
1 / 21

- PowerPoint PPT Presentation


  • 136 Views
  • Uploaded on

Zašto nam treba hrvatski WordNet?. Krešimir Šojat, Božo Bekavac, Marko Tadić (ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr) Filozofski fakultet Sveučilišta u Zagrebu Z avod za lingvistiku i Odsjek za lingvistiku HDPL , Split, 2004-05-15. Plan izlaganja. što je WordNet (WN)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - bowie


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Za to nam treba hrvatski wordnet

Zašto nam treba hrvatski WordNet?

Krešimir Šojat, Božo Bekavac, Marko Tadić(ksojat@ffzg.hr, bbekavac@ffzg.hr, mtadic@ffzg.hr)

Filozofski fakultet Sveučilišta u ZagrebuZavod za lingvistiku i Odsjek za lingvistiku

HDPL, Split, 2004-05-15


Plan izlaganja
Plan izlaganja

  • što je WordNet (WN)

  • čemu služi i kako je nastao

  • osnovni pojmovi

  • višejezični wordneti

  • primjeri iz HrWN-a


To je wordnet i emu mo e slu iti
Što je WordNet i čemu može služiti

  • računalno modelirana mreža semantičkih odnosa među riječima

  • računalni model leksikona (leksičke semantike)

  • koristan za sve oblike NLP-a u kojima se rabe leksičkosemantički podatci

    • leksikografija (WN = gotov tezaurus, dopuna postojećih rječnika)

    • korpusna lingvistika (WN = sredstvo za semantičko obilježavanje korpusa)

    • pretraživanje dokumenata (document retrieval), crpljenje informacija (information extraction), data mining

    • indeksiranje (document indexing) i sažimanje dokumenata (document summarization)

    • strojno razumijevanje poruka (message understanding)

    • strojno prevođenje (machine translation)



Kako je wordnet nastao
Kako je WordNet nastao

  • prvi WN: George A. Miller, Princeton

    • skupina psihologa, lingvista i informatičara

    • 1985. inicijalni sastanci

    • sastavljanje leksičke baze s kodiranim odnosima među riječima

    • polazna ideja

      • omogućiti pojmovno umjesto abecedno pretraživanje rječnika

      • dopuna konvencionalnim (digitalnim) rječnicima

    • razradom nastao WordNet (WN), 1990. započet projekt

      • = rječnik temeljen na psiholingvističkim zasadama

    • WN obuhvaća samo “semantički pune” engleske riječi

      • imenice, glagole, pridjeve, priloge

  • http://www.cogsci.princeton.edu/~wn/


Wordnet osnovne zna ajke
WordNet – osnovne značajke

  • semantička mreža organizirana prema načelu sinonimije: natuknice strukturirane u skupove jednog ili više sinonima (synset)

  • značenje riječi opisano definicijom (glosom) i kontekstualnim primjerima uporabe

  • 2003. g: 140.000 riječi u cca. 100.000 sin-skupova (synset)

  • određena riječ može se nalaziti u nekoliko različitih sin-skupova (ako ima više značenja)


Osnovni pojmovi 1
Osnovni pojmovi 1

  • kodiranje odnosa među riječima = kodiranje njihovih značenja

  • leksička matrica

  • riječi O1 i O2 su sinonimiriječ O2 je višeznačna (polisemna)


Osnovni pojmovi 2
Osnovni pojmovi 2

  • semantički odnosi među riječima

    • sinonimija

    • antonimija

    • hipo- i hiperonimija

    • meronimija

  • sinonimija = najvažniji odnos

    • riječi u WN složene u sinonimske skupove, sin-skupove (synsets)

  • imenice u WN

    • nadređeni termin + razlikovna obilježja

  • hiponimija = mreža s hijerarhijskom topologijom



Osnovni pojmovi 3
Osnovni pojmovi 3

  • popis 25 vršnih polazišta za imenice

    • {čin, radnja} {prirodni objekt}{životinja, fauna} {prirodna pojava}{tvorevina, artefakt} {osoba, ljudsko biće}{atribut, svojstvo} {biljka, flora}{tijelo} {posjedovanje}{spoznaja, znanje} {proces}{komunikacija} {količina, iznos}{događaj, zbivanje} {odnos}{osjećaj, emocija} {oblik}{hrana} {stanje}{skup, skupina} {tvar}{mjesto, lokacija} {vrijeme}{motiv}


Osnovni pojmovi 31
Osnovni pojmovi 3

  • primjer hiponimskih odnosa između nekoliko polazišta za različite opipljive entitete

  • {entitet}

  • {organizam} {stvar, fiz. objekt}

  • {biljka} {čovjek} {prirodni objekt} {tvar}

  • {životinja} {tvorevina}


Ostali va ni wn projekti
Ostali važni WN projekti

  • EuroWordNet I. i II.

    • 1996. g. i 1998. g.

    • višejezičnost: I: (brit.) eng, niz, špa, tal

      II: njem, fra, češ i est

  • BalkaNet

    • započeo: 2000. g.

    • grč, rum, bug, tur, srp (+ češ kao promatrač)

  • IndiaNet

    • kananda, tamilski...

  • SkandiNet

    • nor, šve, dan...

  • Global WordNet udruga


Eurowordnet
EuroWordNet

  • također načelo sinonimije odnosno sin-skupova

  • svaki sin-skup sadrži:

    • jedinstveni brojčani podatak (synset record number)

    • podatak o vrsti riječi članova

    • podatak o međusobnim semantičkim odnosima između pojedinih sin-skupova


Eurowordnet osnovni pojmovi 1
EuroWordNet – osnovni pojmovi 1

  • poveznice unutar pojedinih jezika, odnosno između sin-skupova (internal language records - ILR)

  • poveznice između pojedinih jezika u EuroWordNetu i interlingualnog indeksa (ILI)

  • poveznice između ILI-ja i vršne ontologije (top-ontology) i oznaka domena (domain labels)


Eurowordnet osnovni pojmovi 2
EuroWordNet – osnovni pojmovi 2

  • ILR (internal language records) – služe za označavanje međusobnih odnosa sin-skupova u nacionalnom wordnetu

  • ILI (interlingual index) – služi za povezivanje različitih jezika u EuroWN

    • nestrukturirani popis značenja iz WN 1.5. Svaki ILI zapis sastoji se od sinseta, glose i podatka o njegovom izvoru

  • Vršna ontologija (top-ontology)

    • hijerarhijska struktura jezično-nezavisnih koncepata (npr. OBJECT, LOCATION, DYNANIC)

    • podijeljena u entitete 1., 2. i 3. reda

    • 63 temeljne semantičke kategorije prema kojima je podijeljeno oko 1300 ILI-ja. Ti ILI zapisi predstavljaju skup temeljnih pojmova (base concepts) zajedničkih za sve jezike u EuroWN


Eurowordnet osnovni pojmovi 3
EuroWordNet – osnovni pojmovi 3

  • Ontologije vršnih sin-skupova (top synsets) izrađene su za svaki pojedini jezik i preko ILI-a povezane s vršnom ontologijom

  • Jezgra svakog wordneta u EuroWordNetu obavezno uključuje nacionalne ekvivalente temeljnih pojmova i minimalno sljedeće odnose

    • njihove hiperonime

    • njihove hiponime jedan stupanj niže

    • oznaku ekvivalencije s ostalim wordnetima






Zaklju ak i perspektive
Zaključak i perspektive

  • početak 2004

  • Zavod za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu

  • izrada skupa temeljnih pojmova

  • izrada oglednih sin-skupova

  • dodijeljivanje interlingualnog indeksa i povezivanje s vršnom ontologijom

  • uporaba hrvatskih rječnika

    • dobro bi došla proširena uporabivost 4. izd. Anića na CD-u

    • pretraživanje po desnoj strani rječnika

  • neformalna inicijativa za CEWN

    • poljski, madžarski, slovački, slovenski, hrvatski (+češki i njemački kao promatrači)