hrvatski nacionalni korpus hnk n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Hrvatski nacionalni korpus (HNK) PowerPoint Presentation
Download Presentation
Hrvatski nacionalni korpus (HNK)

Loading in 2 Seconds...

play fullscreen
1 / 40

Hrvatski nacionalni korpus (HNK) - PowerPoint PPT Presentation


 • 193 Views
 • Uploaded on

Hrvatski nacionalni korpus (HNK). S astavlj en u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Rađen po uzoru na BNC ( British National Corpus ) Referentni korpus za hrvatski jezik HNK verzija 3.0 - 231 M Balansirani korpus suvremenog hrvatskog jezika

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Hrvatski nacionalni korpus (HNK)' - elliot


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
hrvatski nacionalni korpus hnk
Hrvatski nacionalni korpus (HNK)
 • Sastavljen u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu
  • Rađen po uzoru na BNC (British National Corpus)
 • Referentni korpus za hrvatski jezik
 • HNK verzija 3.0 - 231 M
  • Balansirani korpus suvremenog hrvatskog jezika
 • HNK verzija 2.5 – 101 M
  • Balansirani korpus suvremenog hrvatskog jezika – stara verzija
hrvatski nacionalni korpus hnk1
Hrvatski nacionalni korpus (HNK)

http://www.hnk.ffzg.hr

hnk su elje za pretragu
HNK – sučelje za pretragu
 • Nalazi se na WWW-adresi

http://filip.ffzg.hr/bonito2/run.cgi/first_form

- lakše doći preko stranica HNK-a

hnk su elje za pretragu2
HNK – sučelje za pretragu
 • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju
 • Konkordancija
  • KWIC (Key-Word In Context)
  • KWAL (Key-Word And Line)
hnk su elje za pretragu4
HNK – sučelje za pretragu
 • Klikom na stožernicu (headword) pojavljuje se širi kontekst
hnk su elje za pretragu5
HNK – sučelje za pretragu
 • Lijevo/desno razvrstavanje (sort)
hnk su elje za pretragu6
HNK – sučelje za pretragu
 • Lijevo razvrstavanje
hnk su elje za pretragu7
HNK – sučelje za pretragu
 • Konfiguriranje željenog prikaza rezultata
hnk su elje za pretragu10
HNK – sučelje za pretragu
 • Korpus je obilježen na više razina
 • 1. gramatičko obilježavanje (bit će više riječi kasnije)
  • vrste riječi (POS tagging)
  • morfosintaktičko obilježavanje (MSD)
 • 2. lematizacija (lemmatisation) - svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu
  • lematizacija se na isti način primjenjuje na morfološki supletivne oblike pa bi npr. jesam, bijah ili bila bili svedeni na leksem biti
 • 3. strukturalno obilježavanje
  • segmentacija na rečenice <s>
  • obilježavanje fizičke strukture teksta (naslov, podnaslov, odlomak itd.)
  • već smo vidjeli na prethodnim slajdovima (zelenom bojom)
hnk su elje za pretragu12
HNK – sučelje za pretragu
 • Pretraživanje prema vrstama riječi (CQL= Corpus Query Language)
  • Npr. imenice
hnk su elje za pretragu13
HNK – sučelje za pretragu
 • Rezultat bi trebale biti samo imenice
hnk su elje za pretragu14
HNK – sučelje za pretragu
 • Spomenuli smo da je jedna od vrsta obilježavanja
 • gramatičko obilježavanje
  • vrste riječi (POS tagging) – imenice, glagoli, pridjevi …
  • ali i potpuno morfosintaktičko obilježavanje (MSD, Morphosyntactic description)
 • MSD = POS + (o|v)rbp (N)
 • Pitanje: kako znamo koje oznake koristiti?
 • MSD specifikacija (Multex-East V4):
 • http://nl.ijs.si/ME/V4/msd/html/msd-hr.html
hnk su elje za pretragu15
HNK – sučelje za pretragu
 • Alat s pomoću kojega se obavlja automatsko
  • POS označavanje naziva se POS označivač (tagger)
  • lematiziranje naziva se lematizator
 • Treba imati na umu da se taj proces obavlja automatskom statističkom metodologijom → rez. nije 100 %
  • Ali je prilično (> 90 %) točan!
 • [msd="V.*"] – glagol
 • [msd="A.*"] – pridjev
 • itd.
hnk su elje za pretragu16
HNK – sučelje za pretragu
 • Kako postaviti upit
  • pridjev iza kojega slijedi imenica?
  • [msd="A.*"][msd="N.*"] – pridjev za kojim slijedi imenica
hnk su elje za pretragu vje ba
HNK – sučelje za pretragu (VJEŽBA)
 • Kako postaviti upit
  • Imenica ispred koje MOŽE stajati pridjev?
  • [msd="A.*"]*[msd="N.*"] – RegEx
hnk su elje za pretragu vje ba1
HNK – sučelje za pretragu (VJEŽBA)
 • Kako postaviti upit
  • pridjev iza kojega slijedi lema glava?
  • [msd="A.*"][lemma="glava"]
hnk su elje za pretragu vje ba2
HNK – sučelje za pretragu (VJEŽBA)
 • Kako postaviti upit
  • lema glava ispred koje MOŽE stajati pridjev?
  • [msd="A.*"]*[lemma="glava"]
 • Kako postaviti upit
  • imenica ispred koje slijedi BAREM JEDAN pridjev?
  • [msd="A.*"][msd="A.*"]*[msd="N.*"]
 • Kako postaviti upit
  • Jednostavne prijedložne fraze (PP)?
  • [msd="S.*"][msd="A.*"]*[msd="N.*"]
hnk su elje za pretragu17
HNK – sučelje za pretragu
 • Uporaba morfosintaktičkih oznaka kod pretrage

MSD = POS + (o|v)rbp (N)

 • Ponovo pogledati

MSD specifikaciju (Multex-East V4):

http://nl.ijs.si/ME/V4/msd/html/msd-hr.html

 • Npr. prema specifikaciji Ncmsgznači
  • Imenica, opća, muškog roda, u jednini, u genitivu
hnk su elje za pretragu18
HNK – sučelje za pretragu
 • Rezultat za upit
  • [msd="Ncmsg"]
hnk su elje za pretragu vje ba3
HNK – sučelje za pretragu (VJEŽBA)
 • Kako postaviti upit
  • Opća imenica u nominativu?
  • [msd="Nc..n"]
 • Kako postaviti upit
  • Vlastita imenica ispred koje se nalazi lema pitati?
  • [lemma="pitati"][msd="Np.*"]
 • Što pronalazi upit
  • [lemma="tijek"][msd="A.*"][msd="N.*"]
 • Također moguće i
  • [lemma="tvrd"][lemma="orah"]
hnk su elje za pretragu19
HNK – sučelje za pretragu
 • Pretraživanje pojavnica iz korpusa koje se nalaze u blizini (npr. kombinacija lema ili oblika)
 • Na standardan način unijeti prvu pojavnicu
 • Potrebno kliknuti na „Context” (na početku ekrana lijevo)
  • U tekstni okvir „Lemma(s):” unijeti drugu (treću…)? pojavnicu
  • Opcionalno „Query Type:” – ovisno pretražujemo li leme ili oblike riječi
  • Opcionalno „Window:”– ovisno želimo li definirati lijevi/desni/oba kontekst druge pojavnice i prozor u kojem se nalazi
hnk kolokacije
HNK – kolokacije
 • Što su kolokacije? Zašto su važne?
 • Potrebno je nešto šire teorijsko objašnjenje
         • Vidjeti novu prezentaciju!
hnk kolokacije1
HNK – kolokacije
 • 1. Unos prve leme
 • 2. Klik na Make Concordance
 • 3. Klik na Filter
 • 4. Klik na Filter Concordance
hnk kolokacije2
HNK – kolokacije
 • 5. Klik na Collocations
 • 6. Postaviti atribut

na lemma, T, MI

 • 7. Klik na Make Candidate List
hnk kolokacije3
HNK – kolokacije
 • 5. Klik na Collocations
 • 6. Postaviti atribut

na lemma, T, MI

 • 7. Klik na Make Candidate List
hnk kolokacije4
HNK – kolokacije
 • Rezultati poredani prema uzajamnoj obavijesnosti (MI)
hnk kolokacije5
HNK – kolokacije
 • Ako nije odabran atribut lema nego Word