hrvatski nacionalni korpus hnk n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Hrvatski nacionalni korpus (HNK) PowerPoint Presentation
Download Presentation
Hrvatski nacionalni korpus (HNK)

Loading in 2 Seconds...

play fullscreen
1 / 40

Hrvatski nacionalni korpus (HNK) - PowerPoint PPT Presentation


  • 182 Views
  • Uploaded on

Hrvatski nacionalni korpus (HNK). S astavlj en u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu Rađen po uzoru na BNC ( British National Corpus ) Referentni korpus za hrvatski jezik HNK verzija 3.0 - 231 M Balansirani korpus suvremenog hrvatskog jezika

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Hrvatski nacionalni korpus (HNK)' - elliot


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
hrvatski nacionalni korpus hnk
Hrvatski nacionalni korpus (HNK)
  • Sastavljen u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu
    • Rađen po uzoru na BNC (British National Corpus)
  • Referentni korpus za hrvatski jezik
  • HNK verzija 3.0 - 231 M
    • Balansirani korpus suvremenog hrvatskog jezika
  • HNK verzija 2.5 – 101 M
    • Balansirani korpus suvremenog hrvatskog jezika – stara verzija
hrvatski nacionalni korpus hnk1
Hrvatski nacionalni korpus (HNK)

http://www.hnk.ffzg.hr

hnk su elje za pretragu
HNK – sučelje za pretragu
  • Nalazi se na WWW-adresi

http://filip.ffzg.hr/bonito2/run.cgi/first_form

- lakše doći preko stranica HNK-a

hnk su elje za pretragu2
HNK – sučelje za pretragu
  • osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo primjera određene pojavnice ili fraze u okolinama u kojima se pojavljuju
  • Konkordancija
    • KWIC (Key-Word In Context)
    • KWAL (Key-Word And Line)
hnk su elje za pretragu4
HNK – sučelje za pretragu
  • Klikom na stožernicu (headword) pojavljuje se širi kontekst
hnk su elje za pretragu5
HNK – sučelje za pretragu
  • Lijevo/desno razvrstavanje (sort)
hnk su elje za pretragu6
HNK – sučelje za pretragu
  • Lijevo razvrstavanje
hnk su elje za pretragu7
HNK – sučelje za pretragu
  • Konfiguriranje željenog prikaza rezultata
hnk su elje za pretragu10
HNK – sučelje za pretragu
  • Korpus je obilježen na više razina
  • 1. gramatičko obilježavanje (bit će više riječi kasnije)
    • vrste riječi (POS tagging)
    • morfosintaktičko obilježavanje (MSD)
  • 2. lematizacija (lemmatisation) - svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu
    • lematizacija se na isti način primjenjuje na morfološki supletivne oblike pa bi npr. jesam, bijah ili bila bili svedeni na leksem biti
  • 3. strukturalno obilježavanje
    • segmentacija na rečenice <s>
    • obilježavanje fizičke strukture teksta (naslov, podnaslov, odlomak itd.)
    • već smo vidjeli na prethodnim slajdovima (zelenom bojom)
hnk su elje za pretragu12
HNK – sučelje za pretragu
  • Pretraživanje prema vrstama riječi (CQL= Corpus Query Language)
    • Npr. imenice
hnk su elje za pretragu13
HNK – sučelje za pretragu
  • Rezultat bi trebale biti samo imenice
hnk su elje za pretragu14
HNK – sučelje za pretragu
  • Spomenuli smo da je jedna od vrsta obilježavanja
  • gramatičko obilježavanje
    • vrste riječi (POS tagging) – imenice, glagoli, pridjevi …
    • ali i potpuno morfosintaktičko obilježavanje (MSD, Morphosyntactic description)
  • MSD = POS + (o|v)rbp (N)
  • Pitanje: kako znamo koje oznake koristiti?
  • MSD specifikacija (Multex-East V4):
  • http://nl.ijs.si/ME/V4/msd/html/msd-hr.html
hnk su elje za pretragu15
HNK – sučelje za pretragu
  • Alat s pomoću kojega se obavlja automatsko
    • POS označavanje naziva se POS označivač (tagger)
    • lematiziranje naziva se lematizator
  • Treba imati na umu da se taj proces obavlja automatskom statističkom metodologijom → rez. nije 100 %
    • Ali je prilično (> 90 %) točan!
  • [msd="V.*"] – glagol
  • [msd="A.*"] – pridjev
  • itd.
hnk su elje za pretragu16
HNK – sučelje za pretragu
  • Kako postaviti upit
    • pridjev iza kojega slijedi imenica?
    • [msd="A.*"][msd="N.*"] – pridjev za kojim slijedi imenica
hnk su elje za pretragu vje ba
HNK – sučelje za pretragu (VJEŽBA)
  • Kako postaviti upit
    • Imenica ispred koje MOŽE stajati pridjev?
    • [msd="A.*"]*[msd="N.*"] – RegEx
hnk su elje za pretragu vje ba1
HNK – sučelje za pretragu (VJEŽBA)
  • Kako postaviti upit
    • pridjev iza kojega slijedi lema glava?
    • [msd="A.*"][lemma="glava"]
hnk su elje za pretragu vje ba2
HNK – sučelje za pretragu (VJEŽBA)
  • Kako postaviti upit
    • lema glava ispred koje MOŽE stajati pridjev?
    • [msd="A.*"]*[lemma="glava"]
  • Kako postaviti upit
    • imenica ispred koje slijedi BAREM JEDAN pridjev?
    • [msd="A.*"][msd="A.*"]*[msd="N.*"]
  • Kako postaviti upit
    • Jednostavne prijedložne fraze (PP)?
    • [msd="S.*"][msd="A.*"]*[msd="N.*"]
hnk su elje za pretragu17
HNK – sučelje za pretragu
  • Uporaba morfosintaktičkih oznaka kod pretrage

MSD = POS + (o|v)rbp (N)

  • Ponovo pogledati

MSD specifikaciju (Multex-East V4):

http://nl.ijs.si/ME/V4/msd/html/msd-hr.html

  • Npr. prema specifikaciji Ncmsgznači
    • Imenica, opća, muškog roda, u jednini, u genitivu
hnk su elje za pretragu18
HNK – sučelje za pretragu
  • Rezultat za upit
    • [msd="Ncmsg"]
hnk su elje za pretragu vje ba3
HNK – sučelje za pretragu (VJEŽBA)
  • Kako postaviti upit
    • Opća imenica u nominativu?
    • [msd="Nc..n"]
  • Kako postaviti upit
    • Vlastita imenica ispred koje se nalazi lema pitati?
    • [lemma="pitati"][msd="Np.*"]
  • Što pronalazi upit
    • [lemma="tijek"][msd="A.*"][msd="N.*"]
  • Također moguće i
    • [lemma="tvrd"][lemma="orah"]
hnk su elje za pretragu19
HNK – sučelje za pretragu
  • Pretraživanje pojavnica iz korpusa koje se nalaze u blizini (npr. kombinacija lema ili oblika)
  • Na standardan način unijeti prvu pojavnicu
  • Potrebno kliknuti na „Context” (na početku ekrana lijevo)
    • U tekstni okvir „Lemma(s):” unijeti drugu (treću…)? pojavnicu
    • Opcionalno „Query Type:” – ovisno pretražujemo li leme ili oblike riječi
    • Opcionalno „Window:”– ovisno želimo li definirati lijevi/desni/oba kontekst druge pojavnice i prozor u kojem se nalazi
hnk kolokacije
HNK – kolokacije
  • Što su kolokacije? Zašto su važne?
  • Potrebno je nešto šire teorijsko objašnjenje
                  • Vidjeti novu prezentaciju!
hnk kolokacije1
HNK – kolokacije
  • 1. Unos prve leme
  • 2. Klik na Make Concordance
  • 3. Klik na Filter
  • 4. Klik na Filter Concordance
hnk kolokacije2
HNK – kolokacije
  • 5. Klik na Collocations
  • 6. Postaviti atribut

na lemma, T, MI

  • 7. Klik na Make Candidate List
hnk kolokacije3
HNK – kolokacije
  • 5. Klik na Collocations
  • 6. Postaviti atribut

na lemma, T, MI

  • 7. Klik na Make Candidate List
hnk kolokacije4
HNK – kolokacije
  • Rezultati poredani prema uzajamnoj obavijesnosti (MI)
hnk kolokacije5
HNK – kolokacije
  • Ako nije odabran atribut lema nego Word