1 / 13

Uvod v korpusno jezikoslovje

Uvod v korpusno jezikoslovje. Korpusi in baze podatkov, 2004/2005. Kaj je korpus ?. A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (EAGLES, 1996)

sarah-mason
Download Presentation

Uvod v korpusno jezikoslovje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uvod v korpusno jezikoslovje Korpusi in baze podatkov, 2004/2005

  2. Kaj je korpus? A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (EAGLES, 1996) • obsežna zbirka jezikovnega gradiva, tj. besedil, ki so nastala v pisni ali govorjeni obliki v dejanskem socialnem kontekstu • elektronska oblika • reprezentativnost za jezik ali jezikovno zvrst, ki naj bi jo predstavljali -> vzorec • na podlagi korpusov želimo jezik opisovati, ne predpisovati!

  3. Kako se je vse skupaj začelo... • začetki deskriptivnega jezikoslovja • v 60. letih: korpus BROWN (1 M) • John Sinclair Cobuildova revolucija • Bank of English (470 M) • British National Corpus (100 M) • označevati ali ne?

  4. Zakaj potrebujemo korpuse? • Izdelava slovarjev in drugih jezikovnih priročnikov • Izdelava slovnic in drugih opisov jezikovne strukture • Razvoj pripomočkov za prevajanje • Izdelava pripomočkov za učenje jezika • Jezikovne tehnologije • Raziskovanje vseh oblik jezikovnega vedenja (pripomoček pri vseh ravneh jezikoslovnih raziskav)

  5. Tipologija korpusov • Medij: pisana in govorjena besedila • Obseg: referenčni korpusi, korpusi podjezikov (npr. strokovnih jezikov) • Časovni razpon: diahroni in sinhroni pristop • Jezik: enojezični / večjezični • vzporedni korpusi • primerljivi korpusi • prevodoslovni korpusi

  6. Nekaj pojmov ... • konkordanca • Prikaz vseh delov besedila, kjer se pojavlja iskani niz • KWIC (Keyword in Context)Pregledni prikaz konkordanc z usrediščenim nizom • pojavnica / različnicanpr. Korpus X ima 100.000.000 pojavnic, 567.000 različnic. • besedna oblika / lema • kolokacija

  7. Korpusi na internetu • Slovenščina: • FIDA [http://www.fida.net] • Nova beseda [http://bos.zrc-sazu.si/a_beseda.html] • Slovensko-angleški vzporedni korpusi: • ELAN + TRANS[http://nl2.ijs.si/corpus/index-bi.html] • EVROKORPUS [http://www.gov.si/evrokorpus/] • Drugi: • Zbirka povezav na več sto korpusov različnih svetovnih jezikov [http://devoted.to/corpora]

  8. Dodatni viri • Vzporedni korpusi in večjezikovne tehnologije [http://www2.arnes.si/~svinta/parallel.htm] • Uvod v korpusno jezikoslovje (T. Erjavec)[http://nl.ijs.si/et/talks/korpus] • Priprava in uporaba vzporednih korpusov[http://nl.ijs.si/et/talks/solomon02]

  9. Regularni izrazi in XML • An Introduction to Regular Expressions[http://www.aivosto.com/vbtips/regex.html] • eXtensible Markup Language [http://www.w3.org/XML/] • SGML in XML (T. Erjavec)[http://nl.ijs.si/et/talks/Solomon00/]

  10. Korpusna orodja • poravnava vzporednih besedil ATRIL DejaVu [http://www.atril.com] • konkordančnikiWordSmith Tools [http://www.lexically.net/wordsmith/]Concordance [http://www.rjcw.freeserve.co.uk/]MonoConc in ParaConc [http://www.athel.com/mono.html]

  11. Terminološki in prevajalski programi • TRADOS [http://www.trados.com] • STAR [http://www.star-ag.ch] • Pregled brezplačnih orodij [http://www.open.hr/~dpleic/tools.html]

  12. Pa kaj še... • Avtomatsko luščenje terminologijePLUG project – demo (potrebna registracija)[http://numerus.ling.uu.se/~corpora/plug/] • Tezaver WordNet (angleščina)[http://www.cogsci.princeton.edu/~wn/] • Avtomatski tezaver (angleščina)INFOMAP project – demo (brez registracije, tezaver sorodnih besed na podlagi BNC-ja) [http://infomap.stanford.edu/webdemo]

More Related