uvod v korpusno jezikoslovje n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Uvod v korpusno jezikoslovje PowerPoint Presentation
Download Presentation
Uvod v korpusno jezikoslovje

Loading in 2 Seconds...

play fullscreen
1 / 13

Uvod v korpusno jezikoslovje - PowerPoint PPT Presentation


  • 126 Views
  • Uploaded on

Uvod v korpusno jezikoslovje. Korpusi in baze podatkov, 2004/2005. Kaj je korpus ?. A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (EAGLES, 1996)

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Uvod v korpusno jezikoslovje' - sarah-mason


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
uvod v korpusno jezikoslovje

Uvod v korpusno jezikoslovje

Korpusi in baze podatkov, 2004/2005

kaj je korpus
Kaj je korpus?

A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (EAGLES, 1996)

  • obsežna zbirka jezikovnega gradiva, tj. besedil, ki so nastala v pisni ali govorjeni obliki v dejanskem socialnem kontekstu
  • elektronska oblika
  • reprezentativnost za jezik ali jezikovno zvrst, ki naj bi jo predstavljali -> vzorec
  • na podlagi korpusov želimo jezik opisovati, ne predpisovati!
kako se je vse skupaj za elo
Kako se je vse skupaj začelo...
  • začetki deskriptivnega jezikoslovja
  • v 60. letih: korpus BROWN (1 M)
  • John Sinclair Cobuildova revolucija
  • Bank of English (470 M)
  • British National Corpus (100 M)
  • označevati ali ne?
zakaj potrebujemo korpuse
Zakaj potrebujemo korpuse?
  • Izdelava slovarjev in drugih jezikovnih priročnikov
  • Izdelava slovnic in drugih opisov jezikovne strukture
  • Razvoj pripomočkov za prevajanje
  • Izdelava pripomočkov za učenje jezika
  • Jezikovne tehnologije
  • Raziskovanje vseh oblik jezikovnega vedenja (pripomoček pri vseh ravneh jezikoslovnih raziskav)
tipologija korpusov
Tipologija korpusov
  • Medij: pisana in govorjena besedila
  • Obseg: referenčni korpusi, korpusi podjezikov (npr. strokovnih jezikov)
  • Časovni razpon: diahroni in sinhroni pristop
  • Jezik: enojezični / večjezični
    • vzporedni korpusi
    • primerljivi korpusi
    • prevodoslovni korpusi
nekaj pojmov
Nekaj pojmov ...
  • konkordanca
  • Prikaz vseh delov besedila, kjer se pojavlja iskani niz
  • KWIC (Keyword in Context)Pregledni prikaz konkordanc z usrediščenim nizom
  • pojavnica / različnicanpr. Korpus X ima 100.000.000 pojavnic, 567.000 različnic.
  • besedna oblika / lema
  • kolokacija
korpusi na internetu
Korpusi na internetu
  • Slovenščina:
    • FIDA [http://www.fida.net]
    • Nova beseda [http://bos.zrc-sazu.si/a_beseda.html]
  • Slovensko-angleški vzporedni korpusi:
    • ELAN + TRANS[http://nl2.ijs.si/corpus/index-bi.html]
    • EVROKORPUS [http://www.gov.si/evrokorpus/]
  • Drugi:
    • Zbirka povezav na več sto korpusov različnih svetovnih jezikov [http://devoted.to/corpora]
dodatni viri
Dodatni viri
  • Vzporedni korpusi in večjezikovne tehnologije [http://www2.arnes.si/~svinta/parallel.htm]
  • Uvod v korpusno jezikoslovje (T. Erjavec)[http://nl.ijs.si/et/talks/korpus]
  • Priprava in uporaba vzporednih korpusov[http://nl.ijs.si/et/talks/solomon02]
regularni izrazi in xml
Regularni izrazi in XML
  • An Introduction to Regular Expressions[http://www.aivosto.com/vbtips/regex.html]
  • eXtensible Markup Language [http://www.w3.org/XML/]
  • SGML in XML (T. Erjavec)[http://nl.ijs.si/et/talks/Solomon00/]
korpusna orodja
Korpusna orodja
  • poravnava vzporednih besedil ATRIL DejaVu [http://www.atril.com]
  • konkordančnikiWordSmith Tools [http://www.lexically.net/wordsmith/]Concordance [http://www.rjcw.freeserve.co.uk/]MonoConc in ParaConc [http://www.athel.com/mono.html]
terminolo ki in prevajalski programi
Terminološki in prevajalski programi
  • TRADOS [http://www.trados.com]
  • STAR [http://www.star-ag.ch]
  • Pregled brezplačnih orodij [http://www.open.hr/~dpleic/tools.html]
pa kaj e
Pa kaj še...
  • Avtomatsko luščenje terminologijePLUG project – demo (potrebna registracija)[http://numerus.ling.uu.se/~corpora/plug/]
  • Tezaver WordNet (angleščina)[http://www.cogsci.princeton.edu/~wn/]
  • Avtomatski tezaver (angleščina)INFOMAP project – demo (brez registracije, tezaver sorodnih besed na podlagi BNC-ja) [http://infomap.stanford.edu/webdemo]