1 / 20

Zdroje jazykov ých dat

Zdroje jazykov ých dat. O korpusech. P. Eisner: “ Znáte jej, ten svůj jazyk? Řekl by přec člověk, že mám-li něco milovat, musím to znát. Vy však češtinu neznáte, a říkám-li to, není to ani obžaloba, ani vůbec výtka. Nemůžete ji znát a obsáhnout, to se dokonale nepodařilo ještě nikomu… “.

viola
Download Presentation

Zdroje jazykov ých dat

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zdroje jazykových dat O korpusech

  2. P. Eisner: “Znáte jej, ten svůj jazyk? Řekl by přec člověk, že mám-li něco milovat, musím to znát. Vy však češtinu neznáte, a říkám-li to, není to ani obžaloba, ani vůbec výtka. Nemůžete ji znát a obsáhnout, to se dokonale nepodařilo ještě nikomu…“ J. Sinclair: “Language looks rather different when you look at a lot of it at once.“

  3. Merriam-Webster OnLine:

  4. Korpus • F. Čermák: korpus - strukturovaný, unifikovaný a (často též označkovaný) rozsáhlý soubor jazykových dat • T.McEnery: Corpus data – the raw fuel of NLP

  5. Corpus linguistics • A study of language that includes all processes related to processing, usage and analysis of written or spoken machine-readable corpora. Corpus linguistics is a relatively modern term used to refer to a methodology, which is based on examples of ‘real life’ language use • Není to nová teorie jazyka, liší se jen důsledným využíváním dat.

  6. Corpora classification • A. by medium: • printed, electronic text, digitized speech, video • B. by design method: • balanced vs.special • C. language variables: • monolingual vs. multilingual • original vs. translations • native speaker vs. Learner • D. language evolution: • synchronic vs. diachronic • E. Plain vs. annotated

  7. Vyváženost (reprezentativnost) korpusu • T.McEnery: “Sampling is inescapable.“ • Proporce, které by optimálně odpovídaly reálnému složení jazykového úzu a typů textů v něm • Je to vůbec možné? Objektivní kritéria pro výběr funkčních stylů, žánrů a konkrétních textů? • Recepce (malé množství autorů pro široké publikum) vs. percepce (produkce širokého okruhu uživatelů) • N. Chomsky: “Any natural corpus will be skewed. Some sentences won’t occur because they are obvious, others because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list.“

  8. Velikost korpusů • Brown Corpus – 1 MW (1964) • British Natural Corpus – 100 MW (1994) • http://www.natcorp.ox.ac.uk/ • Cosmas – 1.6 GW (2004) • http://corpora.ids-mannheim.de/cosmas/

  9. Předchůdci korpusů • Excerpční lístky • pro češtinu systematicky od 1911 • Elektronický korpus českých textů • 70.léta • dnes pokračuje jako projekt ČAK • cca 500kW

  10. Anotace (značkování) korpusu • K.Pala: “Annotating consist of adding selected linguistic information to an existing corpus of written or spoken language. Typically, this is done by some kind of coding being attached (semi)automatically or manually to the electronic representation of the text.“ • Texty v surové podobě: obtížně využitelné • Racionální řešení: postupné „přidávání informace“ k textu (přesněji: přidávání informace v explicitní, strojově srozumitelné podobě), zpřístupnění přidané informace ostatním • Annotation  ease of exploitation + reusability

  11. Criticism of corpus annotation • Corpus annotations produce impure corpora • forced interpretations • Consistency vs. Accuracy

  12. Český národní korpus • http://ucnk.ff.cuni.cz • 1994 založen ÚČNK • Diachronní část 13-19.století - DIAKORP • Synchronní část – cca od 1900 • psaný jazyk – 100MW v SYN 2000 • mluvený jazyk – Pražský mluvený korpus (PMK), Brněnský mluvený korpus (BMK) • dialekty

  13. Český národní korpus

  14. SYN2000

  15. Předzpracování • Shromáždění textového materiálu • Elektronicky (problém: přesvědčit majitele) • scanning+OCR (problém: ruční práce, rychlost) • (trend: WWW jako korpus) • Konverze + čištění • Jednotný formát (problém: ztráta informace, např. typografické) • Jednotné kódování (problém: detekce kódování, HTML entity…) • Klasifikace dokumentů • Segmentace dokumentů • Hranice vět – sentence splitting (problém: tabulky, přímá řeč…) • Hranice slov - tokenization (problém: co je slovo, číselné výrazy, spojovníky, jazyky bez mezer…)

  16. Značkování • 1. Morfologická analýza • pro každou slovní formu vyjmenování možný párů lemma+tag • 2. Desambiguace • volba jediného páru lemma+tag

  17. Paralelní korpusy • Text a jeho překladové ekvivalenty v jednom nebo několika jazycích (hub language) • Přidaná hodnota - párování (alignment) • asociace sobě odpovídajících úseků (chunks) textu • Ideálně diagonála • častěji jen na úrovni vět • Automatizace párování: • Anchor points, Word-pairs, … • Vyžaduje ruční opravy • http://utkl.ff.cuni.cz/~rosen/public/parabrati.ppt

  18. MULTEXT-EAST • Multilingual Text Tools and Corpora for Central and Eastern European Languages • Lexical resources • Entry: word form + lemma + MSD • MSD – morphosyntactic descriptions (Ncms – Noun common masculine singular) • Annotated multilingual corpus • Translations of George Orwell's "1984" , about 100kW • Bulgarian, Czech, Estonian, Hungarian, Romanian, and Slovene, as well as for English (hub language) • (and recently also Croatian, Lithuanian, Resian, Romanian, Russian, Slovene) • Hand-validated sentence alignment • http://nl.ijs.si/ME • version 3 released in 2004 (publically available) • TEI P4 XML

  19. PCEDT • Prague Czech-English Dependency Treebank • http://ufal.ms.mff.cuni.cz/pcedt/ • Czech translation of 21,600 English sentences from the Wall Street Journal part of Penn Treebank 3 corpus • Czech-English corpus of plain text from Reader's Digest 1993-1996 consisting of 53,000 parallel sentences • automatically morphologically annotated and parsed into two levels (analytical and tectogrammatical) of dependency structures • Available via LDC

  20. Ch. Fillmore: “Armchair linguistics vs. Corpus linguistics“ • E. Brill: “More data is more important than better algorithms“ • E. Charniac: “Future is in statistics.“ • F. Jelinek: “Whenever I fire a linguist our system performance improves “ • M. Kay: “Unless the role of quantum mechanics and chaos in the workings of ordinary language has been grossly underestimated, nothing about the subject is probabilistic in any fundamental sense.“ • A. Einstein: “Not everything that counts can be counted, and not everything that can be counted counts.“

More Related