1 / 10

Český národní korpus a jeho využití v překladatelské praxi

Český národní korpus a jeho využití v překladatelské praxi. Lucie Chlumská ÚČNK FF UK JTP, 6. 11. 2010. Obsah dnešní přednášky a workshopu. Co je jazykový korpus a k čemu slouží Český národní korpus (ČNK) Dostupné druhy korpusů ČNK

terrel
Download Presentation

Český národní korpus a jeho využití v překladatelské praxi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Český národní korpus a jeho využití v překladatelské praxi Lucie Chlumská ÚČNK FF UK JTP, 6. 11. 2010

  2. Obsah dnešní přednášky a workshopu • Co je jazykový korpus a k čemu slouží • Český národní korpus (ČNK) • Dostupné druhy korpusů ČNK • Základní práce s korpusem prostřednictvím korpusového manažeru Bonito • Pokročilejší funkce korpusového manažeru s ohledem na potřeby překladatele • Co lze v korpusu hledat, příklady užití • Diskuze

  3. Co je jazykový korpus? • rozsáhlý soubor počítačově uložených textů • anotovaný (autor, rok vydání, typ textu atd.) • lemmatizovaný (každému slovu přiřazeno lemma) • zpravidla morfologicky označkovaný (slovní druh, pád, číslo, osoba, čas, rod atd.) • vzorek skutečného jazyka, nikoli kodifikace • reprezentativnost korpusu • slouží primárně k jazykovému výzkumu

  4. Korpusy ve světě a u nás • 1. korpus – Brown Corpus • 60. léta v USA, Henry Kučera a W. N. Francis, 1 mil. slov • korpusová velmoc – Velká Británie • Bank of English, 500 mil. slov, nakl. Cobuild • BNC – 90. léta, 100 mil. slov, i mluvený jazyk • ostatní jazyky – Německo, Holandsko… • Česká republika patří mezi korpusovou špičku

  5. Český národní korpus • Ústav Českého národního korpusu FF UK založen v roce 1994 • kontinuální akademický projekt, jehož produkty (tj. jednotlivé korpusy) mapují a monitorují různé podoby českého jazyka • korpusy ČNK jsou přístupné široké veřejnosti • jedinou podmínkou je registrace a prohlášení uživatele • co se myslí „komerčními účely“ v prohlášení

  6. Dostupné korpusy ČNK korpusy současné psané češtiny: SYN korpusy současné mluvené češtiny: ORAL diachronní korpus (14.–20. století): DIAKORP paralelní korpus (cca 20 evropských jazyků): InterCorp

  7. SYN • SYN2005: synchronní, psaný, 100 mil. slov • složení: beletrie, publicistika, odborná literatura • SYN2006PUB, SYN2009PUB: • pouze publicistika, 300 mil. slov a 700 mil. slov ORAL • ORAL2006, ORAL2008: každý 1 mil. slov • nepřipravené neformální dialogické promluvy InterCorp • paralelní korpus: základním jazykem je čeština • složení: beletrie, Syndicate

  8. Korpusový manažer Bonito korpus: texty seřazeny za sebou (BEL, ODB, PUB) korpusový manažer: vyhledává v korpusu Základní a pokročilé funkce Bonita vyhledávání lexému či slovního tvaru (či spojení), zobrazení kontextu a frekvence funkce frekvenční distribuce vyhledávání kolokací (souvýskyt dvou lexémů častější než náhodný) třídění pomocí negativního a pozitivního filtru

  9. Základní pojmy nutné pro vyhledávání Vyhledávání podle různého atributu • word: slovní tvar, textové slovo (např. kočce, píše) • lemma: slovníkový tvar (např. kočka, psát) • tag: značka obsahující morfologickou informaci (slovní druh, rod, pád, číslo, čas atd.) Příklady: • word: najde přesně ten tvar, na který se zeptám (např. word „psa“ nenajde PSA, Psa, PsA atd.) • lemma: vyhledá všechny tvary slova bez ohledu na velká, malá písmena (např. lemma „pes“ najde tvary psům, psa, PES, pEs, Psovi atd.) • pomocítaguje možné vyhledat např. jen substantiva v urč. pádě nebo slovesa v minulém čase atd.

  10. Začínáme s Bonitem • instalace Bonita z http://korpus.cz/bonito/instalace.php • podrobný návod a manuál také k nalezení na www.korpus.cz • přihlašovací údaje pro potřeby workshopu: Uživatel: seminar Heslo: dohledala

More Related