slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Narodowy Korpus Języka Polskiego PowerPoint Presentation
Download Presentation
Narodowy Korpus Języka Polskiego

Loading in 2 Seconds...

play fullscreen
1 / 29

Narodowy Korpus Języka Polskiego - PowerPoint PPT Presentation


  • 212 Views
  • Uploaded on

Narodowy Korpus Języka Polskiego. Marek Łaziński www.nkjp.pl M.Lazinski@uw.edu.pl, Marek.Lazinski@pwn.com.pl. Co to jest korpus?. Korpus to zbiór tekstów, w którym czegoś szukamy . Korpus narodowy to zbiór tekstów dobranych tak, by reprezentowały przeciętne zwyczaje językowe społeczeństwa.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Narodowy Korpus Języka Polskiego' - donagh


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Narodowy Korpus Języka Polskiego

Marek Łaziński

www.nkjp.pl

M.Lazinski@uw.edu.pl, Marek.Lazinski@pwn.com.pl

co to jest korpus
Co to jest korpus?

Korpus to zbiór tekstów, w którym czegoś szukamy.

Korpus narodowy to zbiór tekstów dobranych tak, by reprezentowały przeciętne zwyczaje językowe społeczeństwa.

Korpus równoległy prezentuje równolegle zdania z dwóch języków.

dobry korpus musi by
Dobry korpus musi być

duży (miliony słów)

zróżnicowany i reprezentatywny

bogato anotowany (znakowany)

przeszukiwany programem, który pozwala szukać konkordancji lekesmów, form gramatycznych, konstrukcji składniowych oraz kolokacji (typowych skojarzeń tekstowych)

łatwo dostępny (w sieci)

korpusy wczoraj i dzi
1967: pierwsze korpusy angielskie - Brown University Corpus (Kucera, Francis)

1987: pierwszy angielski słownik oparty na korpusie - Collins Cobuild English Dictionary (Sinclair)

1990-95: British National Corpus (100 mln słów)

Niemieckie korpusy IDS (Mannheim) i DWDS (Berlin)

1994: Ústav Českého národního korpusu na Uniwersytecie Karola. Dziś w krajach korpusy narodowe bułgarski, chorwacki, czeski, polski, rosyjski, słowacki, słoweński.

Korpusy wczoraj i dziś
polskie korpusy przed 2008 r
Polskie korpusy przed 2008 r.

Instytut Podstaw Informatyki oraz Instytut Języka Polskiego PAN – korpus duży (250 mln słów), w całości dostępny w sieci, dokładnie anotowany, umożliwia wyszukiwanie skomplikowanych konstrukcji.

Wydawnictwo Naukowe PWN – korpus średniej wielkości (100 mln słów), dobrze zróżnicowany.

Uniwersytet Łódzki (zespół PELCRA ) – korpus średniej wielkości (100 mln słów), w całości dostępny w sieci.

s owniki pwn oparte na korpusach
Słowniki PWN oparte na korpusach

Inny słownik języka polskiego

Wielki słownik polsko-angielski i angielsko-polski PWN Oxford, Wielki słownik polsko-niemiecki

Definicje korpusowe

When a dog wags its tail, it repeatedly waves its tail from side to side (Cobuid CED)

wag = to shake up and down or move from side to side (OW)

Jeśli ktościemiężyludzi, to wykorzystując swojąwładzę[...] nakłada na nich zbyt ciężkie obowiązki. (ISJP)

ciemiężyć - pozbawiać swobody, nakładać ciężary, zmuszać do czegoś; prześladować, gnębić, uciskać (USJP)

narodowy korpus j zyka polskiego www nkjp pl
Narodowy Korpus Języka Polskiego www.nkjp.pl

Jest projektem badawczym MNiSW.

Łączy doświadczenia wszystkich instytucji tworzących wcześniej polskie korpusy oraz pracowników UW.

Do końca roku 2010 zgromadzi miliard słów ze skomplikowaną wyszukiwarką.

Podkorpus 300 milionów będzie dokładnie zrównoważony gatunkowo i stylistycznie według badań czytelnictwa w Polsce.

Wśród 30 mln słów tekstów mówionych będą 3 mln konwersacji nagranych w naturalnych warunkach.

obecnie w nkjp
Obecnie w NKJP

500 mln słów z ponad 1000 książek i kilku tysięcy gazet (prawie 300 tytułów)

Teksty zróżnicowane w oparciu o badania czytelnictwa w Polsce

Wyszukiwarka Poliqarp pozwalająca szukać „pustych” kategorii gramatycznych

Wyszukiwarka PELCRA z modułem kolokacji

w r d 500 mln s w
Przyimek w (najczęstsze słowo) występuje 13.500.000 razy – 2,5%

Wojna występuje 130.000 razy, a pokój (w dwóch znaczeniach– 64.000 razy

Cieszyć się występuje 66.500 razy, a martwić się 14.500

Groch – 2.000 razy

Kapusta – 7.000 razy

Groch z kapustą – 80 razy

Wśród 500 mln słów...
podprojekty nkjp
Podprojekty NKJP

Słowa tygodnia (dnia) - częstsze w gazetach w danym tygodniu (dniu) niż w okresie porównawczym: www.gazetylokalne.pl

Korpus równoległy polsko-rosyjski

Narzędzia do:

rozpoznawania i ujednoznaczniania form fleksyjnych w tekście

rozpoznawania znaczeń homonimów

identyfikacji nazw własnych

co mo na sprawdzi w korpusie
Co można sprawdzić w korpusie?

Poprawność gramatyczną i ortograficzną form i połączeń

Typowe użycia i konteksty (skojarzenia słów)

Częstość słów i konstrukcji

Dzieje słów (pierwsze użycia)

Skrzydlate słowa (Kto to powiedział?)

kawa czy herbata
NKJP: kawa 9653, herbata: 15828

szklanka: 779, filiżanka: 248

BNC: coffe 6782, tea: 8030

cup 11965, glass 9438 (http://www.natcorp.ox.ac.uk/index.xml)

Wortschatz: Kaffee 3548, Tee 1554 (kolok. Tasse)

(http://wortschatz.uni-leipzig.de/)

DWDS: Tee 2604, Kaffee 4443 (http://www.dwds.de/textbasis/kerncorpus)

ČNK: čaj 3763, káva 4630

NKRJa: kofe 7898, čaj 24050

čaška 5522, stakan 11286

Kawa czy herbata?
korpusy r wnoleg e
ENPC - korpus angielsko-norweski www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc (niedostępny w sieci)

Korpus Hansard kanadyjskich debat parlamentarnych po angielsku i po francusku (projekt TransSearch: www.tsrali.com)

Korpus aktów prawnych Unii Europejskiej (do instalacji): langtech.jrc.it/JRC-Acquis

Korpus angielsko-rosyjski, -słoweński, -chorwacki i inne w ramach korpusów narodowych

Korpusy równoległe
szklanka herbaty i fili anka kawy
W czeskich przekładach szklance i stakanowi odpowiadają: sklenice, sklenka, sklenička, číš, šálek.

Czasem herbacie odpowiada kawa.

На столе , за которым сидел во время моего прошлого визита жирный , на куче перепачканных бумаг стояли стаканы из-под чая... (Bułhakow: Mistrz i Małgorzta)

Na stole, na którym siedział przedtem otyły, na stercie poplamionych papierów stały szklanki po herbacie.

Na stole, u kterého prve seděl tlusťoch, stály šálky od kávy.

Wypiłem resztki herbaty i wydrapałem łyżeczką cukier z dna szklanki.

Dopil jsem kavu a ližičkou vybral zbytky cukru ze dna šálku.

Szklanka herbaty i filiżanka kawy
korpus polsko rosyjski
Będzie umieszczony (jako korpus rosyjsko-polski) na stronach NKRJa obok rosyjsko-angielskiego i –niemieckiego, a także na stronach Uniwersytetu Baszkirskiego w Ufie. Polski interfejs będzie na stronach NKJP, polonistyki i rusycystyki UW.

Na pierwszym etapie pracy serwer z tekstami będzie po stronie rosyjskiej, w Polsce stworzymy później serwer lustrzany.

W Polsce projekt działa jako grant MNiSW.

Korpus polsko-rosyjski
tagowanie lematyzacja dezambiguacja i dopasowanie zda
<RUS>В{в=PR=} северо-восточном{северо-восточный=A=пр,ед,муж|северо-восточный=A=пр,ед,сред} углу {угол=S,муж,неод=дат,ед| угол=S,муж,неод=местн,ед} Африки{африка=S,жен,неод=им,мн| африка=S,жен,неод=род,ед| африка=S,жен,неод=вин,мн} лежит{лежать=V,несов=непрош,ед,изъяв,3-л} Египет{египет=S,муж,неод=им,ед| египет=S,муж,неод=вин,ед}.</RUS>

<POL>W [w:prep:loc:nwok] północno [północny:adja]- [-:interp]wschodnim [wschodni:adj:sg:loc:m3:pos] kącie [kąt:subst:sg:loc:m3] Afryki [afryka:subst:sg:gen:f] leży [leżeć:fin:sg:ter:imperf] Egipt [egipt:subst:sg:acc:m3].</POL>

<orth>leży</orth>:

<lex disamb="1">

<base>leżeć</base>

<ctag>fin:sg:ter:imperf</ctag></lex>

<base>leż</base>, <ctag>subst:sg:gen:f</ctag>

<base>leż</base>, <ctag>subst:sg:dat:f</ctag>

<base>leża</base>, <ctag>subst:sg:gen:f</ctag>

<base>leża</base>, <ctag>subst:sg:dat:f</ctag>

<base>leże</base>,<ctag>subst:pl:gen:n</ctag>

Wpadki lematyzacyjne: dopieroż <dopierożyć>, (w) terenie <Terenia>

Tagowanie, lematyzacja, dezambiguacjai dopasowanie zdań
problemy w gromadzeniu korpusu
Skanowanie, tagowanie i dezambiguacja tekstu są pracochłonne. Najbardziej pracochłonne jest przepisywanie tekstów mówionych.

Jednak najwięcej czasu zajmuje przekonanie wydawców lub autorów do przekazania tekstu i wydania zgody na wykorzystanie w korpusie.

Mimo że udostępniamy jedynie cytaty niewiele większe niż ilustracja słownikowa, to na przechowywanie całości tekstu na własnych serwerach i znakowanie go musimy mieć zgodę.

Problemy w gromadzeniu korpusu
jak mo na pom c nkjp
Zgadzam się na wykorzystanie mojego tekstu/ przekładu [...]

w Narodowym Korpusie Języka Polskiego (Korpusie Polsko-Rosyjskim) i oraz na wykorzystanie cytatów z tego tekstu w celach dydaktycznych, badawczych i leksykograficznych. Teksty Korpusu nikomu nie będą udostępnione jako integralne utwory.

W Internecie lub mogą być udostępnione jedynie krótkie cytaty pozwalające określić znaczenie, typową łączliwość oraz cechy gramatyczne wyrazów i konstrukcji w jednym lub W dwóch językach.Teksty będą przechowywane wyłącznie w celu znakowania morfosyntaktycznego i zindeksowania w programie wyszukującym w instytucjach budujących NKJP i KPR: na Wydziale Polonistyki i w Instytucie Rusycystyki UW,

w Instytucie Podstaw Informatyki i Instytucie Języka Polskiego PAN, Katedrze Anglistyki Uniwersytetu Łódzkiego oraz Wydawnictwie Naukowym PWN.

Jak można pomóc NKJP?