ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH
Download
1 / 28

Prof. dr hab. Marek ?widzi?ski Zak?ad J?zykoznawstwa Komputerowego Instytut J?zyka Polskiego UW - PowerPoint PPT Presentation


  • 138 Views
  • Uploaded on

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Prof. dr hab. Marek ?widzi?ski Zak?ad J?zykoznawstwa Komputerowego Instytut J?zyka Polskiego UW' - inga


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni

Prof. dr hab. Marek Świdziński

Zakład Językoznawstwa Komputerowego

Instytut Języka Polskiego UW

e-mail: m.r.swidzinski@uw.edu.pl

Konsultacje:wt 15.30-16.30, pok. 1

Strona internetowa:

www.mswidz.republika.pl


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Spotkanie 4

Słownik gramatyczny języka polskiego



Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

SGJP

4


Historia i poprzednicy
Historia i poprzednicy

  • Jan Tokarski, Czasowniki polskie, Warszawa 1951.

  • Jan Tokarski, Fleksja polska, Warszawa 19

  • Słownik Języka polskiego PAN (1958-1970) (SJPDor.)

  • Andrej Zaliznyak, Grammatičeskij slovar’ russkogo yazyka (Moskva 1967 i późniejsze wydania)

  • Włodzimierz Gruszczyński, Fleksja rzeczowników we współczesnym języku polskim. Opis i próba jego zastosowania w słowniku. Warszawa 1986.

  • Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych. Opracowanie i redakcja Zygmunt Saloni, Warszawa 1993.

  • Zygmunt Saloni, Czasownik polski, Warszawa 2003.


Jan tokarski wikipedia
Jan Tokarski (Wikipedia)

Jan Tokarski (ur. 24 marca1909 w Ortelu Królewskim, zm. 16 stycznia1982 w Warszawie) – językoznawca polski, profesor Uniwersytetu Warszawskiego, współpracownik Witolda Doroszewskiego, autor i współautor wielu publikacji z dziedziny fleksji, słowotwórstwa, dialektologii i metodyki nauczania gramatyki oraz słowników.

Jan Tokarski jest twórcą powszechnie używanej w językoznawstwie i informatyce klasyfikacji polskiej fleksji (odmiany wyrazów).


Jan tokarski wikipedia1
Jan Tokarski (Wikipedia)

Niektóre publikacje:

  • Czasowniki polskie (1951)

  • Gwara Serpelic. Fonetyka. Fleksja (1964)

  • Gramatyka w szkole. Podstawowe zagadnienia metodyki (1966)

  • Fleksja polska (1973)

  • Słownictwo (teoria wyrazu)(1971)

  • Traktat o ortografii polskiej (1979)

  • Zarys leksykologii i leksykografii polskiej - wspólnie ze Stanisławem Kanią (1984)

    Słowniki:

  • Słownik wyrazów obcych - red. (1971)

  • Schematyczny indeks a tergo polskich form wyrazowych - opr. i red. Zygmunt Saloni (1993)


Jan tokarski
Jan Tokarski

  • Pierwszy strukturalista wśród gramatyków polskich.

  • Metodologia:

    • opis jawny i wyczerpujący,

    • gramatyka i słownik – dwa moduły opisu,

    • cechy gramatyczne wchodzą do słownika,

    • odrzucenie segmentacji morfemowej: forma wyrazowa jako napis.

  • Pionier lingwistyki informatycznej: notacja Tokarskiego.


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Dwa poziomy fleksji

Fleksja jako fragment opisu gramatycznego

  • fleksja głębinowa: opis uporządkowania form wyrazowych w leksemy (= szkolny rozbiór gramatyczny);

  • fleksja powierzchniowa: opis struktury morfemowej form wyrazowych i klasyfikacja leksemów odmiennych ze względu na strukturę morfemową jego form (= szkolne „tematy”, „końcówki” i „wymiany głoskowe”).


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Typologia leksemów: części mowy

Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego

Mamyleksem LX. Pytamykolejno:

(1) czy jest odmienny;

(2) czyodmieniasięprzezprzypadek;

(3) czyodmieniasięprzezosobę;

(4) czyodmieniasięprzezrodzaj;

(5) czyodmieniasięprzezliczbę;

(6) czy jest samodzielnyskładniowo;

(7) czypełnifunkcjęłączącą;

(8) czy ma rząd.



Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Problem — wypełnienieklatekparadygmatu. Czyli:

- jak wyglądają formy wyrazowe danego leksemu;

- jak utworzyć dana formę na podstawie innej formy?

Typy form fleksyjnych:

  • formysyntetyczne

  • formyanalityczne (w tym: aglutynacyjne).


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Rozbiór:tematfleksyjny(= część wspólna) iczęśćgramatyczna (= część różna).

Częśćgramatyczna:

  • pojedynczymorfem — końcówka

  • sekwencjamorfemów (końcówek)

  • osobnesłowo (być może, wraz z a. lub b.).


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

  • Formy syntetyczne:

    dziewczyny: dziewczyn- -y

    chłopiec: chłopiec- -

    najmłodszy: naj- -młod- -sz- -y

    AGL czytałaś: czyta- -ł- -a- -ś

    AGL czytali: czyta- -l- -i- -

  • [Formy analityczne:

    AGL (ty)ś ... czytała: -ś ... czyta- -ł- -a

    AGL byśmy... czytały: by- -śmy.... czyta- -ł- -y

    będę czytać: będ- -ę czyta- -ć

    AGL czytało będzie: czyta- -ł- -o będzie- -]


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Problemy:

a. końcówki wspólnofunkcyjne i ich dystrybucja,

b. alternacje w tematach i ich dystrybucja,

c. wzorce odmiany (klasyfikacja leksemów).

Ad a.: (mianownik liczby mnogiej)

 -e (drwale, arbitraże, dworzanie, ciemnie, stolice, kasze)

 -y (starcy, robotnicy, brzuchy, stoły, dziewczyny, myszy)

 -i (króliki, hetmani, podłogi, kości)

 -owie (paziowie, widzowie, wrogowie, panowie)

 -a (akta, pola, okna)


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Ad b.: (alternacje w temacie)

  • CZYTAĆ: czytam, czytasz,..., czytają,..., czytałem,...

  • WIEŹĆ:wiozę, wieziesz,..., wiozłem,..., wiózł,..., wieźli,..., wieziono,...

  • ROBOTNIK:robotnik,..., robotnikiem,..., robotnicy,...

  • SZKOŁA: szkoła,..., szkole,..., szkół,...

  • MAŁY:mały,..., mali,..., mniejszego,...


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Uwaga: w polszczyźnie odmieniaja się tematy! Morfonologia

droga: drog- + -a

drodze: 1. drog- => drodz-, 2. drodz- + -e

dróg: 1. drog- => dróg-, 2. dróg- + -

kupował: kupowa- + -ł

kupujesz: 1. kupowa- => kupuje-, 2. kupuje- + -sz

kupując: 1. kupowa- => kupuj-, 2. kupuj- + -ąc

ciąć: cią- + -ć

tnę: 1. cią- => tn-, 2. tn- + -ę

tnął: 1. cią- => tną-, 2. tną- + -ł


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Ad c.: (wzorce odmiany)

Klasyfikacja fleksyjna leksemów— oparta na regularnych odpowiedniościach typu a. i typu b.:

  • generowanie tematów od tematów,

  • dopasowywanie końcówek.

    Systematyzacja fleksji polskiej — dzieło Jana Tokarskiego.


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Opis słownikowy fleksji

Trzy techniki:

  • wzorce paradygmatyczne + odsyłacze (kody)

  • reguły przekształcania form: formy bazowe

  • paradygmat z wypełnieniami dla każdego leksemu


Grupy deklin acyjne jana tokarskiego
Grupy deklinacyjne Jana Tokarskiego

Rodzaj męski

m1LIŚĆ: liść, liścia, liściem, liściu, liście, liści;

m2ŻOŁNIERZ: żołnierz, żołnierza, żołnierzem, żołnierzu, żołnierze, żołnierzy;

m3BYK: byk, byka, bykiem, byku, byki, byków;

m4KOT: kot, kota, kotem, kocie, koty, kotów;

m5MIESZCZANIN: mieszczanin, mieszczanina,

mieszczaninem, mieszczaninie, mieszczanie,

mieszczan.


Grupy deklin acyjne jana tokarskiego1
Grupy deklinacyjne Jana Tokarskiego

Rodzaj żeński

ż1 ZIEMIA: ziemia, ziemi, ziemią, ziemi, ziemie, ziem;

ż2 TĘCZA: tęcza, tęczy, tęczą, tęczy, tęcze, tęcz;

ż3 ŁĄKA: łąka, łąki, łąką, łące, łąki, łąk;

ż4 KOBIETA: kobieta, kobiety, kobietą, kobiecie, kobiety, kobiet;

ż5 NIĆ: nić, nici, nicią, nici, nici, nici;

ż6 MYSZ: mysz, myszy, myszą, myszy, myszy.


Grupy deklin acyjne jana tokarskiego2
Grupy deklinacyjne Jana Tokarskiego

Rodzaj nijaki

n1 ZDJĘCIE: zdjęcie, zdjęcia, zdjęciem, zdjęciu, zdjęcia, zdjęć;

n2 ŁYKO: łyko, łyka, łykiem, łyku, łyka, łyk;

n3 OKNO: okno, okna, oknem, oknie, okna, okien;

n4 PISKLĘ: pisklę, pisklęcia, pisklęciem, pisklęciu, pisklęta, piskląt;

n5 IMIĘ: imię, imienia, imieniem, imieniu, imiona, imion;

n6 MUZEUM: muzeum, muzeum, muzeum, muzeum,

muzea, muzeów.


Grupy koniugacyjne jana tokarskiego
Grupy koniugacyjne Jana Tokarskiego

Formy podstawowe:

  • bezokolicznik,

  • pierwsza i

  • druga osoba liczby pojedynczej,

  • trzecia osoba liczby mnogiej czasu teraźniejszego lub przyszłego syntetycznego,

  • druga osoba liczby pojedynczej trybu rozkazującego,

  • trzecia osoba liczby pojedynczej rodzaju męskiego i

  • trzecia osoba liczby mnogiej rodzaju męskoosobowego czasu przeszłego oraz

  • bezosobnik.


Grupy koniugacyjne jana tokarskiego1
Grupy koniugacyjne Jana Tokarskiego

(por. SJP Dor.: lxiii-lxxiv, Tokarski (1973: 213-230)):

1: CZYTAĆ czytać, ~am, ~asz, ~ają, ~aj, ~ał, ~ali, ~ano

2: UMIEĆ umieć, ~em, ~esz, ~eją, ~ej, ~ał, ~eli, ~ano

3: SZALEĆ szaleć, ~eję, ~ejesz, ~eją, ~ej, ~ał, ~eli, ~ano

4: KUPOWAĆ kupować, ~uję, ~ujesz, ~ują, ~uj, ~ował, ~owa­li, ~owano

5a:CIĄGNĄĆ ciągnąć, ~nę, ~niesz, ~ną, ~nij, ~nął, ~nęli, ~nięto

5b:SUNĄĆ sunąć, ~nę, ~niesz, ~ną, ~ń, ~nął, ~nęli, ~nięto

5c:CHUDNĄĆ chudnąć, ~nę, ~niesz, ~ną, ~nij, ~ł, ~li, ~nięto

6a:MÓWIĆ mówić, ~ię, ~isz, ~ią, ~, ~ił, ~ili, ~iono

6b:WARZYĆ warzyć, ~ę, ~ysz, ~ą, ~, ~ył, ~yli, ~ono


Grupy koniugacyjne jana tokarskiego2
Grupy koniugacyjne Jana Tokarskiego

7a:MYŚLEĆ myśleć, ~ę, ~isz, ~ą, ~, ~ał, ~eli, ~ano

7b:SŁYSZEĆ słyszeć, ~ę, ~ysz, ~ą, ~, ~ał, ~eli, ~ano

8a:PISYWAĆ pisywać, ~uję, ~ujesz, ~ują, ~uj, ~ywał, ~ywa­li, ~ywano

8b: OPUKIWAĆopukiwać, ~uję, ~ujesz, ~ują, ~uj, ~iwał, ~iwali, ~iwano

9:PISAĆ pisać, ~ę, ~esz, ~ą, ~, ~ał, ~ali, ~ano

10a:ŻYĆ żyć, ~ję, ~jesz, ~ją, ~j, ~ł, ~li, ~to

10b:GRZAĆ grzać, ~eję, ~ejesz, ~eją, ~ej, ~ał, ~eli, ~ano

10c:DĄĆ dąć, ~mę, ~miesz, ~mą, ~mij, ~ął, ~ęli, ~ęto

11:NIEŚĆnieść, ~ę, ~iesz, ~ą, ~, ~ł, ~li, ~iono




Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw
SGJP

  • Zasób: 250 tys. leksemów.

  • Źródło: SJP Dor., korpusy.

  • Hasła: leksemy, skróty, afiksy.

  • Informacja slownikowa: fleksyjna, podstawowa słowotwórcza, podstawowa skladniowa.

  • Leksemy nieodmienne (poza spójnikami, partykułami, przyimkami, przysłówkami):

  • dopowiedzenia (TAK, AJUŚCI, OK).

  • tzw. zaimki przysłowne: TAM, KIEDYŚ, NIGDY.

  • przysłówki lczebnikowe: SAMOWTÓR.

  • oretatory trybu:NIECH, BYLE,

  • operatory deklaratywności: NIE, ALBO, NUŻ, NO,

  • operatory adnumeratywne: NIESPEŁNA.