ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH
This presentation is the property of its rightful owner.
Sponsored Links
1 / 28

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW PowerPoint PPT Presentation


  • 97 Views
  • Uploaded on
  • Presentation posted in: General

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni. Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e- mail : m .r. swidz inski @ uw. edu.pl Konsultacje: wt 15.30-16.30, pok. 1

Download Presentation

Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni

Prof. dr hab. Marek Świdziński

Zakład Językoznawstwa Komputerowego

Instytut Języka Polskiego UW

e-mail: [email protected]

Konsultacje:wt 15.30-16.30, pok. 1

Strona internetowa:

www.mswidz.republika.pl


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Spotkanie 4

Słownik gramatyczny języka polskiego


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

SGJP


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

SGJP

4


Historia i poprzednicy

Historia i poprzednicy

  • Jan Tokarski, Czasowniki polskie, Warszawa 1951.

  • Jan Tokarski, Fleksja polska, Warszawa 19

  • Słownik Języka polskiego PAN (1958-1970) (SJPDor.)

  • Andrej Zaliznyak, Grammatičeskij slovar’ russkogo yazyka (Moskva 1967 i późniejsze wydania)

  • Włodzimierz Gruszczyński, Fleksja rzeczowników we współczesnym języku polskim. Opis i próba jego zastosowania w słowniku. Warszawa 1986.

  • Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych. Opracowanie i redakcja Zygmunt Saloni, Warszawa 1993.

  • Zygmunt Saloni, Czasownik polski, Warszawa 2003.


Jan tokarski wikipedia

Jan Tokarski (Wikipedia)

Jan Tokarski (ur. 24 marca1909 w Ortelu Królewskim, zm. 16 stycznia1982 w Warszawie) – językoznawca polski, profesor Uniwersytetu Warszawskiego, współpracownik Witolda Doroszewskiego, autor i współautor wielu publikacji z dziedziny fleksji, słowotwórstwa, dialektologii i metodyki nauczania gramatyki oraz słowników.

Jan Tokarski jest twórcą powszechnie używanej w językoznawstwie i informatyce klasyfikacji polskiej fleksji (odmiany wyrazów).


Jan tokarski wikipedia1

Jan Tokarski (Wikipedia)

Niektóre publikacje:

  • Czasowniki polskie (1951)

  • Gwara Serpelic. Fonetyka. Fleksja (1964)

  • Gramatyka w szkole. Podstawowe zagadnienia metodyki (1966)

  • Fleksja polska (1973)

  • Słownictwo (teoria wyrazu)(1971)

  • Traktat o ortografii polskiej (1979)

  • Zarys leksykologii i leksykografii polskiej - wspólnie ze Stanisławem Kanią (1984)

    Słowniki:

  • Słownik wyrazów obcych - red. (1971)

  • Schematyczny indeks a tergo polskich form wyrazowych - opr. i red. Zygmunt Saloni (1993)


Jan tokarski

Jan Tokarski

  • Pierwszy strukturalista wśród gramatyków polskich.

  • Metodologia:

    • opis jawny i wyczerpujący,

    • gramatyka i słownik – dwa moduły opisu,

    • cechy gramatyczne wchodzą do słownika,

    • odrzucenie segmentacji morfemowej: forma wyrazowa jako napis.

  • Pionier lingwistyki informatycznej: notacja Tokarskiego.


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Dwa poziomy fleksji

Fleksja jako fragment opisu gramatycznego

  • fleksja głębinowa: opis uporządkowania form wyrazowych w leksemy (= szkolny rozbiór gramatyczny);

  • fleksja powierzchniowa: opis struktury morfemowej form wyrazowych i klasyfikacja leksemów odmiennych ze względu na strukturę morfemową jego form (= szkolne „tematy”, „końcówki” i „wymiany głoskowe”).


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Typologia leksemów: części mowy

Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego

Mamyleksem LX. Pytamykolejno:

(1) czy jest odmienny;

(2) czyodmieniasięprzezprzypadek;

(3) czyodmieniasięprzezosobę;

(4) czyodmieniasięprzezrodzaj;

(5) czyodmieniasięprzezliczbę;

(6) czy jest samodzielnyskładniowo;

(7) czypełnifunkcjęłączącą;

(8) czy ma rząd.


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Typologia leksemów: części mowy


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Problem — wypełnienieklatekparadygmatu. Czyli:

- jak wyglądają formy wyrazowe danego leksemu;

- jak utworzyć dana formę na podstawie innej formy?

Typy form fleksyjnych:

  • formysyntetyczne

  • formyanalityczne (w tym: aglutynacyjne).


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Rozbiór:tematfleksyjny(= część wspólna) iczęśćgramatyczna (= część różna).

Częśćgramatyczna:

  • pojedynczymorfem — końcówka

  • sekwencjamorfemów (końcówek)

  • osobnesłowo (być może, wraz z a. lub b.).


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

  • Formy syntetyczne:

    dziewczyny: dziewczyn- -y

    chłopiec: chłopiec- -

    najmłodszy: naj- -młod- -sz- -y

    AGL czytałaś: czyta- -ł- -a- -ś

    AGL czytali: czyta- -l- -i- -

  • [Formy analityczne:

    AGL (ty)ś ... czytała: -ś ... czyta- -ł- -a

    AGL byśmy... czytały: by- -śmy.... czyta- -ł- -y

    będę czytać: będ- -ę czyta- -ć

    AGL czytało będzie: czyta- -ł- -o będzie- -]


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Problemy:

a. końcówki wspólnofunkcyjne i ich dystrybucja,

b. alternacje w tematach i ich dystrybucja,

c. wzorce odmiany (klasyfikacja leksemów).

Ad a.: (mianownik liczby mnogiej)

 -e (drwale, arbitraże, dworzanie, ciemnie, stolice, kasze)

 -y (starcy, robotnicy, brzuchy, stoły, dziewczyny, myszy)

 -i (króliki, hetmani, podłogi, kości)

 -owie (paziowie, widzowie, wrogowie, panowie)

 -a (akta, pola, okna)


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Ad b.:(alternacje w temacie)

  • CZYTAĆ:czytam, czytasz,..., czytają,..., czytałem,...

  • WIEŹĆ:wiozę, wieziesz,..., wiozłem,..., wiózł,..., wieźli,..., wieziono,...

  • ROBOTNIK:robotnik,..., robotnikiem,..., robotnicy,...

  • SZKOŁA:szkoła,..., szkole,..., szkół,...

  • MAŁY:mały,..., mali,..., mniejszego,...


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Uwaga: w polszczyźnie odmieniaja się tematy! Morfonologia

droga: drog- + -a

drodze: 1. drog- => drodz-, 2. drodz- + -e

dróg: 1. drog- => dróg-, 2. dróg- + -

kupował: kupowa- + -ł

kupujesz: 1. kupowa- => kupuje-, 2. kupuje- + -sz

kupując: 1. kupowa- => kupuj-, 2. kupuj- + -ąc

ciąć: cią- + -ć

tnę: 1. cią- => tn-, 2. tn- + -ę

tnął: 1. cią- => tną-, 2. tną- + -ł


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Fleksja powierzchniowa

Ad c.:(wzorce odmiany)

Klasyfikacja fleksyjna leksemów— oparta na regularnych odpowiedniościach typu a. i typu b.:

  • generowanie tematów od tematów,

  • dopasowywanie końcówek.

    Systematyzacja fleksji polskiej — dzieło Jana Tokarskiego.


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

Opis słownikowy fleksji

Trzy techniki:

  • wzorce paradygmatyczne + odsyłacze (kody)

  • reguły przekształcania form: formy bazowe

  • paradygmat z wypełnieniami dla każdego leksemu


Grupy deklin acyjne jana tokarskiego

Grupy deklinacyjne Jana Tokarskiego

Rodzaj męski

m1LIŚĆ: liść, liścia, liściem, liściu, liście, liści;

m2ŻOŁNIERZ: żołnierz, żołnierza, żołnierzem, żołnierzu, żołnierze, żołnierzy;

m3BYK: byk, byka, bykiem, byku, byki, byków;

m4KOT: kot, kota, kotem, kocie, koty, kotów;

m5MIESZCZANIN: mieszczanin, mieszczanina,

mieszczaninem, mieszczaninie, mieszczanie,

mieszczan.


Grupy deklin acyjne jana tokarskiego1

Grupy deklinacyjne Jana Tokarskiego

Rodzaj żeński

ż1ZIEMIA: ziemia, ziemi, ziemią, ziemi, ziemie, ziem;

ż2TĘCZA: tęcza, tęczy, tęczą, tęczy, tęcze, tęcz;

ż3ŁĄKA: łąka, łąki, łąką, łące, łąki, łąk;

ż4KOBIETA: kobieta, kobiety, kobietą, kobiecie, kobiety, kobiet;

ż5NIĆ: nić, nici, nicią, nici, nici, nici;

ż6MYSZ: mysz, myszy, myszą, myszy, myszy.


Grupy deklin acyjne jana tokarskiego2

Grupy deklinacyjne Jana Tokarskiego

Rodzaj nijaki

n1 ZDJĘCIE: zdjęcie, zdjęcia, zdjęciem, zdjęciu, zdjęcia, zdjęć;

n2ŁYKO: łyko, łyka, łykiem, łyku, łyka, łyk;

n3OKNO: okno, okna, oknem, oknie, okna, okien;

n4PISKLĘ: pisklę, pisklęcia, pisklęciem, pisklęciu, pisklęta, piskląt;

n5IMIĘ: imię, imienia, imieniem, imieniu, imiona, imion;

n6MUZEUM: muzeum, muzeum, muzeum, muzeum,

muzea, muzeów.


Grupy koniugacyjne jana tokarskiego

Grupy koniugacyjne Jana Tokarskiego

Formy podstawowe:

  • bezokolicznik,

  • pierwsza i

  • druga osoba liczby pojedynczej,

  • trzecia osoba liczby mnogiej czasu teraźniejszego lub przyszłego syntetycznego,

  • druga osoba liczby pojedynczej trybu rozkazującego,

  • trzecia osoba liczby pojedynczej rodzaju męskiego i

  • trzecia osoba liczby mnogiej rodzaju męskoosobowego czasu przeszłego oraz

  • bezosobnik.


Grupy koniugacyjne jana tokarskiego1

Grupy koniugacyjne Jana Tokarskiego

(por. SJP Dor.: lxiii-lxxiv, Tokarski (1973: 213-230)):

1:CZYTAĆczytać, ~am, ~asz, ~ają, ~aj, ~ał, ~ali, ~ano

2:UMIEĆumieć, ~em, ~esz, ~eją, ~ej, ~ał, ~eli, ~ano

3:SZALEĆszaleć, ~eję, ~ejesz, ~eją, ~ej, ~ał, ~eli, ~ano

4:KUPOWAĆkupować, ~uję, ~ujesz, ~ują, ~uj, ~ował, ~owa­li, ~owano

5a:CIĄGNĄĆciągnąć, ~nę, ~niesz, ~ną, ~nij, ~nął, ~nęli, ~nięto

5b:SUNĄĆsunąć, ~nę, ~niesz, ~ną, ~ń, ~nął, ~nęli, ~nięto

5c:CHUDNĄĆchudnąć, ~nę, ~niesz, ~ną, ~nij, ~ł, ~li, ~nięto

6a:MÓWIĆmówić, ~ię, ~isz, ~ią, ~, ~ił, ~ili, ~iono

6b:WARZYĆwarzyć, ~ę, ~ysz, ~ą, ~, ~ył, ~yli, ~ono


Grupy koniugacyjne jana tokarskiego2

Grupy koniugacyjne Jana Tokarskiego

7a:MYŚLEĆmyśleć, ~ę, ~isz, ~ą, ~, ~ał, ~eli, ~ano

7b:SŁYSZEĆsłyszeć, ~ę, ~ysz, ~ą, ~, ~ał, ~eli, ~ano

8a:PISYWAĆpisywać, ~uję, ~ujesz, ~ują, ~uj, ~ywał, ~ywa­li, ~ywano

8b: OPUKIWAĆopukiwać, ~uję, ~ujesz, ~ują, ~uj, ~iwał, ~iwali, ~iwano

9:PISAĆpisać, ~ę, ~esz, ~ą, ~, ~ał, ~ali, ~ano

10a:ŻYĆżyć, ~ję, ~jesz, ~ją, ~j, ~ł, ~li, ~to

10b:GRZAĆ grzać, ~eję, ~ejesz, ~eją, ~ej, ~ał, ~eli, ~ano

10c:DĄĆdąć, ~mę, ~miesz, ~mą, ~mij, ~ął, ~ęli, ~ęto

11:NIEŚĆnieść, ~ę, ~iesz, ~ą, ~, ~ł, ~li, ~iono


Czasownik polski

Czasownik polski


Czasownik polski1

Czasownik polski


Prof dr hab marek widzi ski zak ad j zykoznawstwa komputerowego instytut j zyka polskiego uw

SGJP

  • Zasób: 250 tys. leksemów.

  • Źródło: SJP Dor., korpusy.

  • Hasła: leksemy, skróty, afiksy.

  • Informacja slownikowa: fleksyjna, podstawowa słowotwórcza, podstawowa skladniowa.

  • Leksemy nieodmienne (poza spójnikami, partykułami, przyimkami, przysłówkami):

  • dopowiedzenia (TAK, AJUŚCI, OK).

  • tzw. zaimki przysłowne: TAM, KIEDYŚ, NIGDY.

  • przysłówki lczebnikowe: SAMOWTÓR.

  • oretatory trybu:NIECH, BYLE,

  • operatory deklaratywności: NIE, ALBO, NUŻ, NO,

  • operatory adnumeratywne: NIESPEŁNA.


  • Login