ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni - PowerPoint PPT Presentation

slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni PowerPoint Presentation
Download Presentation
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni

play fullscreen
1 / 37
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni
117 Views
Download Presentation
walt
Download Presentation

ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓW Proseminarium doktoranckie 2013/2014, semestr letni

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH I KORPUSY TEKSTÓWProseminarium doktoranckie2013/2014, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: m.r.swidzinski@uw.edu.pl Konsultacje:wt 15.30-16.30, pok. 1 Strona internetowa: www.mswidz.republika.pl

  2. Spotkanie 2 Homonimia.

  3. Defekty języka naturalnego Znak = <Forma, Treść> Ideał Znak1 = <Forma1, Treść1> Znak2 = <Forma2, Treść2> …… Znakn = <Forman, Treśćn>

  4. Defekty języka naturalnego Rzeczywistość a. Znak1 = <Forma1, Treść1> => wariancja Znak2 = <Forma2, Treść1 ….. b. Znak1 = <Forma1, Treść1> => neutralizacja Znak2 = <Forma1, Treść2> …..

  5. Defekty języka naturalnego a. wariancja to SYNONIMIA b. neutralizacja to HOMINIMIA

  6. Homonimia w życiu Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka.

  7. Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosławpiórka, wydała zapół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20

  8. Homonimia w życiu 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosław piórka, wydała zapół-Turka, żeby wyciągnąć Serockzbłocka. 14 : 20

  9. Homonimia w życiu 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka?

  10. Homonimia w życiu 268. Degenerat zosadyWysoka żonieswojejnie wybił dziśoka. Jednym bowiem zopuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26

  11. Homonimia w życiu 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy.

  12. Homonimia w życiu 408. Pewien łobuz zTuluzy wkłada zwyklerajtuzy, śpiesząc dozamtuza, których jest Tuluza pełna – od tampośluzy. 11 : 18

  13. Homonimia naukowo

  14. Homonimia naukowo

  15. Homonimia naukowo PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121.

  16. Homonimia naukowo PU*1 sztuka utraciLaswojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501siEkoncert111wybitnej221niegdys‘ s'piewaczki121 i nie us'wietniAgo42 nawet nigdy dotAd nie wykonywane212utwory112genialnego221 kompozytora121. sLuchaczemys'lA5 o66 czym46 innym261, rozmawiajAo66 czym46 innym261 i s'piewaczka, postarzawszy501siE, gLos141straciLa. nie było dotAdtakich222 koncertOw u62 iwaszkiewicza/121. 26 : 47

  17. Homonimia naukowo Homonimia —równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakamichłopakami do butów. nie: CHŁOPAK1, CHŁOPAK2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny.

  18. Homonimia naukowo Homoforma —słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999).

  19. Homonimia naukowo Homonimia — problem NOWY. ● Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (falsefriends) System —potencja. Strukturalista rejestruje funkcje / opozycje. Kształty —nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!!

  20. Homonimia naukowo ● Wyzwanie NLP. Przetwarzanie tekstów JN. Główny problem —ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów —wielkie. Stąd: analiza musi być automatyczna. Homonimia —główne wyzwanie.

  21. Analiza fleksyjna • toniemy a.  TONĄĆ b. czas;1,m,ter ciem a.  ĆMA b. rzecz,żeń;D,m bowiem a.  BOWIEM b. spój;- • Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz: http://sgjp.pl/demo/morfeusz

  22. Rozwiązanie homonimii W tekście — homoformy bardzo częste. • tonie 1.  TONĄĆ, czas;3,p,ter 2.  TOŃ, rzecz.żeń.;M,m 3.  TOŃ, rzecz.żeń.;B,m 4.  TOŃ, rzecz.żeń.;W,m 5.  TON, rzecz.mnż.;Ms,p 6.  TON, rzecz.mnż.;W,p 7.  TONA, rzecz.żeń.;C,p 8.  TONA, rzecz.żeń.;Ms,p

  23. Rozwiązanie homonimii • Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) • Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6)

  24. Rozwiązanie homonimii • Homonimia w węższym sensie: międzyparadygmatyczna. • Synkretyzm: homonimia wewnątrzparadygmatyczna. • Rozwiązanie homonimii w węższym sensie: dehomonimizacja. • Rozwiązanie synkretyzmu: desynkretyzacja.

  25. Rozwiązanie homonimii • „Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. • „Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. • Rzeczywisty cel analizy automatycznej: wybór opisu właściwego.

  26. Grant, AMOR, Składak • Grant KBN nr 5 H01D 019 20: Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik: Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko • Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf

  27. Grant, AMOR, Składak Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004

  28. Homonimia i synkretyzm Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. • Homonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne • Synkretyzmy: „systemowe” seryjne przewidywalne

  29. Homonimia i synkretyzm • Homonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka  FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple  CZAPLA lub CZAPLI Model rzadki

  30. Homonimia i synkretyzm c. Model -li(Vp-Vł): pili  PILIĆ lub PIĆ Model rzadki d. Model -ej(Vp-Adv) : jaśniej  JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki  DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany

  31. Homonimia i synkretyzm • Synkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp)

  32. Słownik AMOR-a W systemie i tekście

  33. przymiotniki gr. II • 2855 • żeński gr. IV • 1234 • męski gr III • 878 • żeński gr. III • 832 • męski gr IV • 786 • czasownik gr. 5c • 738 • czasownik gr. I • 599 • czasownik gr. 6a • 515 • nijaki gr. I • 482 • czasownik gr. 3 • 465 W systemie i tekście • W słowniku AMOR-a

  34. W systemie i tekście • W korpusie PWN

  35. Podsumowanie • RH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. • Różne cele: techniczny, leksykograficzny, składniowo-semantyczny. • Trzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa.

  36. Podsumowanie a. bezskładniowa: .......... brać .................. brać to raczej FW czasownika BRAĆ1 niż rzeczownika BRAĆ2; .......... dziewczynie ............ dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa: ............. dobrym tonie ............: TON, Msp (ale: Jan w kajaku dobrym tonie.) .............. w tonie ............: TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa

  37. Podsumowanie Wszystkie drogi prowadzą do składni!!!