1 / 22

Magda Ševčíková sevcikova @ufal.mff.cuni.cz

Workshop řešitelského týmu grantu GA ČR P406/10/0875. Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality. Magda Ševčíková sevcikova @ufal.mff.cuni.cz. Souborovost v datech PDT a PDTSC

clarke
Download Presentation

Magda Ševčíková sevcikova @ufal.mff.cuni.cz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Workshop řešitelského týmu grantu GA ČR P406/10/0875 Anotace souborovosti v datech PDT a PDTSCRevize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková sevcikova@ufal.mff.cuni.cz

  2. Souborovost v datech PDT a PDTSC • Revize vybraných modálních významů v PDT • Slovesný způsob • Větná modalita

  3. Singulár a plurál v češtině: forma vs. funkce • morfologická kategorie čísla v češtině • singulárové vs. plurálové formy • význam singularity (jedna entita) vs. plurality (více než jedna entita, větší množství entit): • jedna hruška, dvě hrušky, ..., pět hrušek • jedny nůžky, dvoje nůžky, ..., patery nůžky • plurálová forma někdy neodkazujek pouhému většímu množstvíentit, ale k jejich typickému souboru / souborům (souborový význam) • př. jedna bota, dvě boty, pět bot – jedny boty, dvoje boty, patery boty • pro substantiva ruce, boty, vlasy, sirky ad. souborový význam běžný – jejich plurálová forma prototypicky označuje právě soubor / soubory • jiná substantiva se pro vyjádření souborového významu spojují se souborovou číslovkou • Najdeme-li dvoje velké stopy a mezi nimi jedny menší, řekneme si: „rodina na výletě“. (SYN2005)

  4. Souborovost jako význam substantiv • souborovost na rozdíl od pomnožnosti není vlastnost lexikální, ale je to gramatikalizovaný význam • pluralia tantum – asymetrie formy a funkce v singuláru • souborovost možná u většiny konkrétních substantiv, formálně se projevuje souborovou podobou číslovky • -> zachycovat na tektogramatické rovině (ve FGP, PDT) • souborovost úzce spojena s kategorií čísla • opozice singularita (sg) vs. pluralita (pl) v kombinaci s opozicí souborovost (group) vs. význam plurálu jednotlivin (single) • čtyři významy • sg.single … singulárové formy • sg.group, pl.single, pl.group … plurálové formy • na rukou měl kožené rukavice.sg.group, prodali mu dvě levé rukavice.pl.single, v obchodě nabízejí nejrůznější rukavice.pl.group • homonymie plurálu – zjednoznačnění • souborovou číslovkou – v PDT velmi řídké • kontextem, znalostí světa -> ruční anotace

  5. Ruční anotace souborovosti v datech PDT 2.0 • cíl • ověřit, zda je souborový význam identifikovatelný • zjistit četnost souborového významu v autentických textech • souborový význam potenciálně u všech plurálových forem všech substantiv (60 017 z 833195 tokenů anotovaných na tektogramatické rovině) • vzhledem k předpokládané nízké četnosti souborového významu takový postup neefektivní (odhad na datech SYN2005: souborový význam předpokládán zhruba u 5 % plurálových forem; v datech PDT reálně u 0,5 % plurálů) • pro anotaci vybrány plurálové formy substantiv, pro která je souborový význam prototypický

  6. Pracovní seznam substantiv k anotaci • zahrnuta substantiva, která se v PDT 2.0 a SYN2005 vyskytla po souborových číslovkách, seznam doplněn na základě mluvnic a introspekce • celkem 141 substantiv: adidaska, bačkora, bačkorka, bačkůrka, běžka, bok, bonbón, bota, botaska, botička, botka, brambor, brambora, brusle, chlup, chodidlo, cigareta, čtyřče, cvička, datle, dlaň, doklad, dřeváček, dřevák, dvojče, fík, iniciála, kanada, kapička, kapka, keks, , kel, klíč, klíček, kolej, koleno, kolínko, končetina, kopačka, kotník, kozačka, křídlo, kroupa, kšanda, kulisa, kyčel, lakýrka, ledvina, lék, lentilka, lodička, loket, lýtko, lyže, makaron, mandle, mentolka, miňonka, mokasína, ňadro, náušnice, nehet, noha, nozdra, nožička, nudle, obočí, očko, oko, oplatek, oplatka, ořech, oříšek, osmerče, pantofle, papuče, parket, parketa, paroh, partyzánka, pata, paterče ,piškot, pistácie, plátěnka, plíce, podešev, podkolenka, ponožka, pouto, prarodič, prášek, prso, prst, punčocha, punčoška, rameno, řasa, ret, rodič, roh, rolnička, rozinka, rtík, ručička, ruka, rukavice, sandál, sardinka, schod, schůdek, sedmerče, šesterče, sirka, škvarek, škvarka, šle, sluchátko, sourozenec, špageta, sparta, stehno, střevíc, střevíček, sušenka, teniska, těstovina, trojče, tyčinka, ubrousek, ucho, vlas, vločka, vráska, zápalka, zápěstí, závora, závorka, žiletka, zoubek, zub

  7. Ruční anotace souborovosti v datech PDT 2.0 • říjen 2010 až leden 2011 • paralelní anotace, dvě anotátorky • krátké zaškolení (na dálku), hlavně intuice rodilých mluvčí • příprava a vyhodnocení anotace: Lenka Smejkalová • 31 souborů • v každém zhruba 20 plurál. tvarů slov ze seznamu, slova v lineární větě + krátký okolní kontext • mezianotátorská shoda:

  8. Zachycení souborovosti gramatémem typgroup • význam souborovosti úzce souvisí s kategorií čísla • ? včlenění souborovosti do stávajícího gramatému number • změna hodnot gramatému čísla • souborovost jako zvláštní gramatém typgroup • provázaný s gramatémem number • hodnoty gramatému typgroup • single, group, nr • hodnoty gramatémů typgroup a number a anotační možnosti • prostý plurál → typgroup=single, number=pl • jeden soubor → typgroup=group, number=sg • více souborů → typgroup=group, number=pl • jeden nebo víc souborů → typgroup=group, number=nr • nerozhodnutelné → typgroup=nr, number=nr

  9. Včlenění ruční anotace, automatická anotace • uzly se sempos=n.denot|n.denot.neg • u uzlů, pro které je k dispozici ruční anotace, hodnoty gramatému typgroup vyplněny na základě anotace • změny v hodnotě gramatému number • uzly, na kterých závisí souborová číslovka, hodnota vyplněna podle dané číslovky • jedny → typgroup=group, number=sg • s vyšší hodnotou → typgroup=group, number=pl • u ostatních uzlů vyplnit typgroup=single • number beze změny • --> PDT 2.5

  10. Ruční anotace 1. části dat PDTSC • jaro 2011, paralelní anotace (tytéž anotátorky) • 585 výskytů • Malach: 359 • Companions: 226

  11. Ruční anotace 2. části dat PDTSC • jaro 2012, paralelní anotace (výměna jedné anotátorky) • 1957 výskytů (Malach, Companions)

  12. Publikace • Ševčíková Magda, Panevová Jarmila (2011): Anotace souborového významu substantiv v datech Pražského závislostního korpusu. Ústní prezentace v rámci Semináře formální lingvistiky, ÚFAL MFF UK, 7. března 2011 • Panevová Jarmila, Ševčíková Magda (2011): Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. In: Slovo a slovesnost, 72, s. 163–176. • Ševčíková Magda, Panevová Jarmila, Smejkalová Lenka (2011): Specificity of the number of nouns in Czech and its annotation in Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics, 96, pp. 27–47. • Panevová Jarmila, Ševčíková Magda (2011): Delimitation of information between grammatical rules and lexicon. In: Proceedings of the International Conference on Dependency Linguistics (Depling 2011), Universitat Pompeu Fabra, Barcelona, pp. 173–182. • Ševčíková Magda, Panevová Jarmila, Žabokrtský Zdeněk (2010): Grammatical number of nouns in Czech: linguistic theory and treebank annotation. In: NEALT Proceedings Series, Vol. 9, Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories (TLT 2010). Tartu, Estonia, pp. 211–222.

  13. Slovesný způsob v PDT 2.0 • slovesný způsob v PDT 2.0 zachycen gramatémem verbmod • hodnoty ind, imp, cdn • rozdíl mezi kondicionálem přítomným a minulým zachycen hodnotou gramatému tense(cdn+sim, cdn+ant) • kondicionál po aby a kdyby anotován jako indikativ – víc než1600 chybně anotovaných tvarů kondicionálu přítomného (ind+ant) • poloautomatická anotace (ZŽ, MŠ, 2005/6)

  14. Nový gramatém slovesného způsobu • gramatém verbmod nahrazen gramatémem factmod • „factual modality“ / skutečnostní modalita (dizertace 2009): rozdíl neimperativní formy vs. imperativ • použitím neimperativní formy prezentuje mluvčí daný děj jako reálný (indikativ) nebo podmíněně platný (realizovatelný–kond. přít. vs. nerealizovatelný–kond. min.) • imperativ vyjadřuje rozkaz/žádost/zákaz atd. mluvčího vůči někomu, tj. komunikační funkci výpovědi • pro factmod definovány 3 hodnoty • asserted (indikativ), potential (kond. přít.), irreal (kond. min.) • imperativ vyřazen • implementace: 4 hodnoty • asserted, potential, irreal, appeal (imperativ) • --> PDT 3.0

  15. Vyplňování gramatému factmod • poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) • factmod náleží stejným uzlům jako verbmod • využívány informace z morfologické roviny, konfrontovány s hodnotami verbmod • gramatém factmod vyplněn „lépe“ než verbmod (př. budiž řečeno jako imperativ) • opraveny jednotlivé chyby v tektogramatické anotaci • manuální kontrola výpisů (př. kondicionál po aby/kdyby s tense=ant)

  16. Hodnoty gramatému verbmod v trénovacích datech PDT 2.0 vs. factmod v trénovacích datech PDT 2.x

  17. Větná modalita jako význam věty • modální význam „celé věty“ (česká i zahraniční literatura o modalitě) • oznámení vs. otázka vs. rozkaz, popř. další • větná modalita ve FGP a PDT • oznámení, otázka, rozkaz, přání, zvolání • kombinace formálních prostředků (slovesný způsob, koncová interpunkce, částice) • koordinované klauze mohou mít různou modalitu • př. Ty tam jdi, ale já zůstanu doma. Poprvé jste nastoupil v závěru zápasu v Benešově, jaké to bylo? • gramatém sentmod • hodnoty enunc, inter, imper, desid, excl

  18. Větná modalita v PDT 2.0 • poloautomatická procedura (ZŽ, MŠ, 2005/6) • sentmod vyplněn • u přímého potomka technického kořene • PRED • DENOM • nodetype=coap • u kořene vsuvky (PAR) • př. Pane kolego, věřte.imper nevěřte.imper, počítač nelže.enunc. • u kořene přímé řeči (is_dsp_root=1) • př. Kam se poděla.inter má bojovnost? ptala se.enunc po sama sebe po utkání Martinezová. • „algoritmus“ • pokud jeden z analytických protějšků morf. tag Vi.* -> sentmod=imper • pokud mezi dětmi analytického protějšku otazník -> sentmod=inter • pokud ve větě ať, kéž, nechť nebo na konci otazník -> ruční anotace (desid/excl/imper;92 uzlů v trénovacích datech) • zbytek uzlů: sentmod=enunc

  19. Větná modalita nově pro PDT 3.0 • gramatém i sada hodnot stejné jako v PDT 2.0 • poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) • rozšíření množiny uzlů, u kterých vyplňován sentmod • ze sady kandidátských uzlů • přímý potomek technického kořene • kořen vsuvky (PAR) • kořen přímé řeči (is_dsp_root=1) • kořene názvu (ID) • test: každý imperativní slovesný tvar součástí klauze s imperativní větnou modalitou • př. Zítra bude u příležitosti III. výročí české a slovenské edice Playboy otevřena.enunc výstava Pohlad'te.imper si králíčka sestavená z ilustrací pro časopis Playboy. • vyjmuty uzly s nodetype=coap, anotovány zvlášť • u uzlů, které nebyly kořenem koordinace, aplikován algoritmus • ruční anotace u 82 uzlů (v trénovacích datech)

  20. Větná modalita v koordinacích • v trénovacích datech PDT 2.x 7598 coap uzlů řídících 17320 kořenů koordinovaných klauzí (efektivní děti s is_member=1) • pokud uzel reprezentuje imperativní slovesnou formu -> sentmod=imper • manuální anotace: • kořeny klauzí koordinovaných s imperativními klauzemi • kořeny koordinovaných klauzí, které byly součástí vět zakončených otazníkem • otazník se vztahuje jen k poslední klauzi • kořeny koordinovaných klauzí, které byly součástí vět zakončených vykřičníkem nebo obsahovaly ať, kéž, nechť • celkem 268 uzlů, paralelní anotace (shoda 93,7%, kappa 0,89) • ostatní věty obsahující koordinované klauze končily tečkou (popř. bez interpunkce, třemi tečkami apod.) a obsahovaly jen klauze s indikativní nebo kondicionálovou formou • ve 100 náhodně vybraných větách jen klauze se sentmod=enunc • automatické přiřazení hodnoty enunc

  21. Větná modalita v PDT 2.0 a PDT 2.x

  22. Větná modalita v PDT 2.0 a PDT 2.x

More Related