1 / 30

Automatická předanotace TFA v české části PCEDT

Automatická předanotace TFA v české části PCEDT. GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu) GAP406/12/0658 (Koreference, diskurs a aktuální členění v kontrastivním pohledu).

ledell
Download Presentation

Automatická předanotace TFA v české části PCEDT

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatická předanotaceTFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu) GAP406/12/0658 (Koreference, diskurs a aktuální členění v kontrastivním pohledu)

  2. Anotace na tektogramatické rovině Pražského závislostního korpusu (Mikulová a kol. 2005) – kapitola „Aktuální členění“ • Eva Hajičová, Jiří Mírovský, Kateřina Rysová, Magdaléna Rysová • https://wiki.ufal.ms.mff.cuni.cz/external:pcedt:tfa

  3. Generované uzly • generované uzly, které nemají analytický protějšek (tj. nejsou to kopírované uzly) a které navíc nejsou RHEM ani #Forn, dostávají automaticky hodnotu tfa="t„ • očekávaná chybovost: 0 • „Proč David Dinkins,“ říká kritik, „vždycky vyčkává, dokud není chycen při činu?“

  4. Generované uzly • generované uzly, které jsou členy koordinace/apozice a mají analytický protějšek (není to tedy např. #Forn), dostávají automaticky hodnotu tfa="t„ • očekávaná chybovost: 0 • „Nyní,“ říká Joseph Napolitan, průkopník politické televize, „je cílem jít do útoku jako první, poslední a [jít] vždycky.“

  5. Koreference • uzly, ze kterých vede gramatická, textová či segmentová koreference, dostávají automaticky hodnotu tfa="t" • očekávaná chybovost: 1:100 • A Dinkinspodle svých slov nevěděl, že muž, kterého platili v rámci kampaně za přesvědčování voličů k účasti, byl odsouzen za únos.

  6. Uzly PRED • uzly PRED, které nejsou generované a jejichž t_lemma se nenachází v předchozí větě, dostávají automaticky hodnotu tfa="f" • očekávaná chybovost: 1:40 • „Pamatujete si na Pinocchia?,“ říká ženský hlas.

  7. Uzly PRED • generované uzly PRED dostávají automaticky hodnotu tfa="t" • očekávaná chybovost: 1:100 • Na obrazovce vidíme dvě zkreslené rozmazané fotografie, pravděpodobně [vidíme] fotografie dvou politiků.

  8. Ostatní slovesné uzly • ostatní slovesné uzly (gram/sempos="v"), které mají jako funktor jednu z hodnot (ADDR|AIM|CAUS|ACMP|MANN|PAT|EFF|AUTH|BEN|COMPL|EXT|ORIG|RESL|TFHL|TSIN), dostávají automaticky hodnotu tfa="f" • očekávaná chybovost: maximálně 1:10 • „Porovnejte tyto dva kandidáty na starostu,“ říká hlasatel.

  9. Uzly PARTL|DENOM|MOD|EXT • uzly, které mají jako funktor jednu z hodnot (PARTL|DENOM|MOD|EXT), dostávají automaticky hodnotu tfa="f" • očekávaná chybovost: maximálně 1:10 • Na obrazovce vidíme dvě zkreslené rozmazané fotografie, pravděpodobně fotografie dvou politiků.

  10. Uzly RHEM • uzly, které mají jako funktor hodnotu RHEM a nejsou na první pozici ve větě, dostávají automaticky hodnotu tfa="f" • očekávaná chybovost: 1:10 • Letošek je rokem, kdy se negativní reklama, po léta přítomná ve většině politických kampaní jen druhotně, stala hlavní událostí.

  11. „Tady“ • uzly s t_lemma="tady" dostávají automaticky hodnotu tfa="t„ • očekávaná chybovost: 1:10 • Ředitelka Wardová se rozhodla zbavit se „balastu“ v učitelském sboru a obnovit bezpečnost a také tu byly další nové faktory, které pracovaly v její prospěch.

  12. Neurčitý člen • uzly, které jsou českými protějšky anglických uzlů, které na povrchu stojí za slovesem a mají u sebe neurčitý člen, dostávají automaticky hodnotu tfa="f" • očekávaná chybovost: neznámá

  13. THE WAR OVER FEDERAL JUDICIAL SALARIES takes avictim. • VÁLKA O PLATY FEDERÁLNÍCH SOUDCŮ si žádá svou první oběť.

  14. Poté, co jsou aplikovány všechny předchozí kroky:

  15. Synové ohniskového slovesa • synové slovesa, které má tfa="f" a které ve své klauzi není na první či druhé pozici, dostávají automaticky hodnotu tfa="f„, pokud stojí v povrchovém slovosledu za slovesem • očekávaná chybovost: neznámá • Na konci druhé světové války se Německo vzdalodříve než Japonsko...

  16. Uzly RSTR • RSTR synové uzlů, které mají tfa="f", dostávají automaticky hodnotu tfa="f„ • očekávaná chybovost: 1:30 • Zasedání společného výboru sněmovny a senátu se koná v případě, že sněmovna a senát schválí zákon v odlišné podobě.

  17. Děkujeme za pozornost

More Related