html5-img
1 / 27

Valency Lexicon of Czech Verbs

Valency Lexicon of Czech Verbs. Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK. Osnova. Úvod Re šeršní část Teoretická část Praktická část Závěr. Úvod a motivace.

Download Presentation

Valency Lexicon of Czech Verbs

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Valency Lexicon of Czech Verbs Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK

  2. Osnova • Úvod • Rešeršní část • Teoretická část • Praktická část • Závěr

  3. Úvod a motivace • valence – schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury • stát – někde, o někoho, za něco, za něčím, při někom… • odpovídat – někomu na něco, za někoho, něčemu • brát – něco někomu, za něco, roha, zasvé,… • valenci lexikální jednotky nelze obecně předpovědět  pro automatické zpracování potřebujeme slovník • předpokládané možnosti využití valenčního slovníku • lemmatizace, tagging • parsing • word sense disambiguation • strojový překlad... • hlavní cíl předkládané práce: vytvořit dostatečně rozsáhlý, kvalitní valenční slovník českých sloves pro využití v NLP

  4. REŠERŠNÍ ČÁST

  5. Zkoumání valence v češtině • dva dominující teoretické směry • Teorie větných vzorců [Daneš,Hlavsa-87] • Funkční generativní popis [Sgall-67][Panevová-80] • existující data • valenční slovník BRIEF[Pala,Ševeček-97] • Český syntaktický slovník [Skoumalová-01] • Slovesa pro praxi [Svozilová et al.-97] • PDT-VALLEX [Hajič et al.-03] • VerbaLex [Hlaváčková,Horák-05]

  6. angličtina [Fillmore-02] FrameNet [Levin-93] [Kingsbury-Palmer-02] PropBank němčina [Helbig,Schenkel-69] [Erk et al.-03]SALSA polština [Polanski-92] slovenština [Nižníková,Sokolová-98] ruština [Silnickij-99] [Mel’čuk,Žolkovskij-84] ETAP [Boguslavsky-04] bulharština [Popova-87] francouzština, holandština [van den Eynde,Mertens,03] angličtina-japonština [Bond,Shirai-97] Zkoumání valence v jiných jazycích

  7. TEORETICKÁ ČÁST

  8. Struktura slovníku • základní termíny: • lexém • lexikální jednotka • lemma • m-lemma • v našem slovníku: • lexikální jednotka = formálně popsaný valenční rámec + neformálně popsaný význam + další atributy • při návrhu makrostruktury slovníku je třeba zohlednit řadu jazykových jevů: • reflexivita (brát/brát se/brát si ) • varianty lemmat (myslet /myslit) • homografie (žít I / žítII) • vidové „dvojice“ (vzít/brát/ brávat ) • determinovaná slovesa (jít /chodit)

  9. Struktura slovníkového hesla • pro každou LU • valenční rámec – posloupnost slotů • další atributy: příklad užití, glosa, typ kontroly ... • pro každý slot v rámci • funktor + obligatornost • povrchová forma

  10. Valence v syntaktických stromech:dvouvrstvý model valence • zavedení termínů pro explicitní popis výskytů rámců na tektogramatické a analytické rovině • (deep or surface) frame evoker • (deep or surface) frame slot filler • (deep or surface) frame instance • deep/surface – ve stylu t-roviny a a-roviny PDT 2.0 • zavedení termínů pro koordinační struktury • direct vs. effective children/parents/subtree root • direct vs. terminal coordination member

  11. Surface vs. deep frame evoker (1) miluje milovat (a) Jan Marii Jan Marie (b) směje smát_se Marie se mu Marie #PersPron (c) milovat milovat Jan bude Marii Jan Marie

  12. Surface vs. deep frame evoker (2) a a (d) Jan Jan dal dát dát Petrovi hrušku Marii jablko Marii jablko Petr hruška ale ale zpívat zpívat (e) nebude zpívat Jan Jan bude Marii Marii #Neg a a (f) Jan Jan bude poslouchat psát poslouchat psát hudbu dopis hudba dopis (g) bojí bát_se Jan se Jan smát smát_se #Cor

  13. Surface vs. deep frame filler(1) potkal potkat bratra bratr Jan (a) Jan svého mladšího #PersPron mladý potkal potkat a a Jan Jan (b) Marii Petra Marie Petr čekal čekat na Jan (c) Jan Marie Marii

  14. slíbil slíbit že přijít Jan Jan (d) přijde #PersPron čekal čekat na a Jan a Jan (e) Marie Petr Marii Petra čekal čekat a a Jan Jan (f) na na Marie Petr Marii Petra Surface vs. deep frame filler(2)

  15. Alternace • pozorování: u řady sloves páry velmi blízkých LU • naložit vůz cementem – cement na vůz • odevzdat nález policii – na policii • ukradl bance peníze – peníze z banky • vyčistit šaty od bláta – bláto z šatů • osázet park stromy – stromy do parku • vyjít na kopec – vyjít kopec • oloupat slupku z jablka – jablko • předpoklad: jde o pravidelné transformace (pravidelné pro skupinu sloves), jejichž znalost lze využít ke snížení redundance slovníku • trojí projev alternace • změna valenčního rámce • změna lexikálního významu • změna SFE

  16. Alternační model valenčního slovníku lexeme lexical units lexical forms CLU CLU BLU DLU … … … BLU DLU DLU CLU BLU DLU • dvě formy slovníku • minimální (BLU+alternace) • expandovaná (BLU+DLU) • zavedení nových termínů • základní lex. jednotka (BLU) • odvozená lex. jednotka (DLU) • shluk lex. jednotek (CLU)

  17. PRAKTICKÁ ČÁST

  18. Anotační schéma VALLEXu • výběr sloves ke zpracování • prostředí pro ruční editace slovníkových hesel • nástroje umožňující využití existujících jazykových zdrojů (tradiční slovníky, vzorek z ČNK...) • logická struktura slovníku (mikrostruktura a makrostruktura) • fyzická struktura slovníku - datové formáty • konverze mezi formáty • nástroje pro vyhledávání • nástroje pro testování konzistence slovníku

  19. Výběr sloves • postupné zpracování v dávkách po několika stovkách sloves (resp. m-lemmat) • hlavní kritérium – četnost podle ČNK • kumulativní pokrytí slovesných m-lemmat v ČNK:

  20. Anotační prostředí • primární podoba hesel – jednoduchý řádkově-orientovaný textový formát (regulární jazyk) • editace v textovém editoru WinEdt • režim pro zvýrazňování syntaxe

  21. Příprava slovníku pro publikaci

  22. VALLEX 1.0 • první zveřejněná verze valenčního slovníku, podzim 2003 • autoři hesel: Markéta Lopatková, Karolína Skwarska, Václava Benešová • cca 1400 sloves (cca 1000 m-lemmat), 4000 valenčních rámců • distribuce – slovník je zdarma ke stáhnutí po zaregistrování na Internetu: http://ckl.mff.cuni.cz/zabokrtsky/vallex/1.0 • neomezená licence pro výzkumné a výukové nekomerční účely

  23. Možnosti vyhledávání ve VALLEXu • v primárním textovém formátu • během anotace přímo ve WinEdt • vyhledávací WWW interface založený na regulárních výrazech • v HTML verzi (podle vybraných kritérií) • v XML verzi (např. pomocí XPath)

  24. Změny od vydání VALLEX 1.0 • kvalitativní změny (VALLEX XML, verze B) • přechod na novou terminologii (lexémy, lexikální jednotky...) • sloučení vidových protějšků • připraveno na alternační model • kvantitativní změny – současná (interní) verze VALLEX 1.5: • 1624 lexémů (1841 m-lemmat) • 4414 lexikálních jednotek

  25. ZÁVĚR

  26. Hlavní přínos práce (1) implementace anotačního schématu, zveřejnění VALLEX 1.0 (nyní cca 130 zaregistrovaných uživatelů) (2) doplnění teoretického modelu • upřesnění užívaných termínů • zavedení nových termínů pro popis instancí valenčních rámců v závislostních stromech • alternační model slovníku (3) přehled dalších projektů souvisejících s valencí

  27. Další využití dat/zkušeností/nástrojů • PDT-VALLEX [Hajič-03] • VerbaLex [Hlaváčková,Horák-05] • švédsko-český slovník verbonominálních konstrukcí [Cinková,Žabokrtský-05] • VALEVAL [Bojar et al.-05]

More Related