1 / 46

Daniela Gîfu daniela.gifu@info.uaic.ro

Semantica și pragmatica limbajului natural. Daniela Gîfu daniela.gifu@info.uaic.ro. Cursul nr. 5. Tezaur lingvistic. Tezaur lingvistic – Definiție. - un tip de dicţionar în care cuvintele cu sensuri asemănătoare sunt grupate la un loc (cf. Online Cambridge Dictionary).

brooke
Download Presentation

Daniela Gîfu daniela.gifu@info.uaic.ro

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Semanticași pragmatica limbajului natural Daniela Gîfu daniela.gifu@info.uaic.ro

  2. Cursul nr. 5 Tezaurlingvistic

  3. Tezaur lingvistic – Definiție • - un tip de dicţionar în care cuvintele cu sensuri asemănătoare sunt grupate la un loc (cf. Online Cambridge Dictionary). • - totalitatea cuvintelor unei limbi (fr., lat., thesaurus) – cf. www.archeus.ro,sursă neoficială?! • - o «Catedrală a Neamului» în materie de lingvistică, deşi, în esenţă, aş putea spune că nu este vorba doar de lingvistică, ci şi de patrimoniul spiritual în sensul cel mai larg şi mai adânc", George Pruteanu, despre "Dicţionarul Academiei". 

  4. Tezaurul Roget - istoric • http://thesaurus.com/browse/home • 1805 - Peter Mark Roget, un medic, a început să clasifice în scristermenii și expresiile pentru uzul său personal. • 1852 – prima publicare a Tezaurului Roget (15.000 cuvinte). • a cunoscut adăugiri succesive (urmaşi ai lui Roget, alţi specialişti), ultima ediție, 1987, peste 1.250.000 de cuvinte(v. Kendall, 2008).

  5. Tezaurul Roget - descriere • organizarea materialului lingvistic - în clase; • fiecare clasă - o ierarhie internă, asemănătoare unui arbore cu multiple ramificaţii pentru grupuri de sensuri. • scopul – să faciliteze găsirea cuvintelor înrudite semantic (sinonime, antonime, hiperonime, hiponime)şi să ajute la alegerea celui mai potrivit cuvânt pentru exprimarea sensului dorit de utilizator.

  6. Tezaurul VerbNet • VerbNet (Kipper , 2005) - una dintre resursele lexicale dezvoltate pentru limba engleză. Este un lexicon independent, care oferă informații semantice și sintactice despre verbele englezesti. • VerbNet constă în clase verbale Levin (Levin, 1993); mapări la Princeton WordNet (WordNet.Pr ) ( Fellbaum, 1998) . • în special pentru cadre semantice(verbele aparțin mai multor clase VerbNet, fiecare clasă corespunde unui sens difierit al verbului). • un clasificator VerbNet - esențial pentru aplicațiile curente folosind resurse;poate constitui baza pentru un sistem de analiză semantică profundă. • etichetarea cadrelor verbale - o precizie de 88.67%, cu verbe MultiClass, care este o reducere a erorii cu 49% a celor mai frecvente clase de bază.

  7. Descriere VerbNet • http://verbs.colorado.edu/~mpalmer/projects/verbnet.html VerbNetAnnotationGuidelines 1. WhyVerbs? 2. VerbNet:A VerbClassLexicalResource 3. VerbNetContents a. The Hierarchy b. SemanticRoleLabelsandSelectionalRestrictions c. SyntacticFrames d. SemanticPredicates 4. Annotation Guidelines a. DoestheInstanceFittheClass? b. AnnotatingVerbsRepresentedin MultipleClasses c. Thingsthatlooklikeverbsbutaren’t: Nouns; Adjectives d. Auxiliaries e. LightVerbs f. FigurativeUsesofVerbs

  8. VerbNet:AVerb Class LexicalResource • 5800 verbe și grupuri verbale (En) • 270 clase verbale, după clasificarea lui BethLevin: o sg. clasă de verbe – locativealternation(sprayverbs)orthecausativealternation(wrinkleverbs)etc. Ex: spray class 9.7 (scatter,pump,hang,drizzle, cram -verbe care implică același tip de acoperire semantică).

  9. Componente ale claselor verbale VerbNet

  10. Componente ale claselor verbale VerbNet

  11. Componente ale claselor verbale VerbNet

  12. Componente ale claselor verbale VerbNet

  13. Ierarhia verbelor - VerbNet

  14. Ierarhia verbelor - VerbNet

  15. Ierarhia verbelor - VerbNet

  16. Ierarhia verbelor - VerbNet

  17. Ierarhia verbelor - VerbNet

  18. Ierarhia verbelor - VerbNet

  19. Ierarhia verbelor - VerbNet

  20. Ierarhia verbelor - VerbNet

  21. Ierarhia verbelor - VerbNet

  22. Ierarhia verbelor - VerbNet

  23. Ierarhia verbelor - VerbNet

  24. Ierarhia verbelor - VerbNet

  25. Ierarhia unei clase verbale - VerbNet

  26. Componentele unei clase verbale VerbNet Ex: clasa 9.7 – nu conține membri, dar cu cadre de la alte verbe

  27. Componentele unei clase verbale VerbNet

  28. Roluri semantice și restricții Roluri semantice - "cine, ce, cum, când și unde?“ Ex: a. Sandyshatteredtheglass. b. Theglassshattered. a. [Sandy]shattered[theglass.] [AGENT] [PATIENT] b. [Theglass] shattered. [PATIENT] Restricțiile pot fi combinate cuoperatori ca: (OR) și (AND). Aceste restricții indica existenta (+) sau absența (-) de proprietăți, cum ar fi:[CONCRETE],[ANIMATE], [ORGANIZATION] etc. – o parte a etichetei rolului semantic al unei clase specifice.

  29. Roluri semantice și restricții

  30. Roluri semantice și restricții Rolul semantic Stimulus – ex. în ambele clase verbale: peer-30.3and addict-96

  31. Tabel – Roluri semantice în VerbNet

  32. Tabel – Roluri semantice în VerbNet

  33. Tabel – Roluri semantice în VerbNet

  34. Tabel – Roluri semantice în VerbNet

  35. Tabel – Roluri semantice în VerbNet

  36. Alinierea la alte limbi - Brazilia • Dezoltare - Carolina Evaristo Scarton & Sandra Maria Aluísio, Center of Computational Linguistics (NILC), Universidade de São Paulo (USP). • De ce?: construirea de interpretoare semantice (Shi și Mihalcea, 2005); dezambiguizare de sens (Girju et al, 2005) etc. • Studii lingvistice (Cancado, 1996, Ávila, 2006, Ciriaco, 2007, Moraes, 2008, Godoy, 2009; Amaral, 2010 ). • scop - crearea VerbNet - Br, o resursă lexicală pentru portugheză braziliană, cu aceleași caracteristici ca la VerbNet. • tehnici de dezvoltare - învățare automată pe un corpus de antrenare (Merlo et al, 2002; Joanis și Stevenson, 2003; Ferrer, 2004; Kipper et al, 2006 etc.) și reutilizarea resurselor dezvoltate în altă limbă (engleză), v. clasele Levin (Jackendoff , 1980; Merlo et al , 2002; Du et al , 2010).

  37. Linkuri – WordNet – Br. • VerbNet - A Class-Based Verb Lexicon: http://verbs.colorado.edu/~mpalmer/projects/verbnet.html • Unified Verb Index: http://verbs.colorado.edu/verb-index/index.php • Automatic extraction of SCF for Portuguese:http://143.107.232.109/scf_port/

  38. Alinierea la alte limbi - România • România • Implementarea – FII & Academia Română. • Unde? – a început la Tabăra de toamnă EUROLAN-2013, Ipotești. • Temă – clasă. Se instalează NotePad++ EDTLR – 85.122.23.96 alinierea cadrelor din clasificatorul de verbe VerbNet (En) la VerbNet (Ro)

  39. E-DTLR

  40. Referințe bibliografice • Kendall, Joshua C.(2008)The Man Who Made Lists : Love, Death, Madness,and the Creation of Roget’s Thesaurus, G. P. Putnam’s Son, New York. • Barbu Mititelu, V., Ceauşu, Al., Ion, R.,Irimia, E., Ştefănescu, D., Tufiş, D. (2009) Resurse lingvistice pentru un sistem de întrebare-răspunspentru limba română, Revista Română de Interacţiune Om-Calculator 2, pp. 1-17. • Amaral, L. L. (2010): O Verbos de Modo de Movimento no Português Brasileiro. 53f. Trabalho de Conclusão de Curso (Bacharel em Letras) – Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte. • Ávila, M. C. (2006): Propriedades semânticas e alternâncias sintáticas do verbo: um exercício exploratório de delimitação do significado. 114f. Dissertação (Mestrado em Letras) – Faculdade de Ciências e Letras, Universidade Estadual Paulista, Araraquara.

  41. Referințe bibliografice • Cançado, M. (1996): Verbos Psicológicos: Análise Descritiva dos Dados do Português Brasileiro. Revista de Estudos da Linguagem, v. 4, n. 1, pp. 89-114. • Ciríaco, L. S. (2007): A alternância causativo/ergativa no PB: restrições e propriedades semânticas. 114f. Dissertação (Mestrado em Linguística) – Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte. • Fellbaum, C. (1998). WordNet: An electronic lexical database. MIT Press. Cambridge, Massachusetts. • Ferrer, E. E. (2004): Towards a semantic classification of Spanish verbs based on subcategorisation information. In Proceedings of the Workshop on Student research (ACLstudent 2004), in conjunction with ACL 2004. Barcelona, Espanha.

  42. Referințe bibliografice • Girju, R., Roth, D. e Sammons, M. (2005): Token-level disambiguation of VerbNet classes. In Proceedings of Interdisciplinary Workshop on the Identification and Representation of Verb Features and Verb Classes. Saarbruecken, Germany. • Godoy, L. (2009): Verbos Psicológicos: Análise Descritiva dos Dados do Português Brasileiro. ALFA – Revista de Linguística, v. 53, n. 1, pp. 283-299. • Jackendoff, R. (1990): Semantic Structures. MIT Press. Cambridge, Massachusetts. • Joanis, E. e Stevenson, S. (2003): A general feature space for automatic verb classification. In Proceedings of the 10th conference on European chapter of the Association for Computational Linguistics (EACL 2003). Budapest, Hungria, pp. 163-170.

  43. Referințe bibliografice • Kipper, K. (2005): Verbnet: A broad coverage, comprehensive verb lexicon. 146f. Ph.D. Thesis (Philosophy) - University of Pennsylvania, USA. • Kipper K., Korhonen A., Ryant N. e Palmer, M. (2006): Extending VerbNet with Novel Verb Classes. In Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC 2006). Genoa, Itália. • Levin, B. (1993): English Verb Classes and Alternation, A Preliminary Investigation. The University of Chicago Press. • Merlo, P., Stevenson, S., Tsang, V. e Allaria, G. (2002): A multilingual paradigm for automatic verb classification. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL 2002). Philadelphia, PA, USA, pp. 207-214.

  44. Referințe bibliografice • Moraes, H. R. (2008): Aspectos sintaticamente relevantes do significado lexical: estudo dos verbos de movimento. 171f. Tese (Doutorado em Linguística e Língua Portuguesa) – Faculdade de Ciências e Letras, Universidade Estadual Paulista, Araraquara. • Shi, L. e Mihalcea, R. (2005): Putting pieces together: Combining FrameNet, VerbNet and WordNet for robust semantic parsing. In Proceedings of 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2005). Cidade do México, México, pp. 99-110. • Zanette, A.  (2010): Aquisição de Subcategorization

  45. Vă mulţumesc!

More Related