1 / 38

Descrierea limbii rom â ne în GRAALAN

Descrierea limbii rom â ne în GRAALAN. * SOFTWIN. 1. GRAALAN. Sistemul GRAALAN se bazează pe Generative Dependency Grammars (GDG) – Gramatici Generative de Dependenţe . Acest tip de gramatici utilizează arbori de dependenţe ( dependency trees - DT ) şi un proces generat iv .

leann
Download Presentation

Descrierea limbii rom â ne în GRAALAN

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Descrierea limbii române în GRAALAN *SOFTWIN

  2. 1.GRAALAN Sistemul GRAALAN se bazează pe Generative Dependency Grammars (GDG) – Gramatici Generative de Dependenţe. Acest tip de gramatici utilizează arbori de dependenţe (dependency trees - DT) şi un proces generativ. Principiile acestor tipuri de gramatici sunt implementate în limbajul dedicat, GRAALAN, care este un limbaj declarativ folosit pentru a descrie cunoştinţele lingvistice. Descrierea gramaticii unei limbi în GRAALAN se bazează pe GDG şi AVT (Attribute Value Tree – un tip de arbori folosit pentru a descrie morfologia limbilor naturale). Sistemul GRAALAN

  3. 2.1. Secţiuni GRAALAN - Alfabetul Alfabetul • Defineşte toate simbolurile folosite într-o limbă • alfabet normal • caractere fonetice • simboluri speciale • caractere pentru accent • Defineşte structura alfabetului unei limbişi relaţiile dintre tipurile de simboluri • grupuri • clase

  4. 2.1. Secţiuni GRAALAN – Alfabetul limbii române

  5. 2.2Secţiuni GRAALAN – Configuratorul Morfologic Configuratorul morfologic • Descrie structura morfologică a unei limbi • Organizat sub forma unui arbore atribut-valoare (AVT) • nodurile “atribut”: categorii morfologice • nodurile “valoare”: valori ale categoriilor morfologice • Alte tipuri de informaţii ataşate fiecărui nod: • abrevierea • categoria – flexionabilă sau nu • forma este lemă sau nu • forma este supliment sau nu

  6. 2.2Secţiuni GRAALAN – Configuratorul Morfologic al limbii române masculin gen feminin neutru substantiv singular număr clasa plural singular verb număr plural

  7. 2.2Secţiuni GRAALAN – Configuratorul Morfologic al limbii române Tree [clasa / name = Clasa, abbreviation = Cls, inflection = no / = substantiv / name = Substantiv, abbreviation = Subst, lemma = yes, lexicon = input / [tip substantiv / name = TipSubstantiv, abbreviation = TipSubst, inflection = no / = comun / name = Comun, abbreviation = Com, lemma = yes, lexicon = input / , propriu / name = Propriu, abbreviation = Pr, lemma = yes, lexicon = input / ] [animatie / name = Animatie, abbreviation = Animat, inflection = no / = animat / name = Animat, abbreviation = Anim, lemma = yes, lexicon = input / , inanimat / name = Inanimat, abbreviation = Inanim, lemma = yes, lexicon = input / ] ………

  8. 2.2Secţiuni GRAALAN – Configuratorul Morfologic al limbii române Statistici Configurator Morfologic pentru Limba Română:

  9. 2.2Secţiuni GRAALAN – Configuratorul Morfologic al limbii române Statistici Configurator Morfologic pentru Limba Română:

  10. 2.3Secţiuni GRAALAN – Lexiconul Lexiconul • Conţine cuvinte, expresii şi structuri lexicale/ morfologice/ sintactice • Tipuri de intrări: • cuvinte – lema(supliment, formă de cuvânt) • morfeme (prefixe, sufixe, etc.) • expresii formate din mai multe cuvinte • structuri morfologice analitice şi sintetice

  11. 2.3Secţiuni GRAALAN – Lexiconul Lema este un tip de intrare care are ataşate atât informaţii semantice, cât şi de natură morfologică: Lexicon lema Listă situaţii de flexiune Situaţia de flexiune supliment 2 Situaţia de flexiune supliment 3

  12. 2.3Secţiuni GRAALAN – Lexiconul limbii române Entry00017711: Entry word lemma Text "cântec" Phonetic "kˈɨntek" Syllabification Euphonic "cân/tec" Phonetic "kˈɨ/ntek" Gloss "Şir armonios de sunete emise cu vocea sau cu un instrument" Morphology Inflection situation SubstTipComunInaniNeutrNomSg Inflection rule Flex_SubstNeutru Supplement Text "cântece" Phonetic "kˈɨnteʧe" Number 2 Syllabification Euphonic "cân/te/ce" Phonetic "kˈɨ/nte/ʧe" Morphology Inflection situation SubstTipComunInaniNeutrNomPl Markers x end of entry

  13. 2.3Secţiuni GRAALAN – Lexiconul Multiword entry (MWE) Text (normal şi fonetic) Semantică (sensuri, relaţii semantice, exemple...) Arbore de dependenţe Secţiune sintactică Neterminal AVT + Listă de relaţionare + Secţiune de dependenţe Relaţie RS/RC AVT + Listă de relaţionare +

  14. 2.3Secţiuni GRAALAN – Lexiconul limbii române ... T2:"voce" invariable [clasa = subtantiv] [tip substantiv = comun] [animatie = inanimat] [gen = feminin] [numar = singular] [caz = acuzativ] [articulare = hotarat] Subordonate R1 DependencyR1:@vb-complement@() Entry_83: Entry multiword Text "a ridica vocea" Phonetic “’a ridik’a v’oʧa“ Syntax T1:"a ridica" partial variable [clasa = verb] [conjugarea = I] [personal sau impersonal = personal] [reflexivitate = nereflexiv] [predicativitate = predicativ] [tranzitivitate = tranzitiv] [diateza = activa, pasiva [forma pasiva = pasiv reflexiv] ] Subordonate R1 ...

  15. 2.3Secţiuni GRAALAN – Lexiconul limbii române Exemplu arbore de dependenţe a ridica - parţial variabil - relaţie de subordonare -invariabil vb-complement voce

  16. 2.3Secţiuni GRAALAN – Lexiconul limbii române 76.337 de leme 66.504 de leme formate dintr-un singur cuvânt 9.833 de leme formate din mai multe cuvinte 106.560 de suplimente 12.778 de expresii.

  17. 2.4Secţiuni GRAALAN – Regulile de silabisire Regulile de silabisire • Set de reguli de despărţire în silabe a cuvintelor pentru forma scrisă (alfabet normal) şi vorbită (alfabet fonetic). • Tipuri de silabisire: • silabisire eufonică • silabisire fonetică • silabisire morfologică

  18. 2.4Secţiuni GRAALAN – Regulile de silabisire ale limbii române • 723 de reguli de silabisire eufonică • 723 de reguli de silabisire fonetică Notă: &vowel; sau &semivowel; sunt etichete care referenţiază entităţi din secţiunea alfabet, cum ar fi caractere alfabetice şi fonetice, grupuri sau clase.

  19. 2.5Secţiuni GRAALAN – Regulile de flexiune Regulile de flexiune • Conţin acţiunile folosite pentru a genera formele flexionate • Tipuri de reguli de flexiune: • reguli simple:formate dintr-un AVT şi o regulă de transformare elementară ataşată fiecărei frunze a AVT-ului • reguli compuse: fiecare cuprinde o listă de reguli simple

  20. 2.5Secţiuni GRAALAN – Regulile de flexiune Lexicon Inflection rules Regulă compusă Lemă Regulă de flexiune simplă AVT Formă de flexiune referinţă Condiţie Secvenţă de transformări alfabet normal Variant Secvenţă de transformări alfabet fonetic DT / AVT (formeanalitice)

  21. 2.5Secţiuni GRAALAN – Regulile de flexiune ale limbii române Basic RuleVb_indicativ1: [clasa = verb] [conjugarea = a treia] [...] [tranzitivitate = tranzitiv, intranzitiv] [diateza = activa] [mod = indicativ] [timp = prezent [afirmativ sau negativ = afirmativ [numar = singular [persoana = intai(EtV20:on lemma 3 alphabeticinsert word left "am" [clasa = verb] [conjugarea = a doua] [predicativitate = nepredicativ] [tip nepredicativ = auxiliar] [numar = singular] [persoana = intai] reference Aux02 @aux-vb@ phonetic insert word left "&primary_stress;&open_central_unrounded;&bilabial_nasal;" , a doua … , a treia…] , plural … ] ]

  22. 2.5Secţiuni GRAALAN – Regulile de flexiune ale limbii române Basic Rule Subst_masc1: [clasa = substantiv] [tip substantiv = comun] [animatie = animat, inanimat] [gen = masculin] [numar = singular [caz = nominativ [articulare = nearticulat (EtL1: alphabetic - phonetic -) , hotarat (EtS11: /* ultima literă este consoană - băiat, elev */ if(&consonant;) alphabetic insert "ul“ phonetic insert "&close_back_rounded;&alveolar_lateral_approximant;“ /* ultima literă este “e" – frate, câine*/ if("e") alphabetic insert "le" phonetic insert "&alveolar_lateral_approximant;&mid_front_unrounded;" … ] , genitiv … , dativ … , acuzativ …] , plural … ] ]

  23. Situaţii de flexiune (EC) care au reguli de flexiune: 19.202 Situaţii de flexiune (EC) care nu au reguli de flexiune : 260 Varianţi: 28.317 Varianţimulticuvânt: 19.935 Varianţimonocuvânt : 8.382 Varianţimulticuvântcu 2 cuvinte (am citit): 7.785 Varianţimulticuvântcu 3 cuvinte (nu va merge): 6.554 Varianţimulticuvântcu 4 cuvinte (are să se abată): 3.196 Varianţimulticuvântcu 5 cuvinte (nu are să se abată): 1.908 Varianţimulticuvântcu 6 cuvinte (nu s-ar fi abătut): 492. 2.5Secţiuni GRAALAN – Regulile de flexiune ale limbii române Statistici Reguli de Flexiune Limba Română:

  24. 2.6Secţiuni GRAALAN – Formele flexionate Forme flexionate • Formele flexionate sunt rezultatul procesului de flexionare • Sunt structuri complexe, formate din: • text (alfabetic şifonetic) • silabisire (eufonică, foneticăşi morfologică) • structură (triere, cuvânt central, cuvinte auxiliare) • Fiecare cuvânt auxiliar are o descriere completă: • text (alfabetic şi fonetic) • eticheta lemei • situaţia de flexiune • numele relaţiei

  25. 2.6Secţiuni GRAALAN – Formele flexionate ale limbii române … [clasa = substantiv] [tip substantiv = comun] [animatie = inanimat] [gen = masculin] [caz = nominativ] [numar = singular] [articulare = nearticulat] Auxiliary words Text "un" Phonetic "ˈun" Reference Art01 [clasa = articol] [tip articol = nehotarat] [caz = nominativ] [gen = masculin] [numar = singular] Belongs = yes @acord-art@ end of entry ETF_Entry00018335_1: Entry Text "un cent" Phonetic "ˈun ʧˈent" Reference Entry00018335 [clasa = substantiv] [tip substantiv = comun] [animatie = inanimat] [gen = masculin] [numar = singular] [caz = nominativ] [articulare = nehotarat] Syllabification Euphonic "un cent" Phonetic "ˈun ʧˈent" Tri 1 left Central word Text "cent" Phonetic "ʧˈent“ …

  26. 2.6Secţiuni GRAALAN – Formele flexionate ale limbii române 14.849.114situaţii de flexiune 1.717.315 situaţii pentru forme sintetice 13.131.799 situaţii pentru forme analitice 8.238.437 forme flexionate 843.597 forme sintetice 7.394.840 forme analitice Statistici Forme Flexionate Limba Română:

  27. 2.8Secţiuni GRAALAN – Sintaxa Gramatica unei limbi descrise în GRAALAN este o secvenţă de reguli sintactice etichetate. O regulă (ca o producţie a unei gramatici) are două părţi: membrul stâng şi membrul drept. Membrul stâng al regulii este format dintr-un neterminal căruia îi este asociat unAVT, care conţine categorii şi valori de categorii sintactice şi morfologice. Membrul drept al unei reguli are mai mulţi alternanţi. Practic, o regulă conţine pe fiecare alternant o producţie de expandare a neterminalului din partea stângă cu atributele ataşate.

  28. 2.8Secţiuni GRAALAN – Sintaxa NTPAR - N (neterminal) - simboluri care nu apar în enunţuri şi care se expandează conform regulilor - T (terminal) - reprezintă un şir de caractere. - P (pseudoterminal) - reprezintă o clasă lexicală - A (acţiuni procedurale) - R (relaţie) – reprezintă relaţiile de coordonare sau regenţă-subordonare descrise în arborele de dependenţe.

  29. 2.8Secţiuni GRAALAN – Sintaxa Membrul drept Membrul stâng Alternant Neterminal Secţiune sintactică AVT Nume NTPA AVT Liste de relaţionare Secţiune de dependenţe Nume + tip (RS/RC) Regulă sintactică Relaţie AVT Liste de relaţionare Secţiune de acord Condiţie de acord Acţiuni

  30. 2.8Secţiuni GRAALAN – Sintaxa Secţiunea sintactică a unei limbi conţine reguli generative (ca în gramaticile convenţionale), care au asociate în plus şi o structură de arbore bazată pe relaţii de regenţă-subordonaresaude coordonare între terminalii şi neterminalii aflaţi în partea dreaptă a unei reguli. Prin aplicarea regulilor sintactice, în procesul de analiză se va genera arborele de dependenţe, care va reprezenta enunţul construit cu toate legăturile lui între cuvinte.

  31. 2.8Secţiuni GRAALAN – Sintaxa limbii române ... Alternant A3: Syntax L1: <grup predicativ> (tip grup = unitar , corelativ , distributiv , logic) (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin, neutru) (numar = singular, plural) L2: <semn de punctuatie>! Alternant A4: Syntax L1: <interjectie> L2: "!" ! Alternant A5: Syntax L1: <enunt incomplet> Rule grup_unitar_frazal: <grup unitar frazal> ::= Alternant A1: Syntax L1: <subiect - predicat> (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin, neutru) (numar = singular, plural) L2: <semn de punctuatie>! Alternant A2: Syntax L1: <predicat - subiect> (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin, neutru) (numar = singular, plural) L2: <semn de punctuatie>! ...

  32. 2.8Secţiuni GRAALAN – Sintaxa limbii române Exemplu gramatică de dependenţe R1 <grup frazal>:: <grup subiectiv> Governor @rel. subiect predicat@(1) <grup predicativ> Subordinate @rel. subiect predicat@(1) R2 <grup subiectiv>:: <subiect> Governor @rel. subiect atribut@(1) <listă de atribute> Subordinate @rel. subiect atribut@(1) R3 <subiect> :: <substantiv>| R4 <pronume> R5 <listă de atribute> :: <atribut> Coordinate @rel. atribute@(2) on 1 <listă de atribute> Coordinate @rel. atribute@(2) on 2 R6 <atribut> R7 <atribut> :: <substantiv>| R8 <adjectiv> R9 <substantiv> :: „fata”| R10 „moşului”| R11 „Sfânta Vineri” R12 <adjectiv> :: „cea cuminte”

  33. 2.8Secţiuni GRAALAN – Sintaxa limbii române R13 <grup predicativ>:: <predicat> Governor @rel. predicat complement@(1) <listă de complemente> Subordinate @rel. predicat complement@(1) R14 <predicat> :: <verb> R15 <verb> :: „a ajutat” R16 <listă de complemente>:: <complement> Coordinate @rel. complemente@(2) on 1 <listă de complemente> Coordinate @rel. complemente@(2) on 2 | R17 <complement> R18 <complement> :: <prepoziţie> Subordinate @rel. prep. subst.@(1) <substantiv> Governor @rel. prep. subst.@(1) | R19 <pronume> R20 <pronume> :: „-o” R21 <prepoziţie> :: „pe” Exemplu enunţ „Fata moşului cea cuminte a ajutat-o pe Sfânta Vineri”.

  34. 2.8Secţiuni GRAALAN – Sintaxa limbii române • Arbore sintactic

  35. 2.8Secţiuni GRAALAN – Sintaxa limbii române • Arbore de dependenţe

  36. 2.8Secţiuni GRAALAN – Sintaxa limbii române Clasificare grupuri sintactice limba română Grup subiect Grupuri subiective Grup atributiv Grup frazal complet Grup predicat Grup complement Grup frazal Grupuri predicative Grup nume predicativ Grup eps Grup frazal incomplet Grup CPO

  37. 3. Baza de date lingvistice Alfabet XML LKB Silabisire XML LKB Morfologie XML LKB Reguli de flexiune XML LKB Forme de flexiune XML LKB Lexicon XML LKB Sintaxa XML LKB Mesaje XML LKB Alphabet DTD Syllabification DTD Morphology DTD Inflection rules DTD Inflection forms DTD Lexicon DTD Syntax DTD Messages DTD

  38. Q&A

More Related