1 / 13

LEXIKOAREN BEHATOKIA ERATZEKO PROPOSAMENA

LEXIKOAREN BEHATOKIA ERATZEKO PROPOSAMENA. Aurkezpena. Egitasmoaren oinarrizko ideiak Corpusa osatzeko irizpideak Corpusa lantzeko prozesua eta tresnak Corpusaren azterketa. Egitasmoaren oinarrizko ideiak. Hiztegi Batuko Lantaldearen proposamena da

betty_james
Download Presentation

LEXIKOAREN BEHATOKIA ERATZEKO PROPOSAMENA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LEXIKOAREN BEHATOKIA ERATZEKO PROPOSAMENA

  2. Aurkezpena • Egitasmoaren oinarrizko ideiak • Corpusa osatzeko irizpideak • Corpusa lantzeko prozesua eta tresnak • Corpusaren azterketa

  3. Egitasmoaren oinarrizko ideiak • Hiztegi Batuko Lantaldearen proposamena da • Prosa arruntezko corpus monitore bat prestatzea proposatzen da, bereziki hedabideetakoa • Lexikoaren erabileraren azterketak egiteko • Lexikoari dagozkion arauak eta gomendioak dokumentatzea da azken helburua Hizkuntza denborarekin nola aldatzen ari den erakusten du. Etengabe elikatzen da.

  4. Corpusgintzaren eredu orokorra • Corpusa osatzeko irizpideak • Testuen bilketa • Etiketatzea • Egitura-etiketatzea • Etiketatze linguistikoa • Corpusaren analisia

  5. Corpusa osatzeko irizpideak (I) • Erreferentziazko corpus handi, orekatu, lematizatu, linguistikoki etiketatu eta eskuz zuzendua da ideala, baina denbora eta diru asko kostatzen da • Epe luzerako ideal horretarantz abiatu eta bide batez epe laburrean lanari etekina ateratzeko, corpus oportunista bat elikatu eta automatikoki lantzea da arrazoizkoena Kostu handirik gabe eta erraz landu daitezkeen testu guztiak bilduz osatzen da. Erreferentziazko corpusa osatzen ez den bitartean, haren ordezkoa da.

  6. Corpusa osatzeko irizpideak (II) • 2000. urtetik aurrera sortutako testuz osatua izango da • Testu espezializatuak edo hizkuntzaren erabilera berezia dutenak salbu beste guztiak onargarriak izango dira • Eskuragarritasuna eta automatikoki lantzeko erraztasuna izango dira osterantzean testuak hobesteko irizpideak • Etengabe elikatuko da

  7. Corpusa osatzeko irizpideak (III) • Hedabideak • interes orokorrekoak • jakintza-eremuetakoak (literatura, zuzenbidea, erlijioa, zientzia, teknologia, artea, kirola, etab.). Ez espezializazio-mailan • Administrazioetako hizkera 'soziala' • Corpusak • Ereduzko Prosa gaur • -Zientzia eta Teknologiaren Corpusa • Sareko bisitatuenak (erabili.com, sustatu.com, bizkaie.biz) • Literaturaren klasikoak • Pentsamenduaren klasikoak

  8. Corpusa osatzeko irizpideak (IV) Testu-iturriak

  9. Corpusa lantzeko prozesua eta tresnak Testu-bilketa Testu-biltegia (corpus gordina) Testuak Egitura-etiketatzea Formatu-bihurketa + Egitura-etiketatze automatikoa TEI goiburua Corpusa I (automatikoki landua) Etiketatze linguistikoa Prozesatze linguistiko automatikoa Corpusa II (zuzendua eta desanbiguatua) HBL Eskuzko zuzenketa eta desanbiguazioa Irteera Corpusa kontsultatzeko, analizatzeko eta ustiatzeko tresnak Emaitzak

  10. Testuak kodetzeko estandarra. Paragrafoak, aipuak, arrotz-hitzak, puntuen erabilera, etab. markatzeko. Etiketatzea • Eredua: TEI P4 (XML) • Egitura • Egitura-elementu nagusiak • Formatu-ezaugarri esanguratsuak • Analisi linguistikoa • Lema • Kategoria • Azpikategoria • Kasua

  11. Aurreprozesamendu linguistikoa • Ortografia-zuzentzaileaz baliatuz: • Aldaeren normalizazioa: <reg> • Akats ortotipografikoak zuzentzea: <corr> • Eskuz balioetsi • Lexikoiosagarria lema berriekin elikatu, hala badagokio • Lerro-bukaerako marratxoen tratamendua euskara vs euskerea euskara vs euskars

  12. Analisi linguistikoa • Prozesatze-urratsak (automatikoak) • Tokenizazioa • Segmentazio morfologikoa • Analisi morfosintaktikoa • Hitz anitzeko unitateen analisia • Lematizazioa • Desanbiguazioa: interpretazio okerrak kendu • Automatikoa lematizazio-urratsean Testu-hitzak osatzen dituzten karaktere-segidak identifikatzea. Tokenak morfematan zatitzea.

  13. Testu analizatua Sarrera-testua Analisi linguistikoa EHUko Informatika Fakultateko IXA taldeak garatutako tresnak ondo dokumentatu eta kontrastatuak dira. Tokenizazioa Segmentazioa Hitz anitzeko unitate lexikalak Tratamendu morfosintaktikoa HAULen tratamendua Lematizazioa

More Related