1 / 15

Korpuse morfoloogiline tükeldamine Silvi Vare sõnaperede alusel

Korpuse morfoloogiline tükeldamine Silvi Vare sõnaperede alusel. Kairit Sirts 6.11.2009. Ülevaade. Mis on sõnapered Sõnapered kasutamise eesmärk Morfoloogilise analüüsi meetodid Teksti tükeldamine sõnaperede sõnastiku alusel. Sõnapered. Sõnad on jaotatud perekondadeks.

chelsey
Download Presentation

Korpuse morfoloogiline tükeldamine Silvi Vare sõnaperede alusel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpuse morfoloogiline tükeldamine Silvi Vare sõnaperede alusel Kairit Sirts 6.11.2009

  2. Ülevaade • Mis on sõnapered • Sõnapered kasutamise eesmärk • Morfoloogilise analüüsi meetodid • Teksti tükeldamine sõnaperede sõnastiku alusel

  3. Sõnapered • Sõnad on jaotatud perekondadeks. • Perekonnal on perepea ja pereliikmed • Pereliikmed on tuletatud perepeast tuletusmorfeemide abil • Mõni sõna kuulub samal ajal mitmesse perekonda • Näiteks: näi|t|le|ja|likk=us, toidu+pood

  4. Miks sõnapered? • Kontrollida, kas sõnaperede morfeemtükeldus on sobilik kasutamiseks statistilise keelemudeli jaoks. • Kuna sõnaperede sõnastik sisaldab lõpliku arvu tuletusmorfeeme, siis ehk õnnestub nende abil luua piisavalt üldine ja samas kompaktne keelemudel.

  5. Morfoloogilise analüüsi meetodid • Reeglipõhine morfoloogiline analüsaator (EKI morfoloogiline analüsaator, ESTMORF) • Suudavad tuvastada sõnu ka ühekaupa • Vajavad eelnevalt kirjeldatud reegleid, sõnastikke jms. • Automaatsed morfeemipiiride tuvastajad (näit. Morfessor) • Mingit lisamaterjali keele kohta pole tarvis • Väga väikeste tekstitükkide analüüsimine ja anna adekvaatseid tulemusi

  6. Morfeemtükeldus sõnaperede järgi Olemas on sõnastik, mis defineerib ära morfeemipiirid sõnades Saame teha reeglipõhise morfoloogilise tükeldaja.

  7. Morfeemtükeldus sõnaperede järgi Probleemid: • Sõnastikus on ainult lemmad, tekstis on aga sõnad erinevates vormides • Sõnastikus ei pruugi olla kõiki sõnu, mis tekstis ette tulevad (eriti kehtib liitsõnade puhul)

  8. Morfeemtükeldus sõnaperede järgi Seega, on vaja mingisugust nn baastükeldust. Näiteks ESTMORF analüsaatori väljund, mis eraldab: • Käände- ja pöördelõpud • Liitsõnad • Sufiksid (lik, mine, m, tu, v, ja jne)

  9. Teksti tükeldamine - reeglid • Eesmärgiks luua minimaalne reeglite kogum, mida rakendades saab morfeemipiirid tuvastada kõikides tekstis esinevates sõnades. • Reeglid peaksid olema üksteisest sõltumatud, st rakendatavad suvalises järjekorras.

  10. Teksti tükeldamine - hulgad • Sõnade tükeldamiseks morfeemideks jagatakse sõnad mittekattuvatesse hulkadesse. • Kokku tuleb hulki 13. • Igale hulgale rakendatakse ühte reeglit, mille tulemusena tükeldatakse sõna morfeemideks.

  11. Reeglid • Hulkade loomise aluseks on vastused küsimustele: • Kas sõna algvorm kuulub sõnastikku? • Kas sõnas on üks või mitu morfeemi • Kas sõnas on sõnastiku alusel rohkem, vähem või sama palju morfeeme, kui sõnel ESTMORFI alusel? • Kas lemma ja sõne esimene morfeem kattuvad? • Kas lemma sisaldub sõnes? • Kas sõne ise kuulub sõnastikku? • Kas sõne kuulub sellisesse sõnastikku, milles igalt sõnalt on viimane morfeem eemaldatud? • Kas ESTMORF suutis sõna analüüsida?

  12. Hulkade loomine Tekst Sõnastikus mitteleiduvad sõnad Sõnastikus leiduvad sõnad ... ... Sõnastiku alusel vähem tükke Ühesuguse tükkide arvuga sõnad Sõnastiku alusel rohkem tükke REEGEL 11 ... ... ... ...

  13. SÕNAD POLE SÕNASTIKUS ESTMORF EI TUNDNUD ESTMORF TUNDIS SÕNASTIKUS SÕN > TYK TÜKKE VÕRDSELT SÕN < TYK REEGEL12 REEGEL13 REEGEL11 SÕN  TYK SÕN  TYK ÜHE- TÜKILISED MITME-TÜKILISED ERINEV ALGUS REEGEL4 SAMA ALGUS MITME-TÜKILISED REEGEL1 ÜHE-TÜKILISED SÕN  TYK REEGEL5 ERINEV ESIMENE SÕN  TYK SAMA ESIMENE REEGEL7 POLE SÕN1-S SÕN1-S SÕN-S REEGEL2 REEGEL3 REEGEL6 ÜLE-JÄÄNUD REEGEL8 REEGEL9 REEGEL10

  14. Tükeldamise käik • Teksti morfoloogiline analüüs ja ühestamine ESTMORFI ja TAHMMiga • Erinevate sõnade leidmine • Erinevatest sõnadest hulkade konstrueerimine • Hulkadele reeglite rakendamise abil sõnade tükeldamine • Tükeldatud sõnadest esialgse teksti konstrueerimine

  15. Aitäh!

More Related