1 / 32

Lõplikel automaatidel põhinev arvutimorfoloogia

Lõplikel automaatidel põhinev arvutimorfoloogia. Heli Uibo TÜ arvutiteaduse instituut e-mail: heli_u@ut.ee. Ettekanne põhineb. raamatul: Kenneth Beesley, Lauri Karttunen “Finite-State Mophology: Xerox Techniques and Tools” http://www.cis.upenn.edu/~cis639/docs/book.ps ja artiklil:

arav
Download Presentation

Lõplikel automaatidel põhinev arvutimorfoloogia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lõplikel automaatidel põhinev arvutimorfoloogia Heli Uibo TÜ arvutiteaduse instituut e-mail: heli_u@ut.ee

  2. Ettekanne põhineb • raamatul: • Kenneth Beesley, Lauri Karttunen “Finite-State Mophology: Xerox Techniques and Tools” • http://www.cis.upenn.edu/~cis639/docs/book.ps • ja artiklil: • Lauri Karttunen “Applications of Finite-State Transducers in Natural-Language Processing” Proceedings of CIAA-2000. Lecture Notes in Computer Science. Springer Verlag. • http://www.xrce.xerox.com/Publications/Attachments/2000-302/fst-in-nlp.pdf

  3. Ülevaade • Arvutimorfoloogia - mis ja milleks? • Lõplik automaat ja lõplik transduktor • Ajaloost • Teoreetilised alused • Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil? • Olemasolev tarkvara • Rakendus: Eesti keele kahetasemeline morfoloogia

  4. Arvutimorfoloogia - mis ja milleks? Loomuliku keele töötluse (NLP) moodulid: • Süntaks Morfoloogia Semantika analüüs genereerimine

  5. Arvutimorfoloogia - mis ja milleks? (2) • Sõnavormid • Morfoloogilised tõlgendused Morfoloogiline analüsaator/generaator

  6. Näiteidmorfoloogilisest analüüsist • Inglise k.: wrote  write+V+PastInd • Saksa k.: schrieb  schreiben+V+Ipt+Sg • Rootsi k.: skrev  skriva+V+Ipt • Soome k.: kirjoitin  kirjoittaa+V+Ind+Ipt+Sg1 • Eesti k.: kirjutasin  kirjutama+V+Ind+Ipt+Sg1 “I wrote”

  7. Arvutimorfoloogia rakendusi • õigekirjakontroll • infootsimine • info ekstraheerimine • masintõlge • kõnetehnoloogia rakendused • leksikograafi töövahendid • jne.

  8. Lõplikel automaatidel põhinev arvutimorfoloogia: Ajaloost • “English is not a finite state language.” (Chomsky “Syntactic structures” 1957) • Chomsky hierarhia: Turing machine Context- sensitive Context- free Finite- state

  9. Ajaloost(2) •  Üritati rakendada võimsamaid formalisme: süntaksis fraasistruktuurigrammatikaid (nt. HPSG), morfoloogias ümberkirjutusreegleid (rewrite rules) • AGA: Praktiliselt kasutatavate grammatikate kirjutamine osutus väga keeruliseks.

  10. Ajaloost (3) • 25 a. tagasi ei olnud üldist, keelest sõltumatut meetodit morfoloogiliseks analüüsiks ja sünteesiks. • Olemasolevad morfoloogilise analüüsi programmid ei olnud ümberpööratavad sõnavormide genereerimiseks algvormist ja morfoloogilisest infost.

  11. Ajaloost (4) • Chomsky, Halle (1968) generatiivne fonoloogia kasutas morf. sünteesiks kontekstitundlike ümberkirjutusreeglite järjestikust rakendamist, et teisendada abstraktne fonoloogiline esitus pindesituseks (sõnavormiks) läbi vahepealsete esituste. • Reeglite üldkuju: x  y / z _ w, • kus x, y, z, w on suvalise keerukusega tunnusstruktuurid.

  12. Teoreetilised alused • Lõplike automaatide ja transduktorite kasutatavus arvutimorfoloogias põhineb järgmistel tulemustel: • D. Johnson, 1972: Fonoloogilised ümberkirjutusreeglid ei ole sisuliselt kontekstitundlikud, vaid neid saab kirjeldada lõplike transduktoritena (finite-state transducer). • Schützenberger, 1961: Kui kaks lõplikku transduktorit rakendada järjestikku, siis leidub üks lõplik transduktor, mis on nende kahe lõpliku transduktori kompositsioon.

  13. Teoreetilised alused (2) • Kompositsiooni üldistus n transduktorile: saame läbi ilma vaheesitusteta – süvaesitus teisendatakse pindesituseks üheainsa lõpliku transduktori abil! • 1980 - tulemus taasavastati Kaplani ja Kay poolt (Xerox PARC)

  14. Teoreetilised alused (3) SüvaesitusSüvaesitus • PindesitusPindesitus Reegel1 ”Üks suur reegel” = lõplik transduktor (finite-state transducer e. FST) Reegel2 ……….. Reegeln

  15. Teoreetilised alused (4) • Lõplikel transduktoritel põhineva arvutimorfoloogia põhiväide: • Seos keele sõnavormide ja nende algvormide e. lemmade vahel on kirjeldatav regulaarse relatsioonina.

  16. Teoreetilised alused (5) • Regulaarse relatsiooni saab kirja panna regulaaravaldisena. • Regulaaravaldise saab kompileerida lõplikuks transduktoriks (FST), mis realiseerib selle relatsiooni arvutuslikult. • Transduktoris seab mistahes tee algolekust lõppolekusse omavahel vastavusse mingi sõnavormi (surface form) ja tema lemma+ morfoloogilise info (lexical form).

  17. t u B a +S 0 +Pl 0 +El Sõnastikuesitus: t u b a 0 d e s t Pindesitus: Näide: tee transduktoris • Kompaktsemalt: • t u B:b a +S:0 0:d +Pl:e 0:s +El:t

  18. Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil? • Morfoloogias tuleb modelleerida kaks põhilist protsessi: • 1. Morfotaktika (kuidas kombineeritakse morfeemidest sõnavormid) • - prefiksid ja sufiksid, liitsõnamoodustus - konkatenatsioon • - reduplikatsioon, infiksatsioon, interdigitatsioon - mittekonkatenatiivsed protsessid

  19. Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil? (2) • 2. Fonoloogilised/ortograafilised alternatsioonid • - assimilatsioon (hind : hinna) • - lisandumine (jooksma : jooksev) • - kadu (number : numbri) • - geminatsioon (tuba : tuppa) • Kõik loetletud morfoloogilised fenomenid on kirjeldatavad regulaaravaldiste abil.

  20. Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil? (3) • Aga kuidas? • Regulaaravaldistes kasutatavad operatsioonid: • ühend A | B (nt. Erinevad kontekstid, milles sümbolipaar võib esineda) • konkatenatsioon A B (väga produktiivne aglutineerivate keelte puhul - liidete, lõppude, prefiksite lisamine, liitsõnamoodustus) • iteratsioon A+ ja Kleene’i tärn A* (reeglid tüüpi “kui sõnas kusagil eespool esineb x, siis…”)

  21. Kuidas kirjeldada kogu morfoloogiline süsteem? (4) • Veel operatsioone regulaarsete relatsioonidega: • otsekorrutis A .x. B (teine tähistus a:b) • kompositsioon A .o. B - lõplike transduktorite järjestrakendamine • Tavaliselt koosneb keele morfoloogiakirjeldus kahest eraldiseisvast osast - leksikon-transduktorist ja reeglitekogu-transduktorist. • Lexical FST = lexicon FST .o. rule FST

  22. Kuidas kirjeldada kogu morfoloogiline süsteem? (5) • Xeroxi vahendeid kasutades: • 1) Reeglite kompileerimiseks võib kasutada programmi twolc (kahetasemeliste reeglite kompilaator) • või programmi xfst, kui kasutatakse asendusreegleid (replace rules) • 2) Programm lexc kompileerib leksikoni leksikon-FST-ks

  23. Kuidas kirjeldada kogu morfoloogiline süsteem? (6) • 3) Leksikon ühendatakse reeglitega (saadakse leksikaalne transduktor) transduktorite kompositsiooni kasutades • Kompositsioon on realiseeritud nii lexc-s (compose result) kui xfst-s (compose net).

  24. Kuidas kirjeldada kogu morfoloogiline süsteem? (7) • Nii kahetasemelised kui asendusreeglid on formaalselt regulaaravaldised. Operaatoritega <=>, <=, => ja  tähistatakse keerukaid regulaaravaldisi. Näiteks kahetasemeline reegel a:b => L _ R on samaväärne regulaaravaldisega • [ ~[ [ [ ?* L ] a:b ?* ] | [ ?* a:b ~[ R ?* ] ] ] • Lingvistile on harjumuspärased a  b || L _ R tüüpi reeglid, meenutades fonoloogilisi ümberkirjutusreegleid.

  25. Morfoloogiline analüüs leksikaalses transduktoris • Morfoloogiline analüüs = lookup • Käiakse läbi leksikaalses transduktoris leiduvaid teid, niikaua kui leitakse tee, milles kaarte alumised märgendid annavad kokku analüüsitava sõna. Väljastatakse vastavate kaarte ülemiste märgendite konkatenatsioon. Kui ükski tee ei anna tulemust, ei kuulu sõnavorm transduktori poolt kirjeldatud keelde.

  26. Morfoloogiline süntees leksikaalses transduktoris • Morfoloogiline süntees = lookdown • Käiakse läbi leksikaalses transduktoris leiduvaid teid, niikaua kuni leitakse tee, milles kaarte ülemised märgendid annavad kokku etteantud lemma+morfoloogilised märgendid. Väljastatakse vastavate alumiste märgendite konkatenatsioon.

  27. Lõplikel transduktoritel põhinev arvutimorfoloogia: olemasolev tarkvara • Kommertstarkvara: • Kahetasemelised morfoloogilised analüsaatorid inglise, saksa, rootsi, soome jt. keelte jaoks (K. Koskenniemi et al) • www.lingsoft.fi • Xerox Finite-State Calculus (L. Karttunen et al, www.xrce.xerox.com/competencies/content-analysis/fst), võimalik tasuta akadeemiline litsents • Teragram (E. Roche & Y. Schabes) • www.teragram.com

  28. Lõplikel transduktoritel põhinev arvutimorfoloogia: olemasolev tarkvara (2) • Vabavara: • AT&T FSM Library - www.research.att.com/sw/tools/fsm • GertjanVan Noord’s FSA Utils - odur.let.rug.nl/~vannord/FSA/fsa.html • Jan Daciuk’s finite-state homepage - odur.let.rug.nl/alfa/fsa-stuff/

  29. Eesti keele kahetasemeline morfoloogia • Reeglitega käsitletavad nähtused: • astmevaheldus kägu : käo, hüpata : hüppan • fonotaktika lumi : lumd* lund • morfofonoloogiline distributsioon seis + da  seista • ortograafia kirj*  kiri, kristall + ne  kristalne

  30. Eesti keele kahetasemeline morfoloogia (2) • Leksikonide abil kirjeldatavad nähtused: • käänamine • pööramine • omadussõnade võrdlemine • sõnatuletus • liitsõnamoodustus • tüvelõpumuutused ne-se, 0-da, 0-me jne • tüvevokaali valik a, e, i, u Appropriate suffixes are added to a stem according to its inflection type

  31. Eesti keele kahetasemeline morfoloogia (3) • Lahendamist ootavad probleemid: • 1) tuletatud sõnade ja liitsõnade ülegenereerimine • lahendus: komponeerida leksikaalse transduktoriga erinevaid filtreid, mis kitsendavad sõnatuletuse ja liitsõnamoodustuse protsesse • 2) tüvedesõnastiku mahu suurendamine, sealh. korrektsete sõnastikuesituste genereerimine • Vastav programm sai hiljuti valmis.

  32. Eesti keele kahetasemeline morfoloogia (4) • 3) tundmatute sõnade analüüsi oletamine (sõnad, mis ei ole leksikonis) • võimalik lahendus: Kuna leksikonikirjetes võib kasutada ka regulaaravaldisi, tuleks juurteleksikonidesse sisestada kirjed <Alpha*> koos kõikvõimalike jätkuviitadega.

More Related