1 / 11

Hátækniiðnaðurinn íslensk málfræði

Hátækniiðnaðurinn íslensk málfræði. 16. nóvember 2008 Anton Karl Ingason. Sambúð tækni og tungumáls. Tungutækni hefur verið til í nokkra áratugi Verkefni greinarinnar eru af ýmsum toga

auryon
Download Presentation

Hátækniiðnaðurinn íslensk málfræði

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hátækniiðnaðurinn íslensk málfræði 16. nóvember 2008 Anton Karl Ingason

  2. Sambúð tækni og tungumáls • Tungutækni hefur verið til í nokkra áratugi • Verkefni greinarinnar eru af ýmsum toga • Vélrænn yfirlestur texta (réttritun/málfræði), vélrænar þýðingar, breyta tali í texta, breyta texta í tal (talgervlar), smíða betri leitarvélar, o.s.frv. • Sum vandamál var snemma hægt að leysa býsna vel • Önnur eru fyrst að verða viðráðanleg nú með betri tölvum • Sum verða seint eða aldrei leyst

  3. Þverfagleg iðkan nauðsynleg • Fyrir nokkrum árum stefndi í að tungutækni yrði undirgrein tölvunarfræði • Menn höfðu ofurtrú á að tölfræðileg líkön leystu allan vanda og komust raunar býsna langt með þeim - þar til þeir komust ekki lengra • Nú er orðið ljóst að tölvunarfræðingar og málfræðingar verða að vinna saman til að ná frekari framförum

  4. Íslensk tungutækni • Til að geta sagt að tungutækni fyrir tiltekið mál sé til þarf að lágmarki svokallað BLARK (e. Basic Language Resource Kit) • BLARK er safn grundvallareininga sem önnur tungutækniforrit byggja á • Málheildir: Stór textasöfn sem tungutækniforrit geta notað til að læra málfræðileg mynstur • Markari: Greinir vélrænt málfræðilega eiginleika orða í samhengi, t.d. kyn, tölu, fall, tíð, o.s.frv. • Lemmari: Finnur nefnimynd (lemmu, orðabókarmynd) orða í texta. T.d. hestsins > hestur • Orðalistar: Þýðingar, t.d. milli íslensku og ensku • Ýmsar slíkar einingar eru þegar til fyrir íslensku

  5. Dæmi um notkun eininganna • Útlendingar sem eru að læra íslensku hefðu gagn af því að geta hægrismellt á orð á vefsíðu til að fá upp lista með mögulegum enskum þýðingum • Að sumu leyti gagnlegri þjónusta en vélræn þýðing á samfelldum texta • Sá sem er að læra málið notar kunnáttu sína í nýja málinu til að átta sig á formgerð setningarinnar og merkingu þeirra orða sem hann þekkir – og notar svo samhengið til að átta sig á hvaða þýðing á við ef möguleikarnir eru fleiri en einn. • Gott að geta fækkað möguleikunum, t.d. miðað við orðflokk (no. móðir ‘mamma’ / lo. móðir ‘þreyttir’)

  6. Meginvandi tungutækninnar • Þrátt fyrir að hægt sé að ná árangri í að koma upp tungutækni fyrir minni málsvæði er sviðið skelfilega enskumiðað • Óensk mál standa frammi fyrir tveim meginvandamálum sem slík • Minna til af auðlindum (peningum og fólki) • Málin eru málfræðilega ólík ensku (setningakerfi, orðhlutakerfi, hljóðkerfi) og þess vegna virka aðferðirnar sem notaðar eru fyrir ensku ekki nógu vel • Lausnir á þessum vandamálum eru gríðarlega verðmætar

  7. Enska og auðlindir • Til eru viðamiklir gagnagrunnar um enska tungu sem verða sífellt fullkomnari enda er úr talsverðum mannafla og fé að spila • Wordnet: Gagnagrunnur sem kortleggur merkingarvensl í enska orðasafninu • Penn-treebank: Málheild sem hefur verið greind setningafræðilega af mikilli nákvæmni • Nauðsynlegt að þróa aðferðir til að flýta þróun á sambærilegum gagnagrunnum fyrir önnur mál • Tækifæri fyrir íslenska tungutækni

  8. Enska og ólík málkerfi • Enska hefur ekki mjög ríkulegar beygingar og því hefur ensk tungutækni komist upp með að sniðganga vandamál (og tækifæri) beygingamála • Málum með flókin beygingakerfi er því að sumu leyti illa sinnt í tungutækni • Mikilvægt að skilja hvaða upplýsingar felast í beygingarendingum og hvernig þær má nota • Tækifæri fyrir íslenska tungutækni

  9. Múrmeldýr

  10. Tækifæri „Ég er kannski ekki eins og fólk er flest, en kreppan fyllir mig bjartsýni.“ (Hlíf Árnadóttir 7. október 2008)

More Related