1 / 24

Samhengisháð ritvilluleit Tækni á næsta leyti?

Ráðstefna um tungutækni 18. apríl 2008 Anton Karl Ingason Skúli Bernhard Jóhannsson. Samhengisháð ritvilluleit Tækni á næsta leyti?. Verkefnið. RANNÍS verkefni 2007-2008 Verkefnisstjórn Eiríkur Rögnvaldsson, HÍ Hrafn Loftsson, HR Sigrún Helgadóttir, SÁ Stúdentar

shamus
Download Presentation

Samhengisháð ritvilluleit Tækni á næsta leyti?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ráðstefna um tungutækni 18. apríl 2008 Anton Karl Ingason Skúli Bernhard Jóhannsson Samhengisháð ritvilluleitTækni á næsta leyti?

  2. Verkefnið • RANNÍS verkefni 2007-2008 • Verkefnisstjórn • Eiríkur Rögnvaldsson, HÍ • Hrafn Loftsson, HR • Sigrún Helgadóttir, SÁ • Stúdentar • Anton Karl Ingason, íslensk málfræði, HÍ • Skúli Bernhard Jóhannsson, hugbúnaðarverkfræði, HÍ • Samstarfsmenn • Sven Þ. Sigurðsson, HÍ • Kristín Bjarnadóttir, SÁ

  3. Hvað er Samhengisháð ritvilluleit • Forritsemleiðréttaorð í textahafalengiveriðtil • Viðhövumalltaflyst á matnumokkar. • Slíkforriterumikiðnotuðogþaudugaveltilaðfækkavillum • Samhengisháðritvillaverðurþegarorðerrangtritaðþóttþaðgætiveriðrétt í öðrusamhengi • Viðhöfumalltaflist á matnumokkar • Forritsemleiðréttirorðfyrirorðmissirafþessumvillum • Þettaeru oft orðsemfólk á erfittmeðaðstafsetjarétt • Forritþarfaðskoðasamhengitilaðleiðrétta

  4. Er samhengisháð ritvilluleit til? • Fylgirmeð Word 2007 fyrirensku • Nýrmöguleiki, ekkisjálfgefiðaðhannsévalinn • Virkarágætlega: • This is a peace of cake • A nice pear of shoes • Merktmeðbláu í Word. • Dæmi um tæknisemþarfaðútfærafyrirtungumáleinsogíslenskusvoaðþaðverðiekkiútundan í tæknivæðingunni

  5. Samhengisháðar ritvillur eða málfræðivillur? • Flestarvillursemaðjafnaðierunefndarmálfræðivillurfallaeinnigundirskilgreiningu á samhengisháðriritvillu • Jónivantarpening. • Égvillfápening. • En ekkieruallar SH-villurmálfræðivillur • Viðhöfumalltaflist á matnumokkar. • Hugtakiðmálfræðileiðrétting (e. grammar checking) erjafnannotað um þaðaðathugahvortbrotiðergegnhömlum um formgerðsetninga • Aðraraðferðirerujafnannotaðarvið SHR

  6. Nálgun í SHR • Hugmyndin um vafaorðamengi (e. confusion set) er mikilvæg í SHR • Vafaorðamengi er mengi orðmynda sem líklegt er að breytist hverjar í aðrar vegna villna • Dæmi: (list/lyst) (vil/vill) (mig/mér) (degi/deigi/deyi/Degi)‏ • Þar sem nákvæmni í SHR er takmörkuð þarf að velja vafaorðamengi skynsamlega • Aðgerðin verður að velja milli valkosta í vafaorðamengi • Tölum um vafaorðapar þegar aðeins tvær orðmyndir koma til greina

  7. SH-villur • SH-villur má flokka í þrennt • Aðeins merkingarleg aðgreining (list/lyst)‏ • Aðeins málfræðileg aðgreining (vil/vill)‏ • Málfræðileg og merkingarleg aðgreining (sína/sýna)‏ • Merkingarleg aðgreining (1) er stundum erfið • List Jóns veldur okkur sífelldum heilabrotum • Lyst Jóns veldur okkur sífelldum heilabrotum • (Hér væri gott að vita hvort Jón er listamaður eða hvort hann er alltaf svangur)‏ • Jafnvel villa af tagi (3) getur gefið gilda setningu • Kapítalistinn vill sína köku (þ.e. nóg af peningum)‏ • Kapítalistinn vill sýna köku (hann var að baka)‏

  8. Aðferðir til að leysa verkefnið • Handsmíðaðar reglur • Góð leið þegar a.m.k. annar kosturinn í vafaorðapari kemur fyrir í mjög reglulegu umhverfi (leiti/leyti)‏ • Einnig til að leiðrétta ýmis föst orðasambönd • Tölvulærðar reglur • Sú aðferð sem mest er notuð erlendis við SHR • Gengur út á að nota vélræna flokkara (e. classifiers) sem læra reglur af málheild • Verkefnið: Að ákvarða hvaða gögn flokkarinn fær og á hvaða sniði • Auk þess þarf að velja flokkunaraðferð (Naive Bayes, Winnow, ...)‏

  9. Einingar sem byggt er á • Málheild • Textasafn SÁ • Markari • IceTagger (Hrafn Loftsson)‏ • Lemmunarforrit • Lemmald (Anton Karl Ingason)‏ • Sem byggir aftur á IceTagger og Mörkuðum textum Íslenskrar orðtíðnibókar • Tölvulærdómsumhverfi • Weka • Safn tóla frá University of Waikato, Nýja-Sjálandi

  10. Samhengi • Þegar vafaorð finnst í setningu er búið til samhengi • Í samhenginu eru allar upplýsingar sem við höfum til að byggja ákvörðun okkar á • _ stendur fyrir vafaorðið • Úr samhenginu smíðum við auðkenni, sem eiga að endurspegla samhengið sem best • Öll auðkenni eru strengir

  11. Auðkenni 1: Grenndarorð • Hvert orð í fjarlægð <= n orð frá vafaorði verður að auðkenni. Venjulega er n = 5, 10 auðkenni. • Auðkennin væru þessi miðað við fyrrnefnt samhengi: • Ef við notuðum aðeins þessi auðkenni væri þessi listi inntak(input) flokkarans. • Þessar upplýsingar myndi hann svo nýta sér til þess að segja til um hvert af vafaorðunum í vafaorðamenginu eigi að velja.

  12. Auðkenni 2: Grenndarlemma • Virkar alveg eins og grenndarorða-auðkenni nema í stað orðs þá er lemma orðsins valin sem auðkenni • Auðkennin væru þessi miðað við fyrrnefnt samhengi:

  13. Auðkenni 3: Orðastæður • _ stendurfyrirvafaorðið. • Orðogmörkeruúrsamhengivafaorðsins • Tökumdæmi um grennd = 1 Mark úr sæti -1 • Grennd = 2:

  14. Inntak í flokkara • Notum öll grenndarlemmuauðkenni í fjarlægð <=5 frá vafaorði og öll orðastæðuauðkenni með grenndarvídd <= 2 til þess að búa til inntak(input) í flokkara • Inntakið fyrir fyrrgreint samhengi væri þá öll auðkenni sem sjást á síðustu þremur myndum, 26 talsins

  15. Samhengi túlkað sem bitavigur • Fyrir hvert vafaorðapar þá söfnum við saman öllum samhengjum(öllum samhengjum fyrir “sína” og öllum fyrir “sýna” td) • Hvert samhengi er bitavigur þar sem hvert sæti svarar til tiltekins auðkennis • Þannig að lengd bitavigursins verður sami og fjöldi mismunandi auðkenna (fyrir vafaorðapar)

  16. Samhengi sem bitavigur • Síðan skerum við burt öll samhengi sem koma fyrir sjaldnar en 4 sinnum • Við það fækkar auðkennunum þannig að vigrarnir styttast • Hver vigur inniheldur því í mesta lagi 26 1-bita, því að sum auðkennin hafa hugsanlega verið skorin í burtu

  17. Fjöldi setninga og auðkenna fyrir hvert par

  18. Flokkunaraðferðir • BaseLine • Veluralltafþaðsemalgengaster. Gottaðhafatilviðmiðunar • Naive Bayes • Flokkarisembyggir á skilyrtumlíkindareikningi en miðarviðaðallarlíkurséuóháðáðar • BayesNetGenerator • Flokkarisembyggirlíka á skilyrtumlíkumeinsog Naive Bayes, en notarnetlíkantilþessaðlýsaþvíhverniglíkurnareruháðarhverannarri

  19. Flokkunaraðferðir • Winnow • Línulegur aðgreiningarflokkari, sem er hannaður fyrir gögn af mjög hárri (og fyrir fram óákveðinni) vídd, sem eru jafnframt rýr • ADTree • Flokkari sem býr til víxlandi ákvörðunartré

  20. Nákvæmni flokkaranna

  21. Framtíðarmúsík: Auðkenni • Munumprófanýjargerðirauðkenna • Fyrstanafnorðvinstrameginviðvafaorð • Fyrstasagnorðvinstrameginviðvafaorð • ...

  22. Framtíðarmúsík: Nálægðarhugtak • Það er gagnlegt að setja fram skilgreiningu á nálægð tveggja samhengja. • Má t.d. skilgreina sem fjölda sameiginlegra auðkenna (sem er þá jafnframt innfeldi viðkomandi auðkennisvigra) • Þetta má nýta við smíði nýrra flokkara

  23. Ráðstefna um tungutækni 18. apríl 2008 Anton Karl Ingason Skúli Bernhard Jóhannsson Samhengisháð ritvilluleitTækni á næsta leiti?

  24. Eye halve a spelling chequer, It came with my pea sea, It plainly marques four my revue Miss steaks eye kin knot sea. Eye strike a key and type a word And weight four it two say Weather eye am wrong oar write It shows me strait a weigh. As soon as a mist ache is maid It nose bee fore two long And eye can put the error rite Its rarely ever wrong. Eye have run this poem threw it I'm shore your pleased two no Its letter perfect in its weigh, My chequer tolled me sew.

More Related