r stefna um tungut kni 18 apr l 2008 anton karl ingason sk li bernhard j hannsson n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Samhengisháð ritvilluleit Tækni á næsta leyti? PowerPoint Presentation
Download Presentation
Samhengisháð ritvilluleit Tækni á næsta leyti?

Loading in 2 Seconds...

play fullscreen
1 / 24

Samhengisháð ritvilluleit Tækni á næsta leyti? - PowerPoint PPT Presentation


  • 111 Views
  • Uploaded on

Ráðstefna um tungutækni 18. apríl 2008 Anton Karl Ingason Skúli Bernhard Jóhannsson. Samhengisháð ritvilluleit Tækni á næsta leyti?. Verkefnið. RANNÍS verkefni 2007-2008 Verkefnisstjórn Eiríkur Rögnvaldsson, HÍ Hrafn Loftsson, HR Sigrún Helgadóttir, SÁ Stúdentar

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Samhengisháð ritvilluleit Tækni á næsta leyti?' - shamus


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
r stefna um tungut kni 18 apr l 2008 anton karl ingason sk li bernhard j hannsson
Ráðstefna um tungutækni

18. apríl 2008

Anton Karl Ingason

Skúli Bernhard Jóhannsson

Samhengisháð ritvilluleitTækni á næsta leyti?
verkefni
Verkefnið
  • RANNÍS verkefni 2007-2008
  • Verkefnisstjórn
    • Eiríkur Rögnvaldsson, HÍ
    • Hrafn Loftsson, HR
    • Sigrún Helgadóttir, SÁ
  • Stúdentar
    • Anton Karl Ingason, íslensk málfræði, HÍ
    • Skúli Bernhard Jóhannsson, hugbúnaðarverkfræði, HÍ
  • Samstarfsmenn
    • Sven Þ. Sigurðsson, HÍ
    • Kristín Bjarnadóttir, SÁ
hva er samhengish ritvilluleit
Hvað er Samhengisháð ritvilluleit
  • Forritsemleiðréttaorð í textahafalengiveriðtil
    • Viðhövumalltaflyst á matnumokkar.
    • Slíkforriterumikiðnotuðogþaudugaveltilaðfækkavillum
  • Samhengisháðritvillaverðurþegarorðerrangtritaðþóttþaðgætiveriðrétt í öðrusamhengi
    • Viðhöfumalltaflist á matnumokkar
    • Forritsemleiðréttirorðfyrirorðmissirafþessumvillum
    • Þettaeru oft orðsemfólk á erfittmeðaðstafsetjarétt
  • Forritþarfaðskoðasamhengitilaðleiðrétta
er samhengish ritvilluleit til
Er samhengisháð ritvilluleit til?
  • Fylgirmeð Word 2007 fyrirensku
  • Nýrmöguleiki, ekkisjálfgefiðaðhannsévalinn
  • Virkarágætlega:
    • This is a peace of cake
    • A nice pear of shoes
    • Merktmeðbláu í Word.
  • Dæmi um tæknisemþarfaðútfærafyrirtungumáleinsogíslenskusvoaðþaðverðiekkiútundan í tæknivæðingunni
samhengish ar ritvillur e a m lfr ivillur
Samhengisháðar ritvillur eða málfræðivillur?
  • Flestarvillursemaðjafnaðierunefndarmálfræðivillurfallaeinnigundirskilgreiningu á samhengisháðriritvillu
    • Jónivantarpening.
    • Égvillfápening.
  • En ekkieruallar SH-villurmálfræðivillur
    • Viðhöfumalltaflist á matnumokkar.
  • Hugtakiðmálfræðileiðrétting (e. grammar checking) erjafnannotað um þaðaðathugahvortbrotiðergegnhömlum um formgerðsetninga
  • Aðraraðferðirerujafnannotaðarvið SHR
n lgun shr
Nálgun í SHR
  • Hugmyndin um vafaorðamengi (e. confusion set) er mikilvæg í SHR
    • Vafaorðamengi er mengi orðmynda sem líklegt er að breytist hverjar í aðrar vegna villna
    • Dæmi: (list/lyst) (vil/vill) (mig/mér) (degi/deigi/deyi/Degi)‏
    • Þar sem nákvæmni í SHR er takmörkuð þarf að velja vafaorðamengi skynsamlega
  • Aðgerðin verður að velja milli valkosta í vafaorðamengi
  • Tölum um vafaorðapar þegar aðeins tvær orðmyndir koma til greina
sh villur
SH-villur
  • SH-villur má flokka í þrennt
    • Aðeins merkingarleg aðgreining (list/lyst)‏
    • Aðeins málfræðileg aðgreining (vil/vill)‏
    • Málfræðileg og merkingarleg aðgreining (sína/sýna)‏
  • Merkingarleg aðgreining (1) er stundum erfið
    • List Jóns veldur okkur sífelldum heilabrotum
    • Lyst Jóns veldur okkur sífelldum heilabrotum
    • (Hér væri gott að vita hvort Jón er listamaður eða hvort hann er alltaf svangur)‏
  • Jafnvel villa af tagi (3) getur gefið gilda setningu
    • Kapítalistinn vill sína köku (þ.e. nóg af peningum)‏
    • Kapítalistinn vill sýna köku (hann var að baka)‏
a fer ir til a leysa verkefni
Aðferðir til að leysa verkefnið
  • Handsmíðaðar reglur
    • Góð leið þegar a.m.k. annar kosturinn í vafaorðapari kemur fyrir í mjög reglulegu umhverfi (leiti/leyti)‏
    • Einnig til að leiðrétta ýmis föst orðasambönd
  • Tölvulærðar reglur
    • Sú aðferð sem mest er notuð erlendis við SHR
    • Gengur út á að nota vélræna flokkara (e. classifiers) sem læra reglur af málheild
    • Verkefnið: Að ákvarða hvaða gögn flokkarinn fær og á hvaða sniði
    • Auk þess þarf að velja flokkunaraðferð (Naive Bayes, Winnow, ...)‏
einingar sem byggt er
Einingar sem byggt er á
  • Málheild
    • Textasafn SÁ
  • Markari
    • IceTagger (Hrafn Loftsson)‏
  • Lemmunarforrit
    • Lemmald (Anton Karl Ingason)‏
    • Sem byggir aftur á IceTagger og Mörkuðum textum Íslenskrar orðtíðnibókar
  • Tölvulærdómsumhverfi
    • Weka
    • Safn tóla frá University of Waikato, Nýja-Sjálandi
samhengi
Samhengi
  • Þegar vafaorð finnst í setningu er búið til samhengi
  • Í samhenginu eru allar upplýsingar sem við höfum til að byggja ákvörðun okkar á
  • _ stendur fyrir vafaorðið
  • Úr samhenginu smíðum við auðkenni, sem eiga að endurspegla samhengið sem best
  • Öll auðkenni eru strengir
au kenni 1 grenndaror
Auðkenni 1: Grenndarorð
  • Hvert orð í fjarlægð <= n orð frá vafaorði verður að auðkenni. Venjulega er n = 5, 10 auðkenni.
  • Auðkennin væru þessi miðað við fyrrnefnt samhengi:
  • Ef við notuðum aðeins þessi auðkenni væri þessi listi inntak(input) flokkarans.
  • Þessar upplýsingar myndi hann svo nýta sér til þess að segja til um hvert af vafaorðunum í vafaorðamenginu eigi að velja.
au kenni 2 grenndarlemma
Auðkenni 2: Grenndarlemma
  • Virkar alveg eins og grenndarorða-auðkenni nema í stað orðs þá er lemma orðsins valin sem auðkenni
  • Auðkennin væru þessi miðað við fyrrnefnt samhengi:
au kenni 3 or ast ur
Auðkenni 3: Orðastæður
  • _ stendurfyrirvafaorðið.
  • Orðogmörkeruúrsamhengivafaorðsins
  • Tökumdæmi um grennd = 1

Mark úr sæti -1

  • Grennd = 2:
inntak flokkara
Inntak í flokkara
  • Notum öll grenndarlemmuauðkenni í fjarlægð <=5 frá vafaorði og öll orðastæðuauðkenni með grenndarvídd <= 2 til þess að búa til inntak(input) í flokkara
  • Inntakið fyrir fyrrgreint samhengi væri þá öll auðkenni sem sjást á síðustu þremur myndum, 26 talsins
samhengi t lka sem bitavigur
Samhengi túlkað sem bitavigur
  • Fyrir hvert vafaorðapar þá söfnum við saman öllum samhengjum(öllum samhengjum fyrir “sína” og öllum fyrir “sýna” td)
  • Hvert samhengi er bitavigur þar sem hvert sæti svarar til tiltekins auðkennis
  • Þannig að lengd bitavigursins verður sami og fjöldi mismunandi auðkenna (fyrir vafaorðapar)
samhengi sem bitavigur
Samhengi sem bitavigur
  • Síðan skerum við burt öll samhengi sem koma fyrir sjaldnar en 4 sinnum
  • Við það fækkar auðkennunum þannig að vigrarnir styttast
  • Hver vigur inniheldur því í mesta lagi 26 1-bita, því að sum auðkennin hafa hugsanlega verið skorin í burtu
flokkunara fer ir
Flokkunaraðferðir
  • BaseLine
    • Veluralltafþaðsemalgengaster. Gottaðhafatilviðmiðunar
  • Naive Bayes
    • Flokkarisembyggir á skilyrtumlíkindareikningi en miðarviðaðallarlíkurséuóháðáðar
  • BayesNetGenerator
    • Flokkarisembyggirlíka á skilyrtumlíkumeinsog Naive Bayes, en notarnetlíkantilþessaðlýsaþvíhverniglíkurnareruháðarhverannarri
flokkunara fer ir1
Flokkunaraðferðir
  • Winnow
    • Línulegur aðgreiningarflokkari, sem er hannaður fyrir gögn af mjög hárri (og fyrir fram óákveðinni) vídd, sem eru jafnframt rýr
  • ADTree
    • Flokkari sem býr til víxlandi ákvörðunartré
framt arm s k au kenni
Framtíðarmúsík: Auðkenni
  • Munumprófanýjargerðirauðkenna
    • Fyrstanafnorðvinstrameginviðvafaorð
    • Fyrstasagnorðvinstrameginviðvafaorð
    • ...
framt arm s k n l g arhugtak
Framtíðarmúsík: Nálægðarhugtak
  • Það er gagnlegt að setja fram skilgreiningu á nálægð tveggja samhengja.
  • Má t.d. skilgreina sem fjölda sameiginlegra auðkenna (sem er þá jafnframt innfeldi viðkomandi auðkennisvigra)
  • Þetta má nýta við smíði nýrra flokkara
r stefna um tungut kni 18 apr l 2008 anton karl ingason sk li bernhard j hannsson1
Ráðstefna um tungutækni

18. apríl 2008

Anton Karl Ingason

Skúli Bernhard Jóhannsson

Samhengisháð ritvilluleitTækni á næsta leiti?
slide24

Eye halve a spelling chequer, It came with my pea sea, It plainly marques four my revue Miss steaks eye kin knot sea. Eye strike a key and type a word And weight four it two say Weather eye am wrong oar write It shows me strait a weigh. As soon as a mist ache is maid It nose bee fore two long And eye can put the error rite Its rarely ever wrong. Eye have run this poem threw it I'm shore your pleased two no Its letter perfect in its weigh, My chequer tolled me sew.