1 / 10

Alkuvaiheen koodaus edistyneiden suomenoppijoiden aineistossa

Alkuvaiheen koodaus edistyneiden suomenoppijoiden aineistossa. Tallinna 13.11.2008 Ilmari Ivaska ja Kirsti Siitonen. Edistyneiden suomenoppijoiden korpus, TY. Informantit suomen ja sen sukukielten maisteriohjelman opiskelijoita Seuranta-aika 2–3 vuotta Kielitaito vahva jo alussa

lyris
Download Presentation

Alkuvaiheen koodaus edistyneiden suomenoppijoiden aineistossa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Alkuvaiheen koodaus edistyneiden suomenoppijoiden aineistossa Tallinna 13.11.2008 Ilmari Ivaska ja Kirsti Siitonen

  2. Edistyneiden suomenoppijoiden korpus, TY • Informantit suomen ja sen sukukielten maisteriohjelman opiskelijoita • Seuranta-aika 2–3 vuotta • Kielitaito vahva jo alussa • Monipuolinen tekstilajivalikoima • Tentit, esseet, tutkielmat, katsaukset • 1. vaiheessa pääpaino tenttivastauksissa • Rakenteistaminen TY:n Lauseopin arkiston mallin mukaisesti • Morfologinen, syntaktinen, lauserakenteellinen ja virhekoodaus

  3. Korpuksen rakenne Korpus <id>informantti <?>tekstilaji (tentti, essee ym. lajina) <?>teksti (tentti, essee, tutkielma ym.) <div>tekstijakso (vastaus, luku) <p>kappale <s>virke <cl>lause <w>sana

  4. 1. Sanakirja • Metodi LA:n tutkija Nobufumi Inaban kehittämä • Kaikki aineistossa esiintyvät sanamuodot • Täydentäminen aineiston karttuessa • Morfologinen koodaus ja hakusanoittaminen • Monitulkintaisista sanoista todennäköisin koodiksi ja vaihtoehdot kommentiksi • Vartalovirheiden ym. huomioiminen • Lemmaan tavoiteltu sana, mikäli on tunnistettavissa • Virheiden kommentointi virhetyyppiluokittelua varten (vartalo, av, vokaaliharmonia, sekamuoto ym)

  5. 1. Sanakirja (jatkoa) <w lemma="kerran" pos="adv" mrp="" fun="" com="kerta_n_sg gen">kerran</w> <w lemma="kertoa" pos="v" mrp="conneg ind pres" fun="" com="fin impv pres sg2">kerro</w> <w lemma="kertoa" pos="v" mrp="fin ind pres sg1" fun="" com="">kerron</w> <w lemma="kerrostuma" pos="n" mrp="sg ill" fun="" com="kerrostua_v_inf3 ill">kerrostumaan</w> <w lemma="kerrostuma" pos="n" mrp="pl ill" fun="" com="">kerrostumiin</w> <w lemma="kertoa" pos="v" mrp="fin pass ind pres" fun="" com="">kerrotaan</w> <w lemma="kertoa" pos="v" mrp="pcp1 sg nom pass" fun="" com="">kerrottava</w> <w lemma="kertoa" pos="v" mrp="fin pass ind pret" fun="" com="">kerrottiin</w> <w lemma="kerta" pos="n" mrp="sg part" fun="" com="kerrata_v_conneg ind pres">kertaa</w> <w lemma="kertoa" pos="v" mrp="inf1" fun="" com="">kertoa</w> <w lemma="kertoa" pos="v" mrp="fin ind pret sg3" fun="" com="">kertoi</w> <w lemma="kertoa" pos="v" mrp="fin cond pres sg3" fun="" com="">kertoisi</w> <w lemma="kertomus" pos="n" mrp="sg nom" fun="" com="">kertomus</w> <w lemma="kertoa" pos="v" mrp="fin ind pres sg3" fun="" com="">kertoo</w> <w lemma="kertoa" pos="v" mrp="pcp1 sg nom" fun="" com="">kertova</w> <w lemma="kertoa" pos="v" mrp="fin ind pres pl3" fun="" com="">kertovat</w> <w lemma="keruu" pos="n" mrp="sg nom" fun="" com="">keruu-</w> <w lemma="keruu" pos="n" mrp="sg nom" fun="" com="">keruu</w> <w lemma="keruumatka" pos="n" mrp="sg ela" fun="" com="">keruumatkasta</w> <w lemma="" pos="v" mrp="pcpag sg nom px3" fun="" com="sekamuoto">keruuttamansa</w> <w lemma="" pos="v" mrp="fin ind pret sg3" fun="" com="sekamuoto">keruutti</w>

  6. 2. Syntaktinen koodaus • Valmis sanakirja syötetään takaisin aineistoon • Virkkeet, kappaleet ja tentit rakenteistettu automaattisesti skriptillä, koodausvirheiden korjaus käsin • Kontekstisidonnainen koodaus • Jako lauseisiin ja sanojen syntaktisen roolin koodaus • Sanakirjavaiheen koodausvirheiden korjaus • Virhekoodausta edeltävän tyypittelyn kannalta keskeisin vaihe • Keskeisin virhetaso edistyneillä kielenoppijoilla

  7. 2. Syntaktinen koodaus (jatkoa) <paivamaara>20060221</paivamaara> <tentti num=""/> <teksti num=""/> <s num="79" type="kysymys">Suomen astevaihtelun perusperiaatteet</s> <s num="81"> <cl type="affdecl" fun="" com=“sj_advl"> <w lemma="agglutinoida" pos="v" mrp="pcp1 sg nom" fun="nmod" com="sija_mod">Agglutinoiva</w> <w lemma="kieli" pos="n" mrp="sg ess" fun="advl:p" com="">kielenä</w> <w lemma="suomi" pos="n" mrp="sg gen" fun="nmod" com="">suomen</w> <w lemma="sana" pos="n" mrp="pl ill" fun="advl" com="">sanoihin</w> <w lemma="liimata" pos="v" mrp="fin pass ind pres" fun="pred" com="">liimataan</w> <w lemma="taivutuspääte" pos="n" mrp="pl nom" fun="npobj" com="sija_p_obj">taivutuspäätteet</w> <w lemma="" pos="" mrp="" fun="" com="">,</w> </cl> <cl type="negdecl" fun="" com=""> <w lemma="mikä" pos="pron" mrp="sg nom" fun="npsubj" com="">mikä</w> <w lemma="ei" pos="neg" mrp="sg3" fun="pred" com="">ei</w> <w lemma="muu" pos="pron" mrp="sg part" fun="pred2" com="">muuta</w> <w lemma="sana" pos="n" mrp="sg gen" fun="nmod" com="">sanan</w> <w lemma="luokka" pos="n" mrp="sg part" fun="npobj" com="">luokkaa</w> <w lemma="" pos="" mrp="" fun="" com="">.</w> </cl> </s>

  8. 3. Virhetyypittely • Tyypittely muodostetaan koodauksen aikana tehdyn kommentoinnin pohjalta • Takaa aineistolähtöisen luokittelun • Viisiportainen, hierarkkinen luokitus • Joiltakin osin ristikkäinen, monitasoiset virheet • Toimii ainoastaan yhdessä yleiskoodauksen kanssa • Esim. objektin sijavalinnan ongelmat virhekoodauksessa vain sijavalinta-virheinä • Tekninen toteutus kesken • Lauseopin X-arkiston käyttöliittymän mukautettu versio

  9. Virhekoodaus (jatkoa) • Virheetön/virheellinen • Päätasot • Sanastollis-johto-opilliset virheet • Sanastollis-morfologiset virheet • Morfologiset virheet • Syntaktiset virheet • Lauserakenteelliset virheet

  10. Seuraavaksi: • Virhekoodauksen teknisten ratkaisujen luominen • Vertailuaineiston koostaminen • Suomenkielisten opiskelijoiden tenttivastauksia • Tekstilajivalikoiman laajentaminen • Ensimmäiset julkaisut ja tulevia tutkimusaiheita: • Ivaska 2009: Eksistentiaalilause lausetyyppinä edistyneiden suomenoppijoiden kielessä (pro gradu) • Siitonen: Muoto-opillisten virheiden väheneminen, verbivalikoiman monipuolistuminen, infinitiivi- ja partisiippirakenteiden lisääntyminen • Siitonen: alkeisopetuksen vaikutus myöhempään kielitaitoon, oppijansuomen rakenne-erot äidinkielisten suomeen nähden

More Related