norsk andrespr kskorpus ask l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Norsk andrespråkskorpus (ASK) PowerPoint Presentation
Download Presentation
Norsk andrespråkskorpus (ASK)

Loading in 2 Seconds...

play fullscreen
1 / 43

Norsk andrespråkskorpus (ASK) - PowerPoint PPT Presentation


  • 243 Views
  • Uploaded on

Norsk andrespråkskorpus (ASK). Samarbeid Norsk Språktest Aksis Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet. Norsk Språktest. Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) Arrangerer:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Norsk andrespråkskorpus (ASK)' - albert


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
norsk andrespr kskorpus ask
Norsk andrespråkskorpus (ASK)

Samarbeid

  • Norsk Språktest
  • Aksis
  • Nordisk institutt, UiB (Kari Tenfjord, prosjektleder)

Finansiering: Norges Forskningsråd, Meltzerfondet

slide2

Norsk Språktest

  • Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig)
  • Arrangerer:
    • Språkprøven i norsk for voksne innvandrere
      • Avsluttende prøve for den offentlige grunnopplæring
      • Arrangeres 3 ganger i året minst ett sted i hvert fylke
      • Lese- og lytteforståelse, skriftlig og muntlig prøve
    • Test i norsk - høyere nivå (Bergenstesten)
      • Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter
      • Muntlig: for helsepersonell
slide3

Språkprøven

  • 2001: 2309 kandidater (63% kvinner), 62% bestått
  • 2002: 2593 kandidater (65% kvinner), 60% bestått
  • 2003: 3174 kandidater (63% kvinner), 58% bestått
  • 2003: 106 forskjellige land, 103 ulike morsmål
  • Skriftlig prøve: forklarende eller fortellende
  • Ca. 240 ord
slide4

Høyere nivå (Bergenstesten)

  • 2001: 998 kandidater
  • 2002: 1129 kandidater
  • 2003: 1286 kandidater
  • Skriftlig prøve: forklarende, fortellende eller argumenterende
  • Ca. 450 ord
slide5

Eksempel på oppgaver (Språktesten)

Skriv en tekst om:

  • adopsjon
  • alkoholvaner
  • barneoppdragelse
  • en bok du har lest
  • det du mener er viktige verdier i livet
  • din første jobb
  • ditt møte med norsk kultur
  • en eller flere nyheter som har gjort inntrykk på deg
  • en forfatter og en bok han/hun har skrevet
  • en hyggelig opplevelse du har hatt
  • en interesse du har
  • en kjent person
  • en person som har betydd mye for deg
slide6

Eksempel på oppgaver (Bergenstesten)

Skriv ett av følgende leserbrev til en lokalavis:

1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet;

eller

2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.

slide9

Persondata

  • Norsk Språktest har lagret persondata i SPSS
  • Opplysninger kodes, verdi  tallkode
  • Kodebok

v14timer Timer i grunnopplæring

Value Label

1 under 200

2 200-400

3 401-500

4 501-850

5 851-1500

6 1501-2000

7 2001-3000

slide10

Persondata

Tid i Norge (antall år)

Timer i grunnopplæring

Antall mnd. siden start på norskkurs

Hvor har du gått på kurs

Hva skal du bruke prøveresultatet til: skole

Bruke: arbeid

Bruke: dokumentere

Bruke: annet

Hvor ofte snakker du norsk utenfor klasserommet

Har du sosial omgang med nordmenn?

Omgang med norske på fritiden

Omgang med norske på jobben/skolen

Kandidatnummer

Testdato

Nivå på testen

Hjemland

Morsmål

Alder

Kjønn

Engelsknivå

Skolegang utenfor Norge

Antall skoleår utenfor Norge

Hva gjør du i Norge

Yrke i Norge

slide11

Yrke i Norge

Value Label

1 helsearbeid

2 kontorarbeid

3 manuelt arbeid

4 servicenæring

5 opplæring/undervisning

6 transport

7 politi, toll, brann

8 kultur

9 hjemmeværende

10 annet

11 akademisk yrke

slide12

Korpus og utvalg

  • Utvalg av språk
    • Spredning etter type språk
    • Må ha nok besvarelser, alle må ha bestått
  • Utvalg innen språk
    • Samme type oppgave
  • 10 språk
    • 100 besvarelser innen hvert språk
    • Både Språkprøven og Høyere nivå
  • Kontrollgruppe
    • Nordmenn, fra kor og idrettslag etc.
slide13

Problemer vedrørende utvalg

  • Ønsket flere/andre morsmål, men ikke nok antall
  • Ulik fordeling av morsmål i de to testene
  • Skjev kjønnsfordeling
    • Russisk, polsk : 90-95% kvinner
  • Ønsket flere besvarelser, men ikke økonomi
  • Ønsket muntlig prøve, men ikke økonomi
slide14

Valgte morsmål

  • Albansk
  • Engelsk
  • Nederlandsk
  • Polsk
  • Russisk
  • Serbokroatisk
  • Somali
  • Spansk
  • Tysk
  • Vietnamesisk
feilbegrepet
Feilbegrepet
  • Problematisk med begrepene ”feil” og ”korrekt form”
  • Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ”
  • Andre termer: avvik, løsning
  • (kilde) L1  interlanguage  L2 (mål)
  • Feil viser hvorledes språket blir lært
  • Det å gjøre feil er en måte å teste ut målspråket
  • Grader av feil, ikke lett å avgjøre hva som er rett
bakgrunn for feilkoder ask
Bakgrunn for feilkoder ASK

Studerte feilkoder i tre større prosjekter

ICLE (International Corpus of Learner English)

(tag) feil $rett$ (feil eller rett kan være 0)

He took the books (QL) and $,$ the records and the computers.

FRIDA (French Interlanguage Database) corpus.

<type><subtype><ordklasse>#rett$feil</..></..></type>

très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G>

Cambridge Learner Corpus

<#CODE>wrong word|corrected word</#CODE>

He died <#MP>we|.We</#MP> buried him the next day.

ask feilkoder
ASK feilkoder
  • Enkelt system slik at kodingsfeil unngås
  • Grammatisk informasjon annoteres automatisk (senere)
  • Velger retting som krever minst forandringer
  • Har kodemanual med eksempler
  • Systematisk sjekk av koding (ved konkordans)
  • Bruker TEI sic tag med ekstra attributter
  • <sic type=type desc=undertype corr=rett>feil</sic>
  • Det kan være flere feilmarkeringer til et ord (men ikke overlapp)
ask feilkoder18
ASK feilkoder

5 hovedgrupper

  • Leksemfeil
  • Morfologifeil
  • Syntaksfeil
  • Tegnsettingsfeil
  • Uidentifiserbar feil
ask feilkoder leksemfeil
ASK feilkoder: Leksemfeil
  • W galt ord
  • ORT ortografisk feil
  • PART samskrivningsfeil, avledningsfeil
  • SPL særskrivningsfeil
  • DER gal avledning
  • CAP galt valg av stor/liten bokstav
  • FL ord fra andre språk enn norsk
ask feilkoder leksemfeil20
ASK feilkoder: Leksemfeil
  • W Fra min mening ... (Etter)
  • ORT Kun i ordets grunnform (ikke bøying)
  • PART etterhvert (etter hvert)
  • SPL sove rom (soverom)
  • DER stillighet (stillhet)
  • CAP europa (Europa)
  • FL lettere å resolvere problemer (løse)
ask feilkoder morfologifeil
ASK feilkoder: Morfologifeil
  • F (galt valg av morfosyntaktisk bøyningsform)
    • Hvilken miljø skal man bo. (Hvilket)
    • ..og ikke så lang fra sentrum (langt)
    • Det var jo ham som har betydd absolutt mest (er)
  • INFL (feil form der intensjonen er riktig morfosyntaktisk kategori)
    • har mye trafikker og bråker (trafikk og bråk)
    • Vi hald kontakten (holdt)
ask feilkoder syntaksfeil
ASK feilkoder: Syntaksfeil
  • M (et ord eller en frase mangler)
    • Vi hilser ___ hverandre når vi .... (mangler på)
  • R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk)
    • Etter ti dager senere giftet... (senere redundant)
  • O (ord eller fraser står i gal rekkefølge)
    • ..nok stor for oss... (stor nok)
ask feilkoder undertyper til feiltype o
ASK feilkoder: Undertyper til feiltype O
  • INV (inversjonsfeil)
    • I begynnelsen det var veldig vanskelig... (var det)
  • OINV (overgeneralisering av inversjonsregel)
    • .. selv om er det press .. (det er)
  • MCA (gal plassering av setningsadverbialet i helsetning)
    • fordi jeg har ikke vært i Norge før.. (ikke har)
  • SCA (gal plassering av setningsadverbialet i leddsetning)
    • Man kan ringe alltid hvor man er. (alltid ringe)
ask feilkoder tegnsettingsfeil
ASK feilkoder: Tegnsettingsfeil
  • PUNC (galt valg av tegn)
    • Hvem trekker først. (?)
  • PUNCM (tegnsetting mangler)
    • Når vi ser ca 50 år tilbake (ca.)
  • PUNCR (tegnsetting må fjernes)
    • .. med huset, og barna (ikke komma foran og)
ask feilkoder uidentifiserbar feil
ASK feilkoder: Uidentifiserbar feil
  • X
    • Vennskapet mitt var utrolig.
    • de liker virkelig å hjelpe i menneskighet.
stilark
Stilark

Til hjelp ved kontroll kan en kjøre flere stilark på server.

konkordans som hjelpemiddel
Konkordans som hjelpemiddel
  • De som koder har adgang til konkordans (via web)
  • Kjøres på de tekstfilene som enhver tid er i katalogen
  • Kan sjekke hvordan andre har kodet
  • Kan sjekke konsistens i koding
  • Kan enkelt gå til fil for retting
persondata
Persondata
  • Skjema har forandret seg gjennom årene
  • Data ligger i SPSS-filer (kodet med kodebok)
  • Ulike formater
  • Eksporteres som tab-separert fil
  • Kobles med tekst gjennom kandidatnummer-år/mnd
  • Diskusjon med Datatilsynet/NSD om hva vi kunne ta med (tekster ble også anonymisert mht. navn, steder etc.)
tagging
Tagging
  • Bruker Oslo-Bergen tagger
  • Kan være problematisk å bruke standard tagger på tekst med mange feil
  • Tagger er robust
  • Tagger bruker corr-feltet ved ortografiske feil
tilrettelegging for s king
Tilrettelegging for søking
  • Bruker Corpus Workbench via TCP/IP socket
  • Web-basert grensesnitt (Common Lisp)
  • Web-sider lages som XML og oversettes på server til HTML via stilark (XSLT)
  • Det lages en korrektversjon av hver setning, får på denne måten et parallellkorpus
  • Kan rette taggefeil ved søking
  • Kan laste ned resultat til PC (Excel og lignende.)