norsk andrespr kskorpus ask l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Norsk andrespråkskorpus (ASK) PowerPoint Presentation
Download Presentation
Norsk andrespråkskorpus (ASK)

Loading in 2 Seconds...

play fullscreen
1 / 43

Norsk andrespråkskorpus (ASK) - PowerPoint PPT Presentation


 • 248 Views
 • Uploaded on

Norsk andrespråkskorpus (ASK). Samarbeid Norsk Språktest Aksis Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet. Norsk Språktest. Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) Arrangerer:

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Norsk andrespråkskorpus (ASK)' - albert


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
norsk andrespr kskorpus ask
Norsk andrespråkskorpus (ASK)

Samarbeid

 • Norsk Språktest
 • Aksis
 • Nordisk institutt, UiB (Kari Tenfjord, prosjektleder)

Finansiering: Norges Forskningsråd, Meltzerfondet

slide2

Norsk Språktest

 • Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig)
 • Arrangerer:
  • Språkprøven i norsk for voksne innvandrere
   • Avsluttende prøve for den offentlige grunnopplæring
   • Arrangeres 3 ganger i året minst ett sted i hvert fylke
   • Lese- og lytteforståelse, skriftlig og muntlig prøve
  • Test i norsk - høyere nivå (Bergenstesten)
   • Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter
   • Muntlig: for helsepersonell
slide3

Språkprøven

 • 2001: 2309 kandidater (63% kvinner), 62% bestått
 • 2002: 2593 kandidater (65% kvinner), 60% bestått
 • 2003: 3174 kandidater (63% kvinner), 58% bestått
 • 2003: 106 forskjellige land, 103 ulike morsmål
 • Skriftlig prøve: forklarende eller fortellende
 • Ca. 240 ord
slide4

Høyere nivå (Bergenstesten)

 • 2001: 998 kandidater
 • 2002: 1129 kandidater
 • 2003: 1286 kandidater
 • Skriftlig prøve: forklarende, fortellende eller argumenterende
 • Ca. 450 ord
slide5

Eksempel på oppgaver (Språktesten)

Skriv en tekst om:

 • adopsjon
 • alkoholvaner
 • barneoppdragelse
 • en bok du har lest
 • det du mener er viktige verdier i livet
 • din første jobb
 • ditt møte med norsk kultur
 • en eller flere nyheter som har gjort inntrykk på deg
 • en forfatter og en bok han/hun har skrevet
 • en hyggelig opplevelse du har hatt
 • en interesse du har
 • en kjent person
 • en person som har betydd mye for deg
slide6

Eksempel på oppgaver (Bergenstesten)

Skriv ett av følgende leserbrev til en lokalavis:

1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet;

eller

2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.

slide9

Persondata

 • Norsk Språktest har lagret persondata i SPSS
 • Opplysninger kodes, verdi  tallkode
 • Kodebok

v14timer Timer i grunnopplæring

Value Label

1 under 200

2 200-400

3 401-500

4 501-850

5 851-1500

6 1501-2000

7 2001-3000

slide10

Persondata

Tid i Norge (antall år)

Timer i grunnopplæring

Antall mnd. siden start på norskkurs

Hvor har du gått på kurs

Hva skal du bruke prøveresultatet til: skole

Bruke: arbeid

Bruke: dokumentere

Bruke: annet

Hvor ofte snakker du norsk utenfor klasserommet

Har du sosial omgang med nordmenn?

Omgang med norske på fritiden

Omgang med norske på jobben/skolen

Kandidatnummer

Testdato

Nivå på testen

Hjemland

Morsmål

Alder

Kjønn

Engelsknivå

Skolegang utenfor Norge

Antall skoleår utenfor Norge

Hva gjør du i Norge

Yrke i Norge

slide11

Yrke i Norge

Value Label

1 helsearbeid

2 kontorarbeid

3 manuelt arbeid

4 servicenæring

5 opplæring/undervisning

6 transport

7 politi, toll, brann

8 kultur

9 hjemmeværende

10 annet

11 akademisk yrke

slide12

Korpus og utvalg

 • Utvalg av språk
  • Spredning etter type språk
  • Må ha nok besvarelser, alle må ha bestått
 • Utvalg innen språk
  • Samme type oppgave
 • 10 språk
  • 100 besvarelser innen hvert språk
  • Både Språkprøven og Høyere nivå
 • Kontrollgruppe
  • Nordmenn, fra kor og idrettslag etc.
slide13

Problemer vedrørende utvalg

 • Ønsket flere/andre morsmål, men ikke nok antall
 • Ulik fordeling av morsmål i de to testene
 • Skjev kjønnsfordeling
  • Russisk, polsk : 90-95% kvinner
 • Ønsket flere besvarelser, men ikke økonomi
 • Ønsket muntlig prøve, men ikke økonomi
slide14

Valgte morsmål

 • Albansk
 • Engelsk
 • Nederlandsk
 • Polsk
 • Russisk
 • Serbokroatisk
 • Somali
 • Spansk
 • Tysk
 • Vietnamesisk
feilbegrepet
Feilbegrepet
 • Problematisk med begrepene ”feil” og ”korrekt form”
 • Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ”
 • Andre termer: avvik, løsning
 • (kilde) L1  interlanguage  L2 (mål)
 • Feil viser hvorledes språket blir lært
 • Det å gjøre feil er en måte å teste ut målspråket
 • Grader av feil, ikke lett å avgjøre hva som er rett
bakgrunn for feilkoder ask
Bakgrunn for feilkoder ASK

Studerte feilkoder i tre større prosjekter

ICLE (International Corpus of Learner English)

(tag) feil $rett$ (feil eller rett kan være 0)

He took the books (QL) and $,$ the records and the computers.

FRIDA (French Interlanguage Database) corpus.

<type><subtype><ordklasse>#rett$feil</..></..></type>

très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G>

Cambridge Learner Corpus

<#CODE>wrong word|corrected word</#CODE>

He died <#MP>we|.We</#MP> buried him the next day.

ask feilkoder
ASK feilkoder
 • Enkelt system slik at kodingsfeil unngås
 • Grammatisk informasjon annoteres automatisk (senere)
 • Velger retting som krever minst forandringer
 • Har kodemanual med eksempler
 • Systematisk sjekk av koding (ved konkordans)
 • Bruker TEI sic tag med ekstra attributter
 • <sic type=type desc=undertype corr=rett>feil</sic>
 • Det kan være flere feilmarkeringer til et ord (men ikke overlapp)
ask feilkoder18
ASK feilkoder

5 hovedgrupper

 • Leksemfeil
 • Morfologifeil
 • Syntaksfeil
 • Tegnsettingsfeil
 • Uidentifiserbar feil
ask feilkoder leksemfeil
ASK feilkoder: Leksemfeil
 • W galt ord
 • ORT ortografisk feil
 • PART samskrivningsfeil, avledningsfeil
 • SPL særskrivningsfeil
 • DER gal avledning
 • CAP galt valg av stor/liten bokstav
 • FL ord fra andre språk enn norsk
ask feilkoder leksemfeil20
ASK feilkoder: Leksemfeil
 • W Fra min mening ... (Etter)
 • ORT Kun i ordets grunnform (ikke bøying)
 • PART etterhvert (etter hvert)
 • SPL sove rom (soverom)
 • DER stillighet (stillhet)
 • CAP europa (Europa)
 • FL lettere å resolvere problemer (løse)
ask feilkoder morfologifeil
ASK feilkoder: Morfologifeil
 • F (galt valg av morfosyntaktisk bøyningsform)
  • Hvilken miljø skal man bo. (Hvilket)
  • ..og ikke så lang fra sentrum (langt)
  • Det var jo ham som har betydd absolutt mest (er)
 • INFL (feil form der intensjonen er riktig morfosyntaktisk kategori)
  • har mye trafikker og bråker (trafikk og bråk)
  • Vi hald kontakten (holdt)
ask feilkoder syntaksfeil
ASK feilkoder: Syntaksfeil
 • M (et ord eller en frase mangler)
  • Vi hilser ___ hverandre når vi .... (mangler på)
 • R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk)
  • Etter ti dager senere giftet... (senere redundant)
 • O (ord eller fraser står i gal rekkefølge)
  • ..nok stor for oss... (stor nok)
ask feilkoder undertyper til feiltype o
ASK feilkoder: Undertyper til feiltype O
 • INV (inversjonsfeil)
  • I begynnelsen det var veldig vanskelig... (var det)
 • OINV (overgeneralisering av inversjonsregel)
  • .. selv om er det press .. (det er)
 • MCA (gal plassering av setningsadverbialet i helsetning)
  • fordi jeg har ikke vært i Norge før.. (ikke har)
 • SCA (gal plassering av setningsadverbialet i leddsetning)
  • Man kan ringe alltid hvor man er. (alltid ringe)
ask feilkoder tegnsettingsfeil
ASK feilkoder: Tegnsettingsfeil
 • PUNC (galt valg av tegn)
  • Hvem trekker først. (?)
 • PUNCM (tegnsetting mangler)
  • Når vi ser ca 50 år tilbake (ca.)
 • PUNCR (tegnsetting må fjernes)
  • .. med huset, og barna (ikke komma foran og)
ask feilkoder uidentifiserbar feil
ASK feilkoder: Uidentifiserbar feil
 • X
  • Vennskapet mitt var utrolig.
  • de liker virkelig å hjelpe i menneskighet.
stilark
Stilark

Til hjelp ved kontroll kan en kjøre flere stilark på server.

konkordans som hjelpemiddel
Konkordans som hjelpemiddel
 • De som koder har adgang til konkordans (via web)
 • Kjøres på de tekstfilene som enhver tid er i katalogen
 • Kan sjekke hvordan andre har kodet
 • Kan sjekke konsistens i koding
 • Kan enkelt gå til fil for retting
persondata
Persondata
 • Skjema har forandret seg gjennom årene
 • Data ligger i SPSS-filer (kodet med kodebok)
 • Ulike formater
 • Eksporteres som tab-separert fil
 • Kobles med tekst gjennom kandidatnummer-år/mnd
 • Diskusjon med Datatilsynet/NSD om hva vi kunne ta med (tekster ble også anonymisert mht. navn, steder etc.)
tagging
Tagging
 • Bruker Oslo-Bergen tagger
 • Kan være problematisk å bruke standard tagger på tekst med mange feil
 • Tagger er robust
 • Tagger bruker corr-feltet ved ortografiske feil
tilrettelegging for s king
Tilrettelegging for søking
 • Bruker Corpus Workbench via TCP/IP socket
 • Web-basert grensesnitt (Common Lisp)
 • Web-sider lages som XML og oversettes på server til HTML via stilark (XSLT)
 • Det lages en korrektversjon av hver setning, får på denne måten et parallellkorpus
 • Kan rette taggefeil ved søking
 • Kan laste ned resultat til PC (Excel og lignende.)