1 / 25

Transkripsjon i et talespråkskorpus

Transkripsjon i et talespråkskorpus. Janne Bondi Johannessen, Kristin Hagen, Lars Nygaard og Hanne Gram Simonsen ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, kristiha, larsnyg, hannegs}@iln.uio.no. Dette foredraget. NoTa-prosjektet Ortografisk transkripsjon

lynna
Download Presentation

Transkripsjon i et talespråkskorpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Transkripsjon i et talespråkskorpus Janne Bondi Johannessen, Kristin Hagen, Lars Nygaard og Hanne Gram Simonsen ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, kristiha, larsnyg, hannegs}@iln.uio.no

  2. Dette foredraget • NoTa-prosjektet • Ortografisk transkripsjon • Prinsipper for transkripsjon • Utfordringer: • Prinsippene kan føre til konflikt • Ikke alle ord er i ordboka og har en norm • Dialektord, lånord, nye ord • Tall • Interjeksjoner og lyder • Framtida

  3. Talespråk i lingvistisk forskning • Data fra virkeligheten er viktig i lingvistisk forskning – ikke minst talespråk • Det finnes få tilgjengelige talespråksdata i dag • NoTa-prosjektet bøter på dette! • NoTa: Foreløpig bare Oslo-språket. Andre mangler finansiering

  4. NoTa-Oslo • 144 informanter – representative m.h.t. alder, kjønn, utdannelse, sosial status og geografisk tilhørighet • Hovedfokus på spontantale. Hver informant: • 10 minutters intervju • 30-45 minutters samtale med en annen informant

  5. Demo søkegrensesnitt Test

  6. Demo søkegrensesnitt - informanter

  7. Demo– korpussøk

  8. Demo– korpussøk

  9. Demo– korpussøk

  10. Ortografisk transkripsjon • NoTa-Oslo bruker ortografisk transkripsjon • Talesøk • CGN (Nederland) • Bysoc (København) • Modifisert transkripsjon • Swedish Spoken Language Corpus, Gøteborgs Universitet (Modifierad Standardortografi, Nivre 1999)

  11. Ortografisk transkripsjon • ÷ representerer ikke hva informantene faktisk sier (men transkripsjon som er lenket til lyd- og bildefiler kan kompensere noe for dette) • + gjør korpuset søkbart • + gjør det lettere å søke automatisk • + er raskere å foreta • + oppgaven for transkribørene blir enklere – men talespråk har mange utfordringer for standard ortografi ...

  12. Ortografisk transkripsjon - def. • Hva er et ortografisk transkribert ord? • Ord eller ordform som finnes i en standard ordbok (Bokmålsordboka) • Nytt ord som er dannet på bakgrunn av vanlige ordlagingsprosesser (avledning, sammensetning), hvor bestanddelene finnes i en standard ordbok

  13. Hovedprinsipper for transkripsjonen • Bruke ordboksformer Informanten sier: denna gata Vi transkriberer: denne gata • Aldri forandre ordstillingen for å tekkes normen Informanten sier: hva du sa jei skulle gjøre? Vi transkriberer: hva du sa jeg skulle gjøre? • Bruke ordboksformer også der hvor de er “galt brukt” i forhold til normen Informanten sier: dem jikk Vi transkriberer: dem gikk

  14. Hovedprinsipper for transkripsjonen • Når mer enn én variant er lov ifølge rettskrivingsnormen, så velg den varianten som er nærmest den som informanten bruker Informanten sier: jæ trur de Vi transkriberer: jeg trur det (ikke: tror)

  15. Utfordringer: Prinsipper som kan føre til konflikter • Ei maskin • Informanten sier: ei maskin (fem.) • Ordboka sier: en maskin (mask.) • Transkripsjonsprinsipp 3 sier: ei maskin Prinsipp 3: Bruk former som finnes i ordboka - også når de er brukt på “galt” sted) Her: ei står i ordboka - bruk den • maskina • Informanten sier maskina (med fem. suffiks) • Ordboka sier: maskinen (med mask. suffiks) • Transkripsjonsprinsipp 1: maskinen Prinsipp 1: Bruk former som finnes i ordboka  Løsning: Vær tro mot informantens variant, ikke mot ordbokas norm. Ellers ville vi fått et system som innførte selvmotsigelser i informantens eget genussystem

  16. Utfordringer: Ordet er ikke i ordboka – a og n • De klitiske pronomenformene a og n har forskjellig form fra de fulle pronomenene: a = hun (3. p. sg. f. nom) a = henne (3. p. sg. f. akk) n = han (3. p. sg. m. nom) n = ham (3. p. sg. m. akk) n = den (3. p. sg. m. inhum. nom) n = den (3. p. sg. m. inhum. akk) • Det er ikke klart hvilket pronomen klitikaene evt. skulle vært varianter av der er a  der er hun eller der er henne ? der er n  der er han eller der er ham eller der er den ?

  17. Ordet er ikke i ordboka – a og n • Siden ulike personer bruker pronomener - også de sterke formene - ulikt (nominativ er ikke alltid subjektsform osv.), vil det bli galt å bruke normative retningslinjer som evt. ville gått på tvers av transkripsjonsprinsippene •  Løsning: Vi transkriberer a og n når informanten sier a og n – selv om a og n ikke står i ordboka

  18. Utfordringer: dialektord, nyord osv. • Hovedprinsipp: Behold leksikalske ord som ikke finnes i ordboka, men marker dem som [language= x] • Dialektord, lånord og nyord behandles likt (etter en viss diskusjon) den fisken ser gøllei [language=x] ut yes [language=eng] det er fint den derre [language=x] bloggen [language=x] er artig

  19. Utfordringer: Skal nye ord (slangord) skrives etter norske prinsipper for lyd/bokstav eller følge originalspråket? • Hvor vanlig har ordet blitt i skrift? • Schpa, schmø, wolla, taz? • Finnes det enkelte varianter av ordet i ordbøkene? • Vorspiel • -> Verb: vorse? fårse? forse? • Går det i det hele tatt an å følge norske prinsipper? • Sjpa? Skjpa? • Hva blir mest konsekvent? • Sjpa? skjpa, wolla? wålla? volla? vålla? tæz? taz? tæss? tæs?) => Løsning: Ordbøkene er viktigste ledetråd (blir mest konsekvent, og folk kan slå opp). Norsk bokmålsordbok (UiO), Kebabnorsk (Andreas Østby, Gyldendal 2004)

  20. Utfordringer: tall • Tall står ikke i ordbøkene •  Løsning: Bruk Finn-Erik Vinjes Skriveregler Informanten sier: det er hundreogtjueåtte kroner Vi transkriberer: det erhundre og tjueåtte kroner

  21. Utfordringer: interjeksjoner • Mange interjeksjoner står ikke i ordbøkene •  Løsning: Vi har laget en egen liste med transkripsjon av disse

  22. Interjeksjoner • m (nøling, ta til etterretning, nam) • m-m (benektende) • mhm (”Jeg forstår” – to stavelser) • mm (bekreftende – to stavelser) • næ (overrasket, undrende) • nja (tvilende) BMO • næhei (forsterkende ”nei”) • ops (oi da) • u (imponert) • uff a meg (beklagelse) BMO • ææ (konstaterende – to stavelser) • å-å (”oi”) • å ja (overrasket) • aha (overrasket) BMO • e (nøling – uansett lengde på een) • eh (avstandsindikerende) • ehe (”Jeg forstår” – to stavelser) • em (nøling) • gud a meg (overrasket, utrop) • heh (imponert) • hm (spørrende, undrende) BMO i betydningen kremting • huff a meg (beklagelse) BMO • hæ (spørrende) BMO • jaha (forsterkende ”ja”) BMO

  23. Utfordringer: lyder • Hovedprinsipp: bare transkriber lyder med betydning (ikke forkjøla hoste) • Noen lyder: • Fremre klikkelyd • Bakre klikkelyd • Sugelyd • Sibilant • Gjesping • Latter • Pusting • Spesialhosting

  24. Utfordringer: uttalevariasjon • Variasjon er ikke transkribert, og er derfor ikke søkbar •  Løsning: • Transkripsjon er lenket til lydfiler: søk på enkeltord, hør på lydfilene, og sorter på nytt • Variasjon kan legges til senere • Variasjon for pronomener er transkribert: Informanten sier: Je så henner Vi transkriberer: Jeg [lex=je] så henne [lex=henner]

  25. Framtida • NoTa blir tilgjengelig for forskere i begynnelsen av 2006 • Mer enn 150 informanter blir tilgjengelige • Håper på mer penger, pga: • Telefonsamtaler • Historisk dimensjon med TAUS • Flere talesituasjoner med Big Brother • Flere dialekter (inkludert ScanDiaSyn)

More Related