1 / 23

Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se katarina.heimann.muhlenbock@gu.se. I see what you mean – Assessing readability for specific target groups Avhandling vid Språkbanken, Institutionen för svenska språket, Göteborgs universitet Temadag DART.

oriel
Download Presentation

Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se katarina.heimann.muhlenbock@gu.se I see what you mean – Assessing readability for specific target groupsAvhandling vid Språkbanken, Institutionen för svenska språket, Göteborgs universitetTemadag DART

  2. Disposition av presentationen • Syftet med avhandlingen • Enkel svensk text • Målgruppen • Textförenkling • Läsbarhet • Hur kan språkteknologiska metoder användas för att mäta läsbarhet? • Vilka egenskaper hos texten har jag studerat? • Resultat

  3. Avhandlingsämnet Syftet med avhandlingen • Granska vetenskaplig litteratur och hitta belägg för att vissa egenskaper hos en text påverkar komplexitet och läsbarhet (= evidensbaserat) • Egenskaperna ska vara belagda genom läsförståelsetest, ögonrörelsemätning eller hjärnavbildningsteknik • Statistiskt jämföra egenskaperna hos texter som tillhör samma genre (skönlitteratur, nyhetstext eller information), men av olika komplexitet • Skapa en språkmodell att använda i en automatisk textklassificerare

  4. Enkel svensk text ”Enkel svensk text” • Centrum för lättläst • ”Lättläst” (25% av Sveriges befolkning…) • Regeringskansliet (Språkrådet) • ”Klarspråk” (arbetar för att skapa ett förenklat kanslispråk) • Radions P4 • ”Klartext” (nyheter på lätt svenska) • Olika specialförlag

  5. Enkel svensk text Lättläst • Viktigt: Tillgänglighetsfråga, väldigt lite gjort för svenska. • Samhällets krav på medborgarnas förmåga att ta till sig text ökar. • Svårt: Det finns ingen enighet i forskning eller praktik om: • vad som är lättläst • hur mottagaranpassning ska se ut och praktiskt genomföras • Aktuellt: Tillgänglighetsåret 2010 har passerat, omdebatterat just nu • Bland annat i relation till Språklagen. Språkteknologin ger nya möjligheter.

  6. Enkel svensk text ”Lättläst text” enligt CfL – för vem? ”Cirka 25% av Sveriges vuxna befolkning behöver lättläst information”. www.lattlast.se Heterogen grupp vuxna personer med olika behov: • Dyslektiker • Afatiker • Personer med lindrig intellektuell utvecklingsstörning • Andraspråksinlärare IALS-projektet (International Adult Literacy Survey), OECD 1994. ”En av fyra dagstidningsläsare har svårigheter att tillgodogöra sig vanliga nyhetsartiklar där de inte är välbekanta med innehållet. Lågfrekventa ord bör undvikas, liksom abstrakta begrepp som kräver flera tolkningssteg för att förstå vad som åsyftas. Konkreta rubriker, bilder och bildtexter, samt omsorgsfull redigering gör det möjligt att förstå även ganska komplicerad texter.” (Mats Myrberg, Lärarhögskolan i Stockholm)

  7. Målgrupp Målgruppen personer med intellektuell utvecklingsstörning • Mellan 0,4 och 0,5 % av befolkningen enligt administrativa uppgifter (insatser enligt LSS eller särskolebehov) • Mellan 2 och 3 % av befolkningen enligt psykologiska definitioner (< 70 IQ) • indelning i 4 grupper har gjorts av WHO, i praktiken bara 3 • Lätt eller lindrig utvecklingsstörning (24%) • Måttlig (34%) • Svår (41%) Antalet personer i målgruppen 50 000 – 60 000 i Sverige Läsbegränsningar: Arbetsminne och diskursrepresentationer

  8. Textförenkling Exempel Originalversion Lättläst version På våra sidor hittar du information om all utbildningsverksamhet i Linköping för barn, ungdomar och vuxna. Här finns också information om vad vi erbjuder för verksamhet under lov och fritid, vilket stöd vi kan erbjuda för olika behov samt hur vi arbetar med att utvecklaverksamheten. Vill du veta hur vi är organiserade eller vem som jobbar med vad i vår organisation tryck på länken "Utbildningsförvaltningen" till höger. Här hittar du information om all utbildning i Linköping. Du får också veta vad man kan göra på lov och fritid. Vi berättar om vilket stöd vi kan ge, ifall du behöver det. Du kan också läsa om vad vi gör för att bli bättre. Klicka på länken "Utbildningsförvaltningen" till höger, ifall du vill veta mer.  Där kan du också kontakta oss. 6 meningar om i medeltal 10 ord Färre långa ord (11 % > 6 bokst) Diffusa begrepp förenklade 3 meningar om i medeltal 22 ord Långa ord (21 % > 6 bokst) Diffusa begrepp

  9. Läsbarhet Hur undersöker man läsbarhet? • Litar på sin språkliga intuition • Granskar olika läsbarhetsfaktorer i en given text • Samlar in en korpus med enkel text för att dra slutsatser om materialet • Granskar parallella texter för att undersöka om det finns statistiska mönster som kan ge användbar information • Intervjuar/filmar testpersoner under läsning • Observerar testpersoners ögonrörelser under läsning • Observerar testpersoner med hjärnavbildningsteknik under läsning Kombination av 3 och 4 = statistisk språkmodellering

  10. Läsbarhet Läsbarhet • Relation mellan läsaren och texten • Påverkas av individens kognitiva förutsättningar (perception, minne, intelligens, språk) • Påverkas av individens emotionella förutsättningar (motivation) • Evidensbaserade svenska undersökníngar av om en text har hög/låg läsbarhet: Textundersökning • Björnsson, 1968 Individundersökning • Ögonrörelsestudier • Läsförståelsetester • Hjärnavbildningsmetoder (fMRI o ERP) ?

  11. Läsbarhet Läsbarhetsfaktorer • Läsbarhetsfaktorer: ordens längd, procenttalet flerstaviga ord, textens abstraktionsgrad, bisatstäthet m.m. • Läsbarhetsforskning har främst bedrivits i USA, start runt 1920-30-talet (Lively & Pressey, Vogel & Washburne, Lewerentz, Dale & Tyler, Gray & Leary, Morris & Holversen) • Förfinade statistiska beräkningar 1940-50-talet (Flesch, Dale & Chall, Gunning) • 1968 kom LIX (Läsbarhetsindex) för svenska (Björnsson)

  12. Läsbarhet Läsbarhetsfaktorer i amerikanska studier 1920-30-talet(enl Chall, J.S. 1958, Klare, G.R. 1963)

  13. Läsbarhet Björnssons undersökning av läsbarhetsfaktorer för svenska

  14. Läsbarhet Läsbarhetsindex = numerisk skala där olika läsbarhetsnivåer kan jämförasLäsbarhetsformel = en uppsättning läsbarhetsvariabler (symboler) • Framför allt amerikanska studier av engelska språket, räknas oftast i meningslängd och genomsnittligt antal stavelser i texten • Är avsett att indela text i olika nivåer beroende på svårighetsgrad • Kopplat till nivåerna i det amerikanska skolsystemet (ex. 6.8 på skalan för Flesch-Kincaid index = 6e klass) • Svenska läsbarhetsformeln LIX baserad på procentandel ord > 6 bokstäver och genomsnittlig meningslängd:

  15. Läsbarhet Jämförelse LIX / Amerikanska läsbarhetsindex

  16. Läsbarhet Chall (1958): ”Onlyfourtypesof elements aresignificantlyrelatedto the criteria so far used: vocabularyload,sentencestructure, ideadensity, human interest” Chall, J. (1958): Readabilty. An appraisalof research and applications. • Vokabulärtyngd • Meningsstruktur • Idétäthet • Mänskligt intresse

  17. Hur kan språkteknologiska metoder användas för att mäta läsbarhet? Samlar in en korpus med enkel text från olika genrer för att sedan statistiskt jämföra med motsvarande ordinära texter Materialet måste förberedas genom att tillföra information om: - ordklass (POS-taggning) - meningsstruktur (parsning) - betydelsedjup (associationslexikon) - ordens frekvens/spridning (SweVoc) Språkteknologi

  18. Språkteknologi Korpusen LäSBarT Korpusen SUC 2.0 • Lättläst Svenska och BarnboksText • Texter från 2000 -> • 1,4 miljoner ord • Innehåller material från fyra olika genrer och av två texttyper • Stockholm-Umeå corpus • Texter från 1990-talet • 1 miljon ord • Innehåller material från olika genrer och olika stilnivåer

  19. Språkteknologi Vilka språkliga särdrag kan indikera komplexitetsgrad?Resultat från parvisa jämförelser lättläst/ordinär text

  20. Språkteknologi Forts. Vilka språkliga särdrag kan indikera komplexitetsgrad? Resultat = språkmodellen SVIT (sentence structure, vocabulary load, idea density and human interest)

  21. Resultat Kan de föreslagna särdragen avslöja texttyp? Resultat av automatisk textklassificering med LIX och SVIT

  22. Exempel på verb i lättläst text som saknas i SUC

  23. Referenser: • Björnsson, C.H. (1968). Läsbarhet. Liber, Stockholm. • Chall, J. (1958). Readability. An appraisal of research and application. Bureau of Educational Research, Ohio.

More Related