Lieberman & Blumstein Phonetic theories

Lieberman & BlumsteinPhonetic theories

Muskler(Lieberman & Blumstein) T ex sväljmusklerna används också i talproduktion. Att lära sig tala innebär att sätta upp nya mönster för programmerade aktiviteter. Ej helt klart exakt vilka muskler används i olika funktioner. Olika talare använder också olika muskler för att producera samma ljud (t ex [s], velumstängning) Table 6.1 De vanligaste musklerna i artiklar om talproduktion

EMG supralaryngala muskler • Den vanligast muskeln vid velumstängning är levator palatini • Men, som sagt, Olika talare använder också olika muskler för att producera samma ljud • Det blir problem för motorteorin för talperception som säger att ”invarianta artikulatoriska gester eller motorkommandon ligger bakom talljuden …

Det verkar snarare som om gesterna strävar att bevara samma akustiska skillnader genom att använda olika artikulationsmönster i olika situationer?

Två olika fonetiska teorier • Artikulatorisk, eller motor-, invarians • eller • Akustisk invarians • Båda teorierna vill beskriva talproduktionens fysiologi på ett psykologiskt och lingvistiskt meningsfullt sätt

Röntgenstudier • Visar att tungans läge inte är det enda som ändras, t ex är farynxpassagen trängre för [a] än för [i] och [u]

Särdrag • Minsta betydelseskiljande • Fonologiska, vanligen binära • Chomsky Halle +–nasal, +–voiced, • Jakobson +–compact, +–diffuse, +–abrupt(kontinuerlig), +–nasal, • Fonetiska särdrag, kontinuerliga • Ladefoged

Särdrag - artikulation • Fonologiska • Binära (t ex +–nasal) Men, levator palatini kan spännas mer eller mindre; gradvis [i] och [u] kräver en starkare stängning med levator palatini EMG studier visar att det är omöjligt att binda någon viss muskel till en unik ljudkontrast, levator palatini kontrollerar också fonation och klusiler, t ex [b] • Fonetiska särdrag

Koartikulation • Man kan se talprocessen som bestående av individuella segment som samartikuleras • OM det bara var ”tröghet” vore inte föregripande samartikulation vanligast • Eftersom samartikulation alltid finns, kan man se talapparatens rörelser som ”kodade sekvenser som omfattar minst en stavelse”

Automatisering, koartikulation och planering • Tal kan vara automatiserade rörelsemönster, för att utföra komplexa målrelaterade mönster av motor aktivitet. Involverar flera muskler • Talaren är kreativ på en högre nivå, t ex att tänka ut vad han ska säga • EMG-signaler från automatiserade rörelser är snabbare • Målet kan vara att producera ett visst formantmönster (bite-block studies)

Biteblock-experiment • Fp producerar t ex [pe], [pi] med biteblock på 5 mm och 15 mm • Anpassar omedelbart artikulationen så att stavelserna låter normalt • De automatiserade muskelkommandona kompletterades omedelbart av tung- och läpprörelser • Detta gjordes inom ett par millisekunder vilket betyder att talaren inte kunde använt auditiv feedback

forts. Biteblock-experiment • Har talaren ett slags mental representation av talapparaten? • Målet är att producera en acceptabel akustisk signal (och detta kan ju göras på flera sätt, det viktiga är talrörets längd och areafunktionen) • Vad är medfött av automatiserade motorkontroll-mönster?

forts. Automatiserade rörelsemönster • Vad är medfött av automatiserade motorkontroll-mönster? • Olika temporala mönster i svensk och amerikansk antecipatorisk läpprundning, amerikanska timelocked till 100 msek innan, svenska upp till 500 msek innan om föregående ljud är omarkerade för läpprundning

forts. Automatiserade rörelsemönster • Barn lär sig att uttrycka kön med automatiserade rörelsemönster • Även om f0 inte skiljer sig mellan könen kan 5-åriga pojkar (eller män med hög f0) identifieras genom att de använder liknande formantmönster som män • Formanterna sänks genom läpprundning och larynxsänkning trots att de har samma längd på talröret som flickorna (jfr sångformanter) • (jfr normaliseringsdia) • Det är svårare att sänka sin f0 utan att få problem med rösten

Supralaryngal talrörsmodellering • Analoga modeller har gjorts för att kunna studera effekten av manipulering av olika varirabler. Man kan få kvantitativa mått. • Vi kan ju inte röntgenfilma allt i talproduktionen, vanligen bara från sidan • Vi vill hitta tvärsnittsarean längs talröret • Det finns också mekaniska modeller

Supralaryngal talrörsmodellering • Några parametrar: • Talrörsläng • Läppöppning • Platsen för förtränging i avstånd från glottis • Tvärsnittsarean för förträngningen

Supralaryngal talrörsmodellering • Resultat av talgenerering med analoga modeller: • De flesta vokaler går att generera med mycket olika areafunktioner. Vissa av dessa stämmer med traditionell artikulatorisk fonetik, andra inte. • Alltså kan de artikuleras med olika tungpositioner, läppöppning och läpprundning - artikulationens mål kan inte vara artikulatoriska utan är akustiska • De enda vokaler som kräver vissa areafunktioner är [i], [u] och till viss del [a]

Felsägningar • Evidens för olika enheter: särdrag, fonem, stavelser • Strykning, tillägg, omkastning

Talproduktionsteorier • Invariansproblemet • Talarorienterade produktionsteorier • Lyssnarorienterade produktionsteorier

Målet för fonetisk teori • Förklara: • Hur vi producerar språkljud • Hur dessa struktureras i lingvistiskt relevanta enheter • Hur dessa avspeglar biologin i det mänskliga tal/språk-systemet • Relatera till fonemsystemen i världens språk • Barns språkutveckling • Historiska ljudförändringar

Libermans & Blumsteins programförklaring ”Vi skulle kunna skaffa ’exakta’ inspelningar av talljuden i ett språk genom att göra en serie bandinspelningar som skulle bevara alla akustiska egenskaper som de signaler har som tjänar som tjänar som medel för talkommunikationen. Vi skulle, emellertid, inte ha isolerat de lingvistiskt relevanta fonetiska elementen i det språket. Vi skulle tex. inte kunna säga vad som utgör ett möjligt ord i språket ifråga”

Libermans & Blumsteins programförklaring ”Fonetiska teorier som predicerar vilka ljud som är möjliga i mänskligas språk, den relativa förekomsten av olika språkljud, hur barn tillägnar sig språk, vilka ljudförändringar som är mest sannolika eller effekten av olika fysiska anomalier på talet är alltså ”bättre” teorier än sådana som inte gör dessa prediktioner. Fonetiska teorier måste vara i stånd att förse oss med en förklaringsgrund för verkliga fysiska data.” Känns Lindbloms anda igen?

Traditionell artikulatorisk teori • Bell´s vokalfyrsiding • Behölls av Chomsky Halle särdragsteori • Gjorde inga röntgenstudier • Missade farynxkaviteten

rubrik IPAs vokalfyrsiding som är tänkt att avbilda vokalrymden som en funktion av olika tungpositioner.

Tungposition som funktion av vokalkvalitet. Talare 1. Bild som visar tungpositionen för en talare av amerikansk engelska som uttalar vokalerna [i], [I], [e], [E] och []. Bilden bygger på röntgenfotografier.

Tungposition som funktion av vokalkvalitet. Talare 2. Bild som visar tungpositionen för annan talare av amerikansk engelska som uttalar samma vokaler ([i], [I], [e], [E] och []).

Tungposition som funktion av vokalkvalitet. Talare 3. En tredje talare som gör samma sak

Talare 1 2 3 En jämförelse mellan de tre talarna. [i] [I] [e] [E] [] [i] [e] [I] [E] [] [i] [e] [I] [E] [] Symbolerna i bilden visar vokalerna ordnade efter ”tungans högsta punkt”. Notera skillnaderna både med avseende på ordning och öppningsgrad.

Röntgenbilderna • Eftersom det är små skillnader i tungläget måste de akustiska skillnaderna nås genom modifikation av hela talapparaten läpprundning och larynxsänkning, för att uppnå önskvärd areafunktion som genererar den akustiska signalen för vokalerna • Enbart tungkonturen är inte en invariant specifikation av talrörets areafunktion • Detta stämmer med resultaten av de analoga modellerna!

Och - samma akustiska resultat kan uppnås med olika artikulationer. (Buktalare!) • Talare artikulerar alltså INTE exakt enligt de traditionella modellerna • Olika för olika talare

artikulationsställning - akustiskt/perceptuellt resultat Vad detta enkla exempel illustrerar är att samma akustiska och perceptuella resultat kan åstadkommas med mer än en artikulationsställning för en given vokal. Vi kan i det sammanhanget påminna oss om Lindbloms APEX-modell som visar samma sak för konsonanter.

Ytterligare ett exempel Prevokalt [r] i amerikansk engelska kan artikuleras som antingen retroflext (streckad linje) eller ’bunched’ (heldragen linje). Samma fonem – olika artikulationssätt. Men inte nog med det, bunched [r] kan i sin tur artikuleras med (minst!) två olika tungställningar.

En unifierad teori • Artikulation- perception • Kommer till stor del från Jakobson-Fant-Halle – särdrag som har akustiska korrelat (närmare lyssnaren) • De akustiska korrelaten ska vara baserade på fysiologiska begränsningar i talproduktionen

En unifierad teori • En fråga var: varför är vokaler som [i] och [u] vanligast i världens språk? • Quantal vowels … • Vocal tract normalisation (men, women, adolescents) Peterson and Barney

En unifierad teori • Vocal tract normalisation (män, kvinnor, ungdomar) Peterson and Barney • Överlapp mellan fonemen • Men, när grupperna delas upp uppstår 3 vokalfyrsidingar • Om vokaler från olika grupper blandas uppstår feltolkningar, annars inte

En fysiologisk teori för vokaler Den traditionella vokalteorins tillkortakommande beror på att den utgår från invarianta artikulatoriska rörelser vilket som vi sett långt ifrån alltid är fallet. Det har gjort många försök att komma till rätta med detta problem som ju helt uppenbart har sin grund i att man måste förena både produktion och perception i samma teori, eventuellt med akustiken som förmedlande länk. Ett tidigt sådant försök trepresenteras av Jacobson, Fant och Halles (1963) Preliminaries to Speech Analysis, där de presenterar tre parallella särdragssystem för den artikulatoriska, akustiska och perceptoriska domänen. Men flera försök har följt. Vi ska titta på ett.

Som vi vet bestäms talljudens kvalitet i första hand av artikulationsapparatens inställning. Om varje talare kunde producera talrörsinställningen med absolut precision och vi alla dessutom gjorde det på samma sätt så skulle den akustiska signal som är förbunden med ett visst språkljud alltid se likadan ut. Talproduktionen skulle avsevärt förenklas om det vore möjligt att producera invarianta akustiska signaler utan att behöva ancända mycket precisa artikulatoriska inställningar. Talperceptionen skulle också, förenklas om de talsignaler som används vore maximalt distinkta. Dessa förutsättningar är hörnstenarna i Stevens kvantalteori. Vi ska börja med att titta på en enkel modell av talröret. Kvantala vokaler

Tvårörsmodell av talröret Som en första approximation kan man betrakta kvartsvågs-resonansen i de båda rören. Är de av samma längd blir resonansfrekvenserna desamma. • En tvårörsmodell av talröret som ska simulera vokalen [a] • Areafunktion för den tänkta vokalen

Formanfrekvenserna för F1 och F2 i en tvårörsmodell där man tagit hänsyn till kopplingen mellan rören I verkligheten blir det lite mer komplicerat eftersom det uppstår en akustisk koppling mellan de båda rören. Diagrammet till höger visar frekvenserna för F1 och F2 som funktion av delningspunktens (X) position. Vad vi kan se är att förändringar av delningspunktens läge omkring mittpunkten på skalan ger väldigt små förändringar av formantvärdena. Förstaformanten (F1) och andraformanten (F2) uträknade för den föregående tvårörsmodellen. Den horisontella skalan avser diskontinuitetspnktens (X) läge.

Kvantala vokaler Mer utgångspunkt från resonemang av denna typ undersökte Stevens om det kunde finnas stabila områden inom vokalrymden där förändringar i artikulationsställning fick endast minimala effekter på de resulterande formantfrekvenserna. Detta skulle ju innebära mycket gynnsamma ställen att artikulera talljud eftersom produktionen av ett sådant ljud inte skulle kräva så stor artikulatorisk precision som andra ljud. Stevens fann att det mycket riktigt fanns sådana ställen och att de dessutom motsvarade vokalljud som vi faktiskt använder. Stevens kallar sin teori för kvantalteorin för att markera artikulationsställningarnas diskreta karaktär.

Kvantala vokaler Andra akustiska faktorer som är viktiga för perceptionen är om det förekommer tydliga toppar i spektrum t.ex. för att två formanter ligger så nära varandra att de ’smälter samman’ perceptuellt. Vokalerna [i], [a], [u] är sådana exempel. I psykoakustiska test där uppgiften är vokalidentifiering har det regelbundet visat sig att vokalerna [i] och [u] är de som är lättast att identifiera. [a] klarar sig däremot inte lika bra. Mer om det senare.

Kvantala vokaler Midsagitala snitt, areafunktioner och överföringsfunktioner för vokalerna [i], [a], [u].

Kvantala vokaler Det är här värt att notera att vokalerna [i], [a], [u] är ett slags fonologiska grundvokaler som återfinns i alla världens språk. Det finns språk som endast har dessa tre (t.ex. Garawa, ett australiskt språk, och Inuit, ett grönländskt) och de som har fler inkluderar alla [i], [a], [u].

Talrörsnormalisering Två amerikanska forskare, Peterson och Barney, publicerade 1952 en vetenskaplig artikel som fått stor betydelse och som ofta citeras i sådana här sammanhang. Vi ska strax titta lite närmare på deras resultat men först lite om utgångspunkterna.

Talrörsnormalisering Undersökningen består av två delar – produktionsstudie och en perceptionsstudie. I produktionsstudien spelade de in alla amerikanska vokaler i kontexten h_d. (De ord de spelade in var: heed, hid, head, had, hod, hawed, hood, who’d, hud, och heard.) Totalt 76 talare spelades in, 33 män, 28 kvinnor och 15 barn

Talrörsnormalisering Här är Peterson och Barneys resultat presenterade i diagramform. Som man kan förvänta sig är spridningen betydande, men man kan också se att de olika vokalerna samlar sig i områden som inte i alltför hög grad överlappar med varandra. De inringade områdena representerar områden som omsluter 90% av en given vokaltyp. De felsvar som förekom i perceptionstestet förklaras f.ö. i hög grad av det överlapp som förekommer.

[i] [u] [a] Fotnot Om man på koordinataxlarna som bilden visar så kommer vokalerna att placera ut sig ungefär som vi ar vana att se dem i ett vokalfyrsidings-diagram. Detta är därför ett vanligt sätt att rita diagram av den här typen.

Finns det då något lingvistiskt/fonetiskt rimligt sätt att bringa den stora variationen under bättre kontroll? Vi vet ju att en stor del av variationen beror på att talarna består av både män och kvinnor och av barn och skillnaderna att talrörsstorlek mellan dessa kategorier såväl som mellan enskilda talare kan vara betydande. Om man tänker sig att talare inte försöker sikta in sig på exakta formantvärden - lika för alla talare, utan likartad talrörsinställning skulle det gå att rekonstruera denna ur kunskap om talarens storlek. Ett första, grovt sätt, att göra en sådan normalisering vore att utgå från gruppmedelvärden på storlek. Neary har gjort ett sådant försök baserat på Peterson & Barneys data. Talrörsnormalisering

Talrörsnormalisering Medelvärden för formantfrekvenserna i Peterson & Barneys undersökning för vuxna män, vuxna kvinnor och barn ’normaliserade’ med hänsyn till talargruppernas beräknade talrörsstorlekar.

Talrörsnormalisering Resultat som de i föregående diagram och det faktum att i Peterson och Barneys lyssningstest förväxlingar endast förekom när lyssnarna inte visste vilken typ av talare de lyssnade till (när de gjorde det förekom nästan inga fel) antyder att vi som lyssnare på något sätt kan rekonstruera talarens storlek ur talet. Senare experiment har gett resultat som stödjer den hypotesen. Om man t.ex. klipper in ett [i] producerat av en talare med relativt låga formantvärden i en bärfras producerad av en talare med högre formantvärden kommer vokalen att höras som [e] om detta stämmer bättre överens med hur man föreställer sig att den mindre talaren skulle uttala den vokalen.

Lieberman & Blumstein Phonetic theories