170 likes | 256 Views
Aligning pitch targets in speech synthesis: effects of syllable structure. T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos. Hypothese:.
E N D
Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos
Hypothese: • Die perzeptive Diskriminierung eines frühen bzw. späten Falls in einer „flat hat“ Kontur im Niederländischen wird von der Silbenstruktur beeinflusst. (vergleiche Figure 1) • Mögliche Faktoren: Silbenlänge, folgende unakzentuierte Silben, Onsetdauer, Stimmhaftigkeit in Onset und Coda
Daten zum Experiment: • Synthetischer Leitsatz: „Maar ARNhem ligt in X-land“ • In X-land variiert Onset (vergleiche Table I) und Coda (/m/ vs. /p/), Vokal immer /o:/ • P-center (=„perceptual center“) je nach Silbenstruktur errechnet
Intonationskontur der 12 Sätze: 100 ms langer Anstieg in ARN, 100 ms langer Fall in X • Der Zeitpunkt des Falls wurde 10 x um 20 ms verschoben: 1.x endet er 10 ms vor dem Vokalbeginn, 10.x 35 ms nach Vokalende (vergleiche Figure 2) 120 Stimuli • Perzeptiv wurde die erste Version als downstepped erkannt, letztere als non-downstepped
Experimentsdurchführung: • 27 Teilnehmer • Aufnahmen randomisiert • Vorherige Einweisung und Übung an Hand von 10 Minimalpaaren (was die Kontur betrifft) • Alle 20 Stimuli wurden erneut zwei Minimalpaare eingespielt
Ergebnisse: • PSE (="Point of Subjective Equality") = Durchschnittswert der Beurteilungen der Pbn, ob downstep vorliegt oder nicht • Mit einer Ausnahme ist der PSE der stimmlosen Coda immer früher (Fig. 3) • Um PSE vorhersagen zu können, wurden mit den Kategorien +/- stimmhafte Coda, Onsetdauer, Stimmhaftigkeitsdauer im Onset und P-Center multiple Regressionsanalysen durchgeführt
Signifikant sind alle Variablen außer P-Center • Stimmhafte Coda späterer PSE • Längerer Onset früherer PSE • Längere Stimmhaftigkeit im Onset früherer PSE • (Die Produkt-Moment-Korrelation ergab: PSE korreliert mit Onsetdauer und P-Center mit Stimmhaftigkeitsdauer im Onset)
Fazit: • Der PSE wird von der Silbenstruktur beeinflusst • Der Punkt der Alignierung kann also nicht fix z.B. am Silbenonset festgemacht werden. Er muss sich vielmehr berechnen aus Onsetdauer und Stimmhaftigkeit in Onset und Coda • !Vorsicht: Die Daten beruhen auf synthetischem Sprachmaterial!
Folgehandlung: • Im Sprachsyntheseprogramm RIAS wird der Punkt der Alignierung für jeden Konsonanten im Onset 15 ms nach links verschoben, für jedes stimmhafte Segment darin weitere 15 ms nach links, und für einen Sonoranten in der Coda 15 ms nach rechts.
Effects of Time Pressure in the Phonetic Realization of the Dutch Accent-Lending Pitch Rise and Fall J.Caspers and V.J. van Heuven
Hypothese: • Die wichtigsten Kriterien der Intonation bei Akzenten, wie Kontur, Höhe und Alignierung, bleiben auch in schneller Sprache erhalten. So kann man aus in Zeitdruck gesprochenen Aufnahmen Schlüsse ziehen, welche Kriterien unverändert bleiben. • Mögliche Kompensationsstrategien: Tilgung von Intonationsbewegungen an Akzenten und Grenzen oder Anpassung derselben.
Daten zum Experiment: • Untersucht wurde der Anstieg „1“ („abrupt, full-size and early in the syllable“) und der Fall „A“ („ abrupt, full-size and late in the syllable“) • Hierbei wurden die Form (Höhe, Dauer und Steilheit der Bewegungen), die durchschnittliche F0-Kontur und die Alignierung unter die Lupe genommen
Experimentsdurchführung: • Arten des Zeitdrucks: I. Pbn sollen so schnell wie möglich sprechen II. Kurz- vs. Langvokal (/a:/ vs. /A/) III. Mehrere Konturbewegungen auf wenige Silben verteilt (vergleiche Fig. 1) • Pbn waren die Autoren (also nicht naiv)
Ergebnisse: • Form des Anstiegs und Falls: (Table 1-3) I. Dauer nimmt ab und Steilheit nimmt zu. Umfang scheint zu sinken. II. Beim Kurzvokal Bewegung kürzer, steiler und im Umfang größer. III. Umfang verkleinert sich. Der Anstieg ist kürzer und steiler (nicht so der Fall). Die Zeit, nicht der Frequenzumfang wird komprimiert.
Tonhöhe: I. und II. unbedeutend III. Peaks und Valleys sind höher. Verringerung des F0-Umfangs wurde nicht bestätigt. Genaue Höhe der Akzenttöne ist unbedeutend.
Alignierung vom Anstieg (Fig. 2): Der Beginn des Anstiegs ist in allen Zeitdrucktypen relativ zum Silbenonset gesehen circa zum gleichen Zeitpunkt. • Alignierung vom Fall (Fig. 3): Keine fixe Alignigerung in Bezug auf die Silbenstruktur. Ein vorangehender Anstieg schiebt den Fall nach hinten. Beim Anstieg ist der Ankerpunkt wichtig, beim Fall eher die Form.
Fazit: • Entgegen anderer Untersuchungen wurde festgestellt, dass der Ankerpunkt nicht der Peak und das Intensitätsmaximum ist, sondern dass der Beginn des Anstiegs mit dem Beginn der Silbe synchron zu setzen ist.