1 / 17

Aligning pitch targets in speech synthesis: effects of syllable structure

Aligning pitch targets in speech synthesis: effects of syllable structure. T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos. Hypothese:.

talon
Download Presentation

Aligning pitch targets in speech synthesis: effects of syllable structure

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aligning pitch targets in speech synthesis: effects of syllable structure T. Rietveld and C. Gussenhoven Präsentiert von Anja Moos

  2. Hypothese: • Die perzeptive Diskriminierung eines frühen bzw. späten Falls in einer „flat hat“ Kontur im Niederländischen wird von der Silbenstruktur beeinflusst. (vergleiche Figure 1) • Mögliche Faktoren: Silbenlänge, folgende unakzentuierte Silben, Onsetdauer, Stimmhaftigkeit in Onset und Coda

  3. Daten zum Experiment: • Synthetischer Leitsatz: „Maar ARNhem ligt in X-land“ • In X-land variiert Onset (vergleiche Table I) und Coda (/m/ vs. /p/), Vokal immer /o:/ • P-center (=„perceptual center“) je nach Silbenstruktur errechnet

  4. Intonationskontur der 12 Sätze: 100 ms langer Anstieg in ARN, 100 ms langer Fall in X • Der Zeitpunkt des Falls wurde 10 x um 20 ms verschoben: 1.x endet er 10 ms vor dem Vokalbeginn, 10.x 35 ms nach Vokalende (vergleiche Figure 2) 120 Stimuli • Perzeptiv wurde die erste Version als downstepped erkannt, letztere als non-downstepped

  5. Experimentsdurchführung: • 27 Teilnehmer • Aufnahmen randomisiert • Vorherige Einweisung und Übung an Hand von 10 Minimalpaaren (was die Kontur betrifft) • Alle 20 Stimuli wurden erneut zwei Minimalpaare eingespielt

  6. Ergebnisse: • PSE (="Point of Subjective Equality") = Durchschnittswert der Beurteilungen der Pbn, ob downstep vorliegt oder nicht • Mit einer Ausnahme ist der PSE der stimmlosen Coda immer früher (Fig. 3) • Um PSE vorhersagen zu können, wurden mit den Kategorien +/- stimmhafte Coda, Onsetdauer, Stimmhaftigkeitsdauer im Onset und P-Center multiple Regressionsanalysen durchgeführt

  7. Signifikant sind alle Variablen außer P-Center • Stimmhafte Coda späterer PSE • Längerer Onset früherer PSE • Längere Stimmhaftigkeit im Onset früherer PSE • (Die Produkt-Moment-Korrelation ergab: PSE korreliert mit Onsetdauer und P-Center mit Stimmhaftigkeitsdauer im Onset)

  8. Fazit: • Der PSE wird von der Silbenstruktur beeinflusst • Der Punkt der Alignierung kann also nicht fix z.B. am Silbenonset festgemacht werden. Er muss sich vielmehr berechnen aus Onsetdauer und Stimmhaftigkeit in Onset und Coda • !Vorsicht: Die Daten beruhen auf synthetischem Sprachmaterial!

  9. Folgehandlung: • Im Sprachsyntheseprogramm RIAS wird der Punkt der Alignierung für jeden Konsonanten im Onset 15 ms nach links verschoben, für jedes stimmhafte Segment darin weitere 15 ms nach links, und für einen Sonoranten in der Coda 15 ms nach rechts.

  10. Effects of Time Pressure in the Phonetic Realization of the Dutch Accent-Lending Pitch Rise and Fall J.Caspers and V.J. van Heuven

  11. Hypothese: • Die wichtigsten Kriterien der Intonation bei Akzenten, wie Kontur, Höhe und Alignierung, bleiben auch in schneller Sprache erhalten. So kann man aus in Zeitdruck gesprochenen Aufnahmen Schlüsse ziehen, welche Kriterien unverändert bleiben. • Mögliche Kompensationsstrategien: Tilgung von Intonationsbewegungen an Akzenten und Grenzen oder Anpassung derselben.

  12. Daten zum Experiment: • Untersucht wurde der Anstieg „1“ („abrupt, full-size and early in the syllable“) und der Fall „A“ („ abrupt, full-size and late in the syllable“) • Hierbei wurden die Form (Höhe, Dauer und Steilheit der Bewegungen), die durchschnittliche F0-Kontur und die Alignierung unter die Lupe genommen

  13. Experimentsdurchführung: • Arten des Zeitdrucks: I. Pbn sollen so schnell wie möglich sprechen II. Kurz- vs. Langvokal (/a:/ vs. /A/) III. Mehrere Konturbewegungen auf wenige Silben verteilt (vergleiche Fig. 1) • Pbn waren die Autoren (also nicht naiv)

  14. Ergebnisse: • Form des Anstiegs und Falls: (Table 1-3) I. Dauer nimmt ab und Steilheit nimmt zu. Umfang scheint zu sinken. II. Beim Kurzvokal Bewegung kürzer, steiler und im Umfang größer. III. Umfang verkleinert sich. Der Anstieg ist kürzer und steiler (nicht so der Fall). Die Zeit, nicht der Frequenzumfang wird komprimiert.

  15. Tonhöhe: I. und II. unbedeutend III. Peaks und Valleys sind höher. Verringerung des F0-Umfangs wurde nicht bestätigt. Genaue Höhe der Akzenttöne ist unbedeutend.

  16. Alignierung vom Anstieg (Fig. 2): Der Beginn des Anstiegs ist in allen Zeitdrucktypen relativ zum Silbenonset gesehen circa zum gleichen Zeitpunkt. • Alignierung vom Fall (Fig. 3): Keine fixe Alignigerung in Bezug auf die Silbenstruktur. Ein vorangehender Anstieg schiebt den Fall nach hinten. Beim Anstieg ist der Ankerpunkt wichtig, beim Fall eher die Form.

  17. Fazit: • Entgegen anderer Untersuchungen wurde festgestellt, dass der Ankerpunkt nicht der Peak und das Intensitätsmaximum ist, sondern dass der Beginn des Anstiegs mit dem Beginn der Silbe synchron zu setzen ist.

More Related