1 / 41

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -. Bárdi Tamás doktorandusz előadása alapján. Pázmány Péter Katolikus Egyetem, Információs Technológia Kar. Mi az alapfrekvencia ?. Alapfrekvencia: a hangszalagok pillanatnyi rezgésszáma Szokásos jelölése: F 0.

judson
Download Presentation

Beszéd alapfrekvencia meghatározása - Pitch detektor algoritmusok -

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beszéd alapfrekvencia meghatározása- Pitch detektor algoritmusok - Bárdi Tamás doktorandusz előadása alapján Pázmány Péter Katolikus Egyetem, Információs Technológia Kar

  2. Mi az alapfrekvencia ? Alapfrekvencia: a hangszalagok pillanatnyi rezgésszámaSzokásos jelölése: F0

  3. Gerjesztés típusok a beszédben Alapfrekvenciát csak akkor értelmezünk,ha zöngés (kváziperiodikus) gerjesztés jelen van a beszédben.

  4. What is the definition of pitch? Pitch is…..“…..that attribute of auditory sensation in terms of which sounds may be ordered on a musical scale”(American Standards Association, 1960; cited in Moore, 1997) Vagyis: - a pitch (hangmagasság) érzeti mennyiség- az alapfrekvencia (F0)fizikai mennyiség

  5. Azonos-e a hangmagasság? • Egyik hang • Másik hang

  6. Egyik hang Másik hang

  7. Tones that have the same repetition ratetend to have the same pitch: Frequency Time

  8. Melyik hang alapfrekvenciája nagyobb?

  9. Miért érdekes az alapfrekvencia? A hangmagasság változásai a beszédben nyelvi, érzelmi, hangulati, stb. jelentést hordoznak.Illusztráció: egy rövid beszédfelvétel a pitch kontúrjával.

  10. Pitch kontúr előállítása • Fő részfeladatok: - F0 becslése, - zöngésség megállapítása • PDA – Pitch Detector Algorithm:Olyan algoritmus, amely a beszédjelből a fenti értelemben vett pitch kontúrt képes előállítani. • VDA – Voicing Detection Algorithm:A PDA-nak az a része, amely a zöngés/zöngétlen szakaszok megkülönböztetéséért felelős

  11. Pitch detektorok alkalmazásai • Low-bitrate speech coding: pitch adaptive (pl. GSM) • Speech Synthesis: processing unit inventories • Linguistic analysis, prosody processing • Music: auto-scoring, editing, midi conversion …

  12. Hogyan áll össze egy pitch kontúr Haladunk ablakról ablakra: - mindegyikre adunk egy alapfrekvencia becslést - tipikus hossz: 20 – 40 ms - tipikus lépésköz: 10 ms - általában átfedik egymást

  13. Algoritmusok: ACF Auto Correlation Function (autokorreláció függvény): s(t) – a beszédjel;w – az elemzett ablak hossza

  14. Csúcs kiválasztás ACF-en Az elemzett beszédablak: Csúcskeresés az ACF-en:

  15. Detekciós hiba lehetőségek • Nagy hibák: oktáv vagy még nagyobb tévesztés az alapfrekvenciában.Jellemzően a gyorsan halkuló vagy hangosodó szakaszokon fordul elő, leginkább szó elején vagy végén. • Kis hibák: apróbb pontatlanságok az alapfrekvenciában.Jellemzően a vegyes gerjesztésű hangoknál fordul elő (zöngés mássalhangzók) • Zöngés-zöngétlen tévesztés: jellemzően ez is a vegyes gerjesztésű hangoknál.

  16. Examples for ACF

  17. Algoritmusok: ASDF Average Squared Difference Function: s(t) – a beszédjel;w – az elemzett ablak hossza

  18. Examples for ASDF

  19. Algoritmusok: AMDF Average Magnitude Difference Function: s(t) – a beszédjel;w – az elemzett ablak hossza

  20. Algoritmusok: Cepstrum Homomorph analysis: CEPSTRUM(x) = IFFT(LOG(|FFT(x)|))

  21. Algoritmusok: LPC • Csúcsokat keresünk az LPC hibajelben:- ezt pitch-mark kijelölésnek is hívják

  22. F0 contour with ACF method Applying ACF directly on speech signal: Preproc.

  23. A beszédjel célszerű torzításával csökkenthetjük a hibák arányát My preprocessor is a combination of low-pass filtering and center clipping.

  24. A Preprocesszor (1): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

  25. A Preprocesszor (2): A szűrt jel és a középre vágási szint (center clip level)- a burkoló 40%-a:

  26. A Preprocesszor (3): Az eredeti beszédjel a burkolójával, valamint a beszédjel alul-áteresztő szűrés után:

  27. A Preprocesszor (4): Hangzó illusztráció (s, sz, c eltűnik):

  28. F0 contour with ACF method Applying ACF after preprocessing the speech signal: Original

  29. Egy összetett Pitch Detektor struktúrája Bemenő beszédjel Preprocesszor Meghallgatható: Ablakozás Basic Extractor- ACF számítása és elemzése - F0 becslés V/UV döntés * Pitch kontúr

  30. A kiértékelés adatbázisa Pitch detektor algoritmusok kiértékelésére olyan beszéd adatbázisokat lehet használni, melyekben a zöngés-zöngétlen szakaszok ill. az alapfrekvencia értékek címkézve vannak. A címkézés automatikussá vagy fél-automatikussá tehető laryngográf jel felvételével. Database 1: Keele Pitch Database Georg Meyer Keele University Database 2: FDA Evaluation Database Paul Bagshow & al.Centre for Speech Technology Research,University of Edinburgh

  31. Beszédfelvétel és laryngográf jel

  32. Zöngés-zöngétlen átmenet

  33. Zöngés-zöngétlen átmenet

  34. Optimization on the database Expected decision error rate in terms of the threshold: After preprocessor Without preprocessor

  35. Zöngés/zöngétlen megkülönböztetés: A basic extractor-ban kiválasztott csúcs nagysága és a beszédablak energiája szolgál döntési paraméterként.Mindkettőt egy-egy küszöbbel hasonlítjuk össze. A tévesztési arány keresztkiértékeléssel: 2.1%

  36. Összehasonlítás: Bagshaw (1993):

  37. Rekedt beszédhang pitch kontúrja:

  38. Hangmagasság módosítása Pitch-Synchronous Overlap-Add (PSOLA) on LPC residual eredeti 80% 125% 167% 200%

  39. SD Á hang Á hang hibajele

More Related