1 / 23

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL. 1.1. Obiectivele prelucrării semnalului vocal. Reprezentarea numerică a semnalului vocal moduri de reprezentare proprietăţi statistice ale semnalului vocal codarea şi compresia vorbirii.

arnie
Download Presentation

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL • 1.1. Obiectivele prelucrării semnalului vocal • Reprezentarea numerică a semnalului vocal • moduri de reprezentare • proprietăţi statistice ale semnalului vocal • codarea şi compresia vorbirii • Analiza semnalului vocal în domeniile timp şi frecvenţă • punerea în evidenţă a proprietăţilor spectrale ale semnalului vocal • utilizarea analizei spectrale în determinarea unor parametri utili în sinteză şi recunoaştere

  2. Sinteza semnalului vocal (sinteza vorbirii) • = producerea semnalului vocal pornind de la un dicţionar de elemente fonetice şi de reguli, sau pornind de la o anumită reprezentare parametrică a semnalului. • sinteza unor mesaje vocale cu conţinut predeterminat • sinteza vorbirii pornind de la un text oarecare scris • Recunoaşterea vorbirii • = a face maşina capabilă să interpreteze cuvintele sau frazele pronunţate de un vorbitor. • recunoaşterea cuvintelor izolate • recunoaşterea cuvintelor înlănţuite • recunoaşterea de mari vocabulare • recunoaşterea vorbirii continue

  3. Recunoaşterea vorbitorului • = se urmăreşte recunoaşterea (identificarea) unei persoane după voce • Aplicaţii speciale ale prelucrării semnalului vocal • aplicaţii în domeniul medical, cum ar fi cele referitoare la patologia laringelui, bazate pe detectarea unor variabilităţi de pronunţie sau detectarea unor stări particulare (stres, minciună, etc.) • aplicaţii în studiul limbilor străine • aplicaţii în dezvoltarea sistemelor de comunicaţie multimedia.

  4. 1.2. Generalităţi asupra semnalului vocal • Vorbirea este facultatea de a comunica gândurile printr-un • sistem de sunetearticulate. • Informaţia conţinută într-un mesaj este dată de • fluctuaţiile presiunii aerului, generate şi apoi emise de către • aparatul fonator uman. • aceste fluctuaţii constituie semnalul vocal. • ele sunt detectate de către ureche, care realizează • o operaţie de analiză a semnalului. • rezultatele analizei sunt transmise creierului, • care le interpretează şi le foloseşte pentru • a comanda funcţiile vorbirii.

  5. Un mesaj vocal este constituit dintr-o succesiune de • unităţi (elemente) minimale lipsite de sens, numite foneme, • care prin asociere generează structuri sau elemente constitutive • de nivel superior: silabe, cuvinte, fraze. • Conţinutul unui mesajvocal poate fi definit în sens strict • şi în sens larg. • În sensstrictconţinutul mesajului este dat de • inteligibilitatea sa (asemănător cu un mesaj scris). • În sens larg, conţinutul mesajului vocal ia în consideraţie • toate intonaţiile ce însoţesc producerea sa (creştere • puternică a conţinutului mesajului vocal faţă de cel scris).

  6. O trăsătură specifică a semnalului vocal este redundanţa. • (redundanţă = introducerea în mesaj a unor componente • informaţionale mai mult decât este necesar pentru • inteligibilitatea sa completă în absenţa zgomotului). • prezenţa redundanţei în semnalul vocal îl face rezistent • la perturbaţiile mediului ambiant. • redundanţa este prezentă şi la nivel semantic, fapt ce • uşurează înţelegerea mesajului de către creier. • Cadenţa maximă (ritmul maxim) de asimilare a unui mesaj • este determinată de conţinutul strict al mesajului. • Fie unmesaj constituit din elemente discrete aparţinând unui • ansamblu de date (de exemplu un alfabet) X = {x1, x2, …, xL}.

  7. Dacă p(xi) reprezintă probabilitatea de apariţie a simbolului xi, • selectarea acestuia va aduce informaţiaI = – log2p(xi) . • Entropia sursei (informaţia medie asociată producerii mesajului X) • este dată de relaţia: [biţi] • Entropia prezintă un maxim care s-ar produce atunci când • fonemele ar fi echiprobabile: [biţi] • Pentru fiecare limbă se pot determina mărimile p(xi) (reprezentând • probabilităţile de apariţie a fonemului xi) prin analize statistice • efectuate pe lucrări literare cu un vocabular bogat.

  8. pentru limba engleză (L = 42): • Hmax(X) = log242 = 5.39 biţi Hs(X) = 4.9 biţi • pentru limba franceză (L = 36): • Hmax(X) = log236 = 5.17 biţi • Hs(X) = 4.73 biţi • pentru limba română (L = 34): • Hmax(X) = log234 = 5.08 biţi • Hs(X) = necunoscut • pe baza mărimilor determinate statistic, fiecare fonem poate fi • codat cu 5 biţi. • într-o conversaţie curentă sunt pronunţate în medie 10 foneme pe • secundă, ceea ce conduce la un debit informaţional de 50 biţi/s.

  9. Formula de calcul pentru debitul maxim de informaţie pe un • canal analogic fără erori (capacitatea canalului): [biţi/sec.] • B = banda de trecere [Hz] • S/Z = raportul semnal pe zgomot • pentru un canal telefonic cu B = 3000 Hz şi S/Z = 30 dB rezultă: [biţi/sec.] redundanţă mare în acest canal (faţă de 50 biţi/s stabilit anterior). • există mult mai multă informaţie într-un mesaj telefonic decât • într-un mesaj scris, unde informaţia este redusă la strictul necesar • pentru inteligibilitate; sporul de informaţie este datorat intonaţiei, • timbrului, etc.

  10. 1.3. Mecanismul fonaţiei • Vorbirea = produs al aparatului fonator uman, controlat de • sistemul nervos central, care primeşte permanent informaţie • prin reacţia acustică (recepţia auditivă a semnalului). • Aparatul fonator uman nu este un aparat special destinat producerii • vorbirii, ci este realizat prin adaptarea la această funcţie a unor • organe aparţinând în principal aparatelor respirator şi masticator. • Aparatul respirator furnizează energia necesară producerii vorbirii, • atunci când aerul este expirat prin trahee. • La capătul superior al traheei se găseşte laringele, unde presiunea • aerului este modulată înainte de a fi aplicată canalului (tractului) • vocal care se întinde de la laringe la buze.

  11. În zona centrală a laringelui se găsesc coardele vocale; acestea pot • închide complet laringele, iar depărtându-se, formează o deschidere • triunghiulară, denumită glotă. • Prin glotă, aerul trece liber în timpul respiraţiei şi vocii şoptite, • precum şi în timpul formării sunetelor nesonore. • Sunetele sonore se produc prin vibraţia periodică a coardelor vocale, • tractului vocal fiindu-i aplicate impulsuri periodice de presiune. • Tractul vocal este un ansamblu de cavităţi situate între glotă şi buze, • cuprinzând cavitatea faringiană, cavitatea bucală şi cavitatea nazală • (în derivaţie cu cavitatea bucală).

  12. Intensitatea sunetului emis este strâns legată şi determinată de • presiunea aerului aflat în amonte de laringe. • Înălţimea sunetului este determinată de frecvenţa de vibraţie a • coardelor vocale, denumită frecvenţă fundamentală (F0 - pitch). • Inversul acestei frecvenţe (T0), se numeşte perioadă fundamentală. • Frecvenţa fundamentală poate varia între limitele: • 80 - 200 Hz pentru o voce masculină • 150 - 450 Hz pentru o voce feminină • 200 - 600 Hz pentru o voce de copil • Două sunete sonore de aceeaşi intensitate şi de aceeaşi înălţime • se disting prin timbru, care este determinat de amplitudinile • relative ale armonicelor fundamentalei.

  13. Unui sunet sonor îi corespunde în timp un semnal cvasiperiodic. • Structura armonică a spectrului se mai numeşte structură depitch. • Anvelopa spectrului prezintă maxime denumite formanţi, care • corespund frecvenţelor proprii ale tractului vocal. • Spectrul unui sunet sonor are structură formantică.

  14. Un sunet nesonor nu prezintă structură periodică; forma sa în • domeniul timp este asemănătoare cu cea a semnalelor de tip zgomot. • Sunetul nesonor poate fi asimilat cu un zgomot alb filtrat de către • tractul vocal. • Strucura spectrală are caracteristici tipice de zgomot.

  15. 1.4. Modelarea producerii vorbirii • tractul vocal înlănţuire (concatenare) de tuburi sonore de • lungimi şi secţiuni diferite (între glotă şi cavitatea bucală): • lungimea medie  17 cm (la bărbaţi) • secţiunea maximă  20 cm2 • cavitatea nazală (cuprinsă între vălul palatin şi nări): • lungime  12 cm • secţiune constantă • pentru sunetele sonore, sursa este un tren periodic de impulsuri • (reproduce creşterea rapidă a presiunii aerului, urmată de o cădere mai lentă). • modelat prin răspunsul unui filtru trece-jos (FTJ) de ordinul 2 • şi frecvenţă de tăiere  100 Hz.

  16. e[n] y[n] G(z) Modelarea sursei pentru sunetele sonore: • pentru sunetele nesonore, sursa este un zgomot alb • de varianţă unitară.

  17. tractul vocal succesiune de tuburi acustice elementare.  cascadă de rezonatori, cu transmitanţa globală: • fiecare rezonator elementar (de ordinul 2) are o caracteristică • de tip trece bandă şi simulează producerea unui anumit formant. • deschiderea buzelor are o caracteristică de selectivitate de tip • trece-sus ce poate fi modelată prin transmitanţa:

  18. dacă se consideră : • funcţia de transfer globală a tractului vocal (considerată între • excitaţia idealizată şi semnalul emis):  model numai cu poli sau autoregresiv (AR - Auto-Regressive )

  19. 1. Simplificarea este oarecum forţată şi ar fi posibilă numai pentru fonemele sonore • o variantă mai corectă: • cavităţile bucală şi nazală sunt cuplate în paralel: Observaţii: 2. Fonemele nazale nu pot fi produse cu modelul AR  model ARMA (Auto-Regressive Moving Average)

  20. Fiecare limbă are propriile foneme • limbile etimologice - valoarea fonetică diferă de transcrierea literală • limbile fonetice - valoarea fonetică este apropiată de transcrierea literală • 1.5. Caracteristici fonetice • Mesajul vocal este compus din sunete distincte, denumite foneme. • Fonem = cea mai mică unitate sonoră prezentă în vorbire. • Pentru redarea grafică a valorii fonetice a literelor, grupurilor • de litere şi cuvintelor se foloseşte “Alfabetul fonetic internaţional”. • Producerea unui fonem dat lasă loc unei anumite variabilităţi. • pe plan acustic; variaţiile fonemului se numesc alofoni. • Pentru fiecare limbă fonemele sunt împărţite în clase şi subclase. • Fiecare clasă este legată de modul de articulare a aparatului fonator.

  21. Hz , c = viteza sunetului = 340 m/s. Ex: Hz Hz • Dacă s-ar considera tractul vocal ca un singur tub acustic cu • lungimea l (metri), rezonanţele acestuia (frecvenţele formanţilor) ar fi: F1 = 500 Hz, F2 = 1500 Hz, F3 = 2500 Hz  formanţii vocalei neutre e mut din limba franceză (foarte apropiaţi de cei ai vocalei ă din limba română) - configuraţia tractului la emisia acestei vocale este foarte apropiată de cea observată în perioadele de linişte, tractul fiind în repaos.

  22. Dacă s-ar considera tractul vocal la producerea fonemelor • corespunzătoare vocalelor ca fiind format din două secţiuni • (două tuburi acustice în cascadă) cu lungimile l1, l2 şi ariile A1, A2: • Plajele primilor 3 formanţi pentru câteva dintre vocalele limbii române • (mărimile barate semnifică valorile medii statistice ale formanţilor):

  23. F1 [Hz] 800 a 600 ε 400 o 200 u y i 0 1000 2000 3000 F2 [Hz] • Reprezentarea unor vocale ale limbii franceze în planul formanţilor F1, F2:

More Related