comment analyser le signal vocal l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Comment analyser le signal vocal. PowerPoint Presentation
Download Presentation
Comment analyser le signal vocal.

Loading in 2 Seconds...

play fullscreen
1 / 14

Comment analyser le signal vocal. - PowerPoint PPT Presentation


  • 232 Views
  • Uploaded on

Comment analyser le signal vocal. Séance 12, 1 heure Version : mercredi 5 mai 2004 Auteur: Jean-Paul Stromboni . Contenu de la séance :. Le langage parlé est constitué de phonèmes Il y a des phonèmes voisés et des phonèmes non voisés,

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Comment analyser le signal vocal.' - betty_james


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
comment analyser le signal vocal

Comment analyser le signal vocal.

Séance 12, 1 heure

Version : mercredi 5 mai 2004

Auteur: Jean-Paul Stromboni

Contenu de la séance :

  • Le langage parlé est constitué de phonèmes
  • Il y a des phonèmes voisés et des phonèmes non voisés,
  • Les phonèmes voisés sont quasi-périodiques et leur spectre présente des résonances et des anti résonances
  • L’analyse du signal vocal avec la FFT impose des durées allant de 10 à 30 milliseconde, ce qui limite la résolution
  • La technique des fenêtres OLA permet d’enchainer les phonèmes et de créer l’intonation de la voix ou prosodie
  • Le traitement de la parole, M. Kunt, R. Boite, Presses Polytechniques Romandes, 1987
  • Introduction au traitement automatique de la parole, Thierry Dutoit, Faculté Polytechnique de Mons, 2000
  • http://tcts.fpms.ac.be/, en plus du cours précédent, ce site contient de nombreuses adresses utiles et intéressantes.

Références utilisées :

le langage parl se compose de phon mes
Le langage parlé se compose de phonèmes

Pour lire à voix haute un texte ou une chaîne de caractères, un ordinateur devra enchaîner des phonèmes, et leur donner une intonation.

  • la langue française contient 37 phonèmes, la langue anglaise plus de 40 phonèmes, …
  • Avec l’alphabet phonétique SAMPA (utilisé par MBROLA), écrire le mot ‘bonjour’ phonétiquement :

SAMPA EXAMPLES

i idiot, ami

e ému, été

E perdu, maison

a alarme, patte

A bâton, patte

O obstacle, corps

o auditeur, beau

u coupable, loup

y punir, élu

2 creuser, deux

9 malheureux, peur

@ petite, fortement

e~ peinture, matin

a~ vantardise, temps

o~ rondeur, bon

9~ lundi, brun

j piétiner, choyer

w quoi, fouine

H huile, nuage

Note: 'h' (halte,hop) is not defined.

SAMPA EXAMPLES

H huile, nuage

p patte, repas, cap

t tête, net

k carte, écaille, bec

b bête, habile, robe

d dire, rondeur, chaud

g gauche, égal, bague

f feu, affiche, chef

s soeur, assez, passe

S chanter, machine, poche

v vent, inventer, rêve

z zéro, raisonner, rose

Z jardin, manger, piège

l long, élire, bal

R rond, charriot, sentir

m madame, aimer, pomme

n nous, punir, bonne

N ping, pong

_ (silence marker)

dans le signal de parole on diff rencie des phon mes vois s et des phon mes non vois s
Dans le signal de parole, on différencie des phonèmes voisés et des phonèmes non voisés
  • Les phonèmes voisés sont quasi périodiques, au contraire des phonèmes non voisés on trouve ces deux types dans le diagramme ci-dessus.
  • En réalité, les phonèmes non voisés n’utilisent pas les cordes vocales, comme quand on siffle et qu’on utilise la bouche comme une cavité résonante :
    • C’est le cas de certains phonèmes, ‘s’ et ‘f’ entre autres,
    • C’est aussi le cas quand on chuchote.
le spectre d un signal vois pr sente des r sonances et des antir sonances
Le spectre d’un signal voisé présente des résonances et des antirésonances.
  • quasi périodicité ou pitch de période P (seconde) et de fréquence F0=1/P (Hz)
  • durée d’analyse limitée à 10ms à 30 ms (le spectre du signal vocal est non stationnaire)
  • formants F0, F1, F2 et éventuellement F3.
  • spectre constitué d’harmoniques de F0 = 1/P modulés par les résonances et les anti résonances de l’appareil phonatoire
la position relative des formants est un moyen de diff rencier les phon mes vois s
La position relative des formants est un moyen de différencier les phonèmes voisés
on peut distinguer phon mes vois s et phon mes non vois s avec le spectre
On peut distinguer phonèmes voisés et phonèmes non voisés avec le spectre

Pourquoi utiliser un filtre préaccentuateur ?

pour analyser un signal vocal avec la fft il faut respecter un ensemble de contraintes
Pour analyser un signal vocal avec la FFT, il faut respecter un ensemble de contraintes
  • Le spectre est périodique, de période fe
  • On découpe une fenêtre d’analyse de durée D=N/fe ou de N points
  • Le nombre de points N limite la résolution fe/N de la FFT (largeur des lo-bes de la FFT)
  • Exemple: pour 10ms de signal vocal et pour fe=8kHz, on a N=80 et fe/N=100Hz
  • Spectre à bande étroite : pour D=30ms, la résolution devient 33,3Hz
lire une phrase c est 1 encha ner des phon mes et 2 y ajouter une intonation
Lire une phrase, c’est (1) enchaîner des phonèmes et (2) y ajouter une intonation
  • Pour lire à voix haute un texte écrit, il ne suffit pas de le traduire en phonèmes et de synthétiser les sons associés aux phonèmes, il faut en plus :
    • enchaîner les phonèmes de manière fluide
    • y ajouter une intonation, ou prosodie pour éviter la ‘voix du robot’.
  • Enchaîner les phonèmes à la manière fluide d’un locuteur humain est un problème trop difficile, on enregistre plutôt des diphones :
    • un diphone est la liaison de deux phonè-mes voisins ; par exemple, voici les cinq diphones du mot ‘salut’ : _s + sa + al + lu + u_ ( _ est le silence)
    • mais le nombre de diphones possibles avec 38 phonèmes est 382 (plus important).
  • Créer la prosodie, c’est moduler le pitch P au cours du temps, selon la ponctuation par exemple,
    • en augmentant F0 pour une interrogation ou une virgule (la voix devient plus aigüe)
    • en diminuant F0 pour un point final (c’est-à-dire que la voix devient plus grave).
la technique des fen tres ola permet la fois d encha ner les phon mes et de cr er la prosodie
La technique des fenêtres OLA permet à la fois d’enchaîner les phonèmes et de créer la prosodie
  • OLA (pour OverLap and Add) est utilisée entre autres dans MBROLA.
  • on enregistre un locuteur (homme, femme, français, anglais, …) dont on isole les diphones.
  • on découpe les diphones au moyen de fenêtres de durée 2*P entrelacées (voir ci-dessous),
  • on constitue ensuite les sons par addition de ces fenêtres entrelacées pour obtenir la fusion des diphones
  • en faisant varier l’intervalle de temps entre les fenêtres, on fait varier P et on crée facilement la prosodie
voici comment mbrola code la prosodie
Voici comment MBROLA code la prosodie

La syntaxe d’une ligne suit le schéma suivant

phonème durée [%durée F0] n fois

Les variations de la fréquence F0=1/P où P est le pitch sont linéaires. Ainsi :

u 96 29 123 81 128

spécifie une durée de 96 ms, et

à 29% de la durée, on a F0=123Hz, à 81% de la durée, on aura F0 = 128Hz

le fonctionnement de l appareil phonatoire explique les caract ristiques du signal vocal
Le fonctionnement de l’appareil phonatoire explique les caractéristiques du signal vocal
  • Les observations précédentes conduisent à modé-liser la phonation par le filtre 1/A(z) ci-dessous dont l’entrée est soit :
  • une suite d’impulsions périodiques (cas voisé)
  • un bruit blanc (cas non voisé)
la fr quence d chantillonnage fe doit tre choisie en fonction de l appareil auditif
La fréquence d’échantillonnage fe doit être choisie en fonction de l’appareil auditif
  • Définition du son en décibel, on convient que le 0dB est le seuil d’audition10-12 W/m2
  • Quelles sont les limites de l’audition ?
  • Quelle est la zone de fréquence la plus audible ?
  • Quel est le seuil de dou-leur, volume sonore insupportable ?