1 / 67

Procesamiento de señales de voz

Procesamiento de señales de voz. La comunicación oral. ¿Qué es la voz?. Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes). Cuestiones varias:. ¿Qué relación hay entre los fonemas y la señal de voz?

hetal
Download Presentation

Procesamiento de señales de voz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Procesamiento de señales de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  2. La comunicación oral ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  3. ¿Qué es la voz? • Onda de sonido (onda de presión) • Producida por el aparato fonador • Utilizada para comunicación (para transmisión de mensajes) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  4. Cuestiones varias: • ¿Qué relación hay entre los fonemas y la señal de voz? • ¿Y entre otras características y la señal de voz? • ¿Cómo podemos analizar las características de la voz? • ¿Cómo se manifiesta una patología de la voz en la señal? • ¿Cómo podemos ajustar un sistema de ayuda a la audición para optimizar la comprensión de la voz? • ¿Cómo podemos interpretar un error en la producción de un fonema? • ¿Cómo podemos interpretar un error en detección o identificación de fonemas? ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  5. Procesamiento de voz • Análisis de voz • Codificación y comprensión de voz • Síntesis de voz • Reconocimiento automático de voz • Reconocimiento y verificación de locutores • Detección de patologías • Diseño de ayudas para la audición ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  6. ¿Qué es la voz? • Producción de la voz • Percepción de la voz • Procesamiento de señales Dificultades al intentar relacionar la señal con las características ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  7. Problemas del procesamiento de voz • Variabilidad • Intra-locutor (estado salud / ánimo, velocidad) • Inter-locutor • Adquisición • Continuidad: concatenación y coarticulación • Información contenida en la señal de voz muy redundante • Multi-interactividad entre niveles: • Nivel fonético • Características suprasegmentales • Nivel semántico: contexto – suplencia mental • Ruido: perturbación + efecto Lombard ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  8. Variabilidad de las señales de voz • 40 ms correspondientes al fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  9. Modelos de producción de voz • Órganos de producción de voz • Cavidades infraglóticas • Cavidad laríngea (cuerdas vocales) • Cavidades supraglóticas Provisión de aire Generación de la “onda glotal” Filtrado de la onda glotal (diversificación fonética) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  10. Modelo acústico de producción de voz • Onda acústica: onda de presión en el aire con c = 350 m/s • Longitud de onda l = c / f • Para 100 Hz, l = 3.5 m • Para 4 kHz, l = 8.75 cm • Producción de sonido: • Fonemas sonoros: vibración cuerdas vocales • Fonemas sordos: flujo turbulento • Fonemas oclusivos: obstrucción + apertura ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  11. Modelo acústico de producción de voz (II) • Paredes no rígidas: • Pérdidas onda acústica • Forma y sección del tracto vocal varía en el tiempo: • Se producen entre 5 y 20 fonemas por segundo • Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  12. Simplificaciones • Tracto vocal tubo rígido descrito por la “función de área” A(x,t) • Como l > radio del tubo, aproximación de onda plana • (El problema de contorno tridimensional se puede reducir a un problema unidimensional) • Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  13. Función de área ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  14. Ecuaciones de onda ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  15. Condiciones de contorno • Glotis: vibración cuerdas vocales • Labios: p(L)=0 • Onda proporcional a u(L) Solución de las ecuaciones de onda • A se puede suponer constante en el tiempo (condición de quasi-estacionariedad) • Para A(x) sencilla, soluciones analíticas • Para A(x) compleja, métodos numéricos • Medidas de A(x): Rx, TAC, RMN, articulógraf. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  16. Pérdidas por elasticidad • mw masa/unid.long; • bw cte. amortiguación • kw cte. recuperación elástica • Solución para: • L = 17.5 cm • A = cte = 5.0 cm2 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  17. u(L,f) / uG(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  18. Formantes • Formantes: resonancias del tracto vocal • Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz • El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  19. Pérdidas por radiación de onda • p(L) = 0 no es cierto • Impedancia acústica Z • Impedancia para abertura circular de radio a en plano infinito • El filtrado del tracto vocal considerando las perdidas por radiación es distinto: • Caída para altas frecuencias • 6 dB / década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  20. u(L,f) / uG(f) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  21. Solución numérica para función de área correspondiente a fonema /a/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  22. Acoplamiento del tracto nasal ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  23. Modelo acústico de producción de voz • Excitación • Fonemas sonoros • Fonemas sordos • Fonemas oclusivos • Filtrado por tracto vocal / nasal • Formantes (1 por kHz) • Caída 6 dB/década ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  24. Modelo digital de producción de voz ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  25. Características de la voz • Excitación: • Sonoro (freq. fundamental o pitch) • Sordo • Oclusivo • Combinación • Formantes: • Cavidad buco-nasal • Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  26. Características de la voz TONO • Excitación: • Sonoro (freq. fundamental o pitch) • Sordo • Oclusivo • Combinación • Formantes: • Cavidad buco-nasal • Envolvente espectral • Energía: presión de aire • Evolución en el tiempo de los parámetros TIMBRE INTENSIDAD DURACIÓN ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  27. Clasificación de los fonemas(desde el punto de vista de la producción) • Actividad de cuerdas vocales • Vocales • Consonantes sonoras • Consonantes sordas • Modo de articulación • Vocales • Consonantes • Lugar de articulación • Vocales • Consonantes ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  28. Clasificación de vocales • Modo de articulación (formante 1) • Cerradas (i,u) • Medias (e,o) • Abiertas (a) • Lugar de articulación (formante 2) • Anteriores (i,e) • Centrales (a) • Posteriores (o,u) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  29. 3000 2500 /e/ /i/ 2000 freq. 2o formante (Hz) 1500 /a/ /u/ /o/ 1000 500 200 300 400 500 600 700 800 900 1000 freq. 1er formante (Hz) Formantes 1º y 2º en vocales ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  30. Modo de articulación (cons.) • Oclusivas (b,d,g,p,t,k) • Fricativas (s,f,z,x,y) • Africadas (ch) • Nasales (m,n,ñ) • Líquidas: • Laterales (l, ll) • Vibrantes (r, R) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  31. Lugar de articulación (cons.) • Bilabiales (b,p,m) • Labiodentales (f) • Linguodentales (t,d) • Linguointerdentales (z) • Linguoalveolares (s,n,l,r,R) • Linguopalatales (y,ch,ñ,ll) • Linguovelares (k,g,x) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  32. Fonemas del español ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  33. Análisis de señales de voz • Conceptos de procesado de señales • Transformada de Fourier • Componentes de frecuencia • Espectro de potencia • Filtrado • Ventanas • Muestreo • Espectrogramas ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  34. Im(z) r y f x Re(z) Transformada de Fourier • Transformada (FT): • Cambio de representación • Misma información (otra representación) • Existe transformada inversa (FT-1) • Transforma señal compleja en señal compleja: ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  35. Espectro de potencia (1) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  36. Espectro de potencia (2) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  37. Descomposición en componentes freq. ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  38. Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  39. Linealidad de la Transformada de Fourier ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  40. Filtrado excitación señal filtrada • Caracterización del filtro: • Tiempo: respuesta impulsiva • Frecuencia: función de transferencia (o respuesta en frecuencia) filtro ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  41. Filtrado en el tiempo: convolución ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  42. Filtrado en frecuencia: multiplicación ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  43. Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  44. Ventanas (multiplicación en tiempo) ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  45. Transformada de un tren de pulsos ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  46. Transformada de señal periódica ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  47. Muestreo de señales: T. de muestreo ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  48. Transformada Fourier: Resumen ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  49. DFT y FFT • Transformada discreta de Fourier (DFT) • Transformada rápida de Fourier (FFT) • Señales discretas (muestreadas) • Ventana (resolución espectral) • N muestras en t => N muestras en f • FFT: Muy utilizada en procesamiento digital de señales ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

  50. La señal de voz /sal/ ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR

More Related