1 / 58

COEFICIENTES MFCC (Mel Frequency Cepstrum Coeficients)

COEFICIENTES MFCC (Mel Frequency Cepstrum Coeficients).

micheal
Download Presentation

COEFICIENTES MFCC (Mel Frequency Cepstrum Coeficients)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. COEFICIENTES MFCC (Mel Frequency Cepstrum Coeficients) Un método más eficiente para extraer características y que es el más utilizado actualmente en reconocedores comerciales son los Coeficientes Cepstrales en Escala de Mel (MFCC), este método es robusto, además hace uso de la Transformada de Fourier para obtener las frecuencias de la señal. El objetivo es desarrollar un conjunto de características basadas en criterios perceptuales, diversos experimentos muestran que la percepción de los tonos en los humanos no está dada en una escala lineal, esto hace que se trate de aproximar el comportamiento del sistema auditivo. Los coeficientes Cepstrales en Frecuencia en Escala de Mel (MFCC) son una representación definida como el cepstrum de una señal ventaneada en el tiempo que ha sido derivada de la aplicación de una Transformada Rápida de Fourier, pero en una escala de frecuencias no lineal, las cuales se aproximan al comportamiento del sistema auditivo humano.

  2. Cálculo de coeficientes Mels • El cálculo de los coeficientes mels utiliza dos de las herramientas más conocidas • en el análisis de señales: • La transformada de Fourier para la representación del contenido espectral de • una señal. • El diseño de un banco de filtros para permitir la selección de bandas de frecuencia de la señal bajo análisis. • Con la transformada de Fourier se conoce el contenido en frecuencia (espectro) de la señal y con los filtros diseñados (sintetizados), se logra obtener las componentes de frecuencia que a cada banda les aporta la señal analizada. • El principio de ponderar la energía que aporta a cada banda de frecuencias la señal bajo análisis y luego calcular en términos de un coeficiente para cada valor de energía en banda de frecuencia, es a lo que llamamos coeficientes cepstral. • El algoritmo o método para el cálculo de estos coeficientes, usando las dos herramientas mencionadas es lo que se describe a continuación.

  3. Diagrama de flujo para el cálculo de los coeficientes MFCC

  4. COEFICIENTES MFCC Davis y Mermelstein en 1980 demostraron que los MFCC son beneficiosos para el Reconocimiento Automático del Habla. Dada una Transformada Discreta de Fourier de una señal de entrada: Se distribuye el comportamiento espectral en bandas de frecuencia mediante un banco de filtros con los que se calcula el promedio del espectro alrededor de cada frecuencia central. Se puede definir a fl como la frecuencia más baja y a fhcomo la frecuencia más alta del banco de filtros en Hz, Fs es la frecuencia de muestreo en Hz, M el número de filtros y N el tamaño de la Transformada Rápida de Fourier.

  5. Diseño de los filtros MFCC Normalmente los filtros triangulares son repartidos en el rango de frecuencias completas, desde cero hasta la frecuencia de Nyquist. Sin embargo, un criterio de limitación en banda es comúnmente útil para rechazar frecuencias no deseadas o evitar la construcción de filtros en regiones de frecuencia en las cuales no existe energía de la señal útil. Para el análisis de filtros solamente, las frecuencias de corte más baja y las más alta se pueden establecer utilizando parámetros de configuración LOFREQ y HIFREQ, por ejemplo: LOFREQ=300 HIFREQ=3400 Pueden ser utilizadas para procesar señales telefónicas. Cuando se especifican las frecuencias de corte baja y alta de esta forma, el número especificado de canales de los bancos de filtro son distribuidos de forma igual a lo largo de toda la escala de Mel resultando en un conjunto de filtros pasabanda, en donde la frecuencia de corte más baja del primer filtro es igual a LFREQ y la frecuencia de corte del último filtro está en HIFREQ. [HTK]

  6. Diseño de los filtros en función de fl y fh Los puntos superiores de cada función espectral f(m) se encuentran uniformemente espaciados en la escala de Mel en función de m y se determinan mediante:

  7. æ ö f b = + ç ÷ ( f ) 1125 ln 1 è 700 ø æ ö æ ö f 300 b = + = + = ç ÷ ç ÷ l ( f ) 1125 ln 1 1125 ln 1 401 . 2593 l 700 700 è ø è ø æ ö æ ö f 3400 b = + = + = ç ÷ ç ÷ h ( f ) 1125 ln 1 1125 ln 1 1988 . 6196 h 700 è 700 ø è ø Diseño de los filtros en función de fl y fh Para el caso de banda telefónica: si: entonces:

  8. 1988.61 401.25 300 3400 ESCALA MELS VS FRECUENCIA

  9. CÁLCULO DE LOS COEFICIENTES MFCC En donde la inversa está dada por: Entonces finalmente se calcula el logaritmo de la energía de la salida de cada filtro, a la señal x[n]:

  10. CÁLCULO DE LOS COEFICIENTES MFCC El cepstrum en frecuencia Mel es la Transformada Discreta del Coseno de las salidas de los M bancos de filtros:

  11. CONSTRUCCIÓN DE LOS FILTROS La siguiente función permite la construcción de los bancos de filtro. Observar que cada banco de filtro es una función Hm[k], determinada por los valores de k y de f[m] determinados en los pasos anteriores. Este procedimiento funciona si los filtros son equiespaciados.

  12. CONSTRUCCIÓN DE LOS FILTROS

  13. Construcción de filtros Para filtros no uniformemente espaciados, la solución de diseño es la que se muestra, donde se garantiza una amplitud normalizada de ‘1’ para todos los filtros.

  14. Construcción de filtros Para filtros no uniformemente espaciados, la solución de diseño es la que se muestra, donde también se garantiza una amplitud normalizada de ‘1’ para todos los filtros.

  15. CÁLCULO DE LOS COEFICIENTES MFCC Donde M varía para diferentes implementaciones de 24 a 40, para el Reconocimiento Automático del Habla (RAH) generalmente son usados los primeros 12 A 14 coeficientes. Este algoritmo es ampliamente usado para obtener el vector de características en sistemas de RAH. Para reconocimiento de locutor se utiliza un número mayor de coeficientes. LA CANTIDAD DE COEFICIENTES TIENE QUE SER TAL QUE CUBRAN EL RANGO DE FRECUENCIA DEL ESPECTRO EN DONDE ES ÚTIL LA INFORMACIÓN ESPECTRAL, COMO ANTERIORMENTE SE DIJO. PARA EL CASO DE LA VOZ EN LÍNEA TELEFÓNICA: 200 Hz <= FSEÑAL UTIL <= 3500 Hz

  16. CRITERIOS DEL SPHINX Valores típicos definidos como constantes para el diseño de bancos de filtros La frecuencia máxima en todos los casos es soportada por la frecuencia de muestreo utilizada.

  17. EVALUACIÓN COMPARATIVA DE VARIAS IMPLEMENTACIONES DE LOS MFCC • La pregunta de la mejor representación de los parámetros de la señal de voz arrojó varias características de la voz, las cuales presentan diferentes ventajas en condiciones específicas y aplicaciones. Además, para ciertas características de la señal de voz, tales como los MFCC, varias implementaciones se han realizado. Las cuales difieren básicamente en características de los filtros tales como: número, pendiente, espaciamiento, ancho de banda y la forma en la que el espectro es obtenido. Además del rango de frecuencia de interés, la selección del subconjunto actual del número de coeficientes MFCC en la clasificación suele ser diferente. Los más utilizados y reportados son: • MFCC FB-20. Introducido en 1980 por Davis y Mermelstein; en el cual ellos consideran una frecuencia de muestreo de 10kHz; y un ancho de banda de [0,4600] Hz. • MFCC FB-24 HTK. El HTK de la universidad de Cambridge descrito por Steve Young, 1995, el cual utiliza un banco de filtros de 24 para un ancho de banda de [0, 8000]Hz (una razón de muestreo mayor o igual a 16 kHz). • MFCC FB-40. Dicho diseño se realizó en el Auditory Toolbox de MATLAB que fue escrito por Slaney en 1998; Slaney consideró una razón de muestro de 16kHz y un ancho de banda de la voz de [133 6854]Hz. • HFCC FB-24. Coeficientes Cepstrales de Factor Humano; descritos por Skowronsky y Harris en 2004, los autores consideraron una razón de muestreo de 12.5 kHz y un ancho de banda de [0 6250] Hz.

  18. EVALUACIÓN COMPARATIVA DE VARIAS IMPLEMENTACIONES DE LOS MFCC Una de las principales razones que motiva la gran diversidad de implementaciones de los MFCC es el deseo de los investigadores de continuar el progreso realizado en el área de psicoacústica durante años. Considere las varias aproximaciones de la percepción no lineal del pitch por el sistema auditivo humano. Una aproximación temprana conocida como la escala de Koeing es lineal por debajo de 1000 Hz y logarítimica por encima de dicha frecuencia. Esto otorga una implementación no muy cara computacionalmente de la escala de Mel, la cual sin embargo no es muy precisa y significativamente se deriva de la escala original para frecuencias por debajo de y por encima de frecuencias de 1000 Hz. Una aproximación más precisa se debe a Fant: La última expresión resulta con una aproximación más cercana a la escala de Mel en el rango de frecuencia de [0, 5] kHz, cuando se compara con la aproximación ofrecida por la escala de Koeing.

  19. VARIAS IMPLEMENTACIONES DE LOS MFCC Otras implementaciones de la escala de Mel que fueron derivadas del trabajo de Zhang “Comparison of different implementations of MFCC”, 2001, hacen uso del logaritmo decimal o natural, lo cual trata con diferentes elecciones de la constante Kconst. A continuación se ilustra lo antes mecionado. Las cuales son ampliamente utilizadas en las implementaciones de las MFCC. Las dos ecuaciones otorgan una aproximación más cercanas a la escala de Mel para frecuencias por debajo de 1000 Hz.

  20. LOS MFCC ORIGINALES FB-20 En el paradigma introducido por Mermelstein y Davis, 1980 los novedosos MFCC fueron diseñados como un conjunto de parámetros descorrelacionados de la transformada coseno discreta, los cuales fueron calculados a partir de la transformación de las energías de los filtros de salida comprimidos logarítmicamente. Estas energías fueron derivadas a lo largo de bancos de filtros espaciados perceptualmente de 20 filtros triangulares equiespaciados que son aplicados sobre la transformada discreta de Fourier. Brevemente, dada la DFT de una señal discreta x(n), Un banco de filtros con M filtros triangulares de peso igual son construidos. Cada uno de esos M filtros se definen de la forma:

  21. LOS MFCC ORIGINALES FB-20 En donde i indica el i-ésimo filtro, son los puntos de frontera de los filtros, y k=1,2,….,N corresponde a los k-th coeficientes de la DFT de N puntos. Los puntos frontera se expresan en términos de posición, los cuales dependen de la frecuencia de muestreo Fs y el número de puntos N en la DFT.

  22. LOS MFCC ORIGINALES FB-20 Los puntos finales de cada uno de los filtros triangulares están determinados por las frecuencias centrales de sus filtros adyacentes. De tal forma que el ancho de banda de los filtros no es una variable independiente. El banco de filtros de Davis y Mermelstein está comprimido a solamente 20 filtros de pesos iguales los cuales cubren el rango de frecuencia de [0, 4600] Hz. Las frecuencias centrales de los primeros diez se encuentran linealmente espaciadas entre 100 Hz y 1000Hz, y los siguientes diez tienen la frecuencias centrales logarítmicamente espaciadas entre 1000 Hz y 4000Hz. La elección de las frecuencias centrales para el i-ésimo filtro puede ser aproximado por:

  23. Lumped.- amontonado

  24. LA TRANSFORMADA COSENOIDAL DISCRETA La transformada de Coseno Discreta es una transformación basada en la Transformada discreta de Fourier, pero utilizando solamente números reales. Expresa una secuencia de muchos puntos de datos en términos de una suma de funciones coseno oscilando a diferentes frecuencias. Sus aplicaciones son importantes sobre todo en aquellas en donde componentes pequeñas de alta frecuencia se pueden descartar. El uso de la función coseno en lugar de la función seno ha demostrado ser más útil (p. e. la compresión de información), existen 8 variantes de la transformada coseno discreta, de las cuales sólo 4 son las más utilizadas o comunes.

  25. GRÁFICA DE LA DFT Y LA DCT DE UNA SEÑAL DE VOZ y=wavread('a10.wav'); xr=5000; yprueba=y(xr:xr+511); figure(1); plot(yprueba); % preenfasis for (i=length(yprueba)-1:-1:2) yprueba(i)=yprueba(i) - yprueba(i-1)*0.97; end figure(2); plot(yprueba); hamm=hamming(512); x=hamm.*yprueba; figure(3); plot(x); ffty=abs(fft(x)); hffty=ffty(1:256); figure(4); plot((1:256),40*log10(hffty),'red') dcty=dct(x); figure(5); plot((1:512),40*log10(dcty),'red')

  26. LA TRANSFORMADA COSENO DISCRETA Formalmente, la transformada coseno discreta a una función invertible y lineal del tipo: (donde, R denota el conjunto de los números reales), o de forma equivalente una matriz cuadrada invertible de orden N x N. Existen muchas variantes de la DCT. Los N números reales x0, x1,……..,xN-1 son transformados dentro de los N números reales X0, X1,….,XN-1 de acuerdo a cada una de las fórmulas. DCT-II

  27. CÁLCULO DE LOS MFCC MEDIANTE HTK A continuación se describe la forma en que el HTK realiza el cálculo de los coeficientes MFCC para el reconocimiento de voz por computadora. Basándonos en el algoritmo siguiente se tiene:

  28. CÁLCULO DE LOS MFCC MEDIANTE HTK float Mel Antes de proceder a calcular la FFT de la señal, el HTK realiza el cálculo de los Filtros de Mel correspondientes, para determinar la cantidad de información que generará y operar de manera adecuada las operaciones de multiplicación entre elementos. Para calcular los MFCCs, el HTK dispone de siete funciones, las cuales se describen a continuación: float WarpFreq FBankInfo InitFBank FBankInfo InitFBank void Wave2FBank FBank2MFCC FBank2MelSpec

  29. CÁLCULO DE LOS MFCC MEDIANTE HTK Antes de comenzar a describir cada una de las funciones, se hace necesario la forma en que HTK agrupa a las características de los bancos del filtro, la siguiente estructura definida por los programadores nos ilustra esta situación:

More Related