230 likes | 367 Views
Mel Frequency Cepstral Coefficients for Music Modeling. Autores : Beth Logan. Cambridge Research Laboratory ISMIR - 2003. O que são Mel Frequency Cepstral Coefficients ?.
E N D
Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003
O que são Mel Frequency Cepstral Coefficients ? • MFCC são geralmente usados como features de sistemas de reconhecimento de fala. • Um exemplo seria um sistema de SAC que pode reconhecer automaticamente números falados em um telefone.
Introdução • Neste trabalho foi examinado com alguns detalhes Mel Frequency Cepstral Coefficients ( MFCCs ), que são features dominantes usadas no reconhecimento da fala. • Investigamos a aplicabilidade destas features na modelagem musical. . A composição espectral de um sinal contém muita informação. . São features sensíveis ao ruído.
Introdução • MFCCs são features de curto prazo, elas são calculadas como segue: 1 – Divide o sinal em Frames. 2 - Para cada Frame, obtém a amplitude do espectro. 3 – Aplica-se logaritmo. 4 – Aplica-se DCT ( Discrete Cosine Transform ) .
Introdução • Examinamos 2 dos principais pressupostos no processo de formação de MFCC: 1 - A utilização de Mel Frequency scale para modelar o espectro. 2 - Discrete Cosine Transform (DCT ) para “decorrelate” Mel-spectral vectors.
MFCC for Speech Recognition • MFCC são as features dominantes utilizadas no reconhecimento da fala. • Seu sucesso é devido a capacidade de representar a amplitude do espectro da fala de uma forma compacta.
MFCC for Speech Recognition • A escala Mel é baseada em um mapeamento entre a frequência real e o pitch aparentemente percebido do sistema auditivo humano.
MFCCs for Music Analysis • Como visto anteriormente o processo de cálculo de MFFCs para fala consiste em 5 etapas: .Dividir o sinal em frames .Obter a amplitude do espectro .Transformar para Logaritimo .Converter para espectro Mel .Aplicar DCT Vamos procurar determinar se este processo é adequado na criação de features para um modelo musical
Mel vs Linear Spectral Modeling • Para investigar se é apropriado para determinar o spectrum da música usando a escala mel, usamos um áudio de speech/music simples. • Temos disponíveis cerca de 3 horas de dados rotulados de um programa de transmissão de rádio. • O programa contém entrevistas, comerciais e uma série de segmentos de músicas.
Mel vs Linear Spectral Modeling • Os dados são divididos da seguinte maneira : .2 horas de dados de treino - 10% rotulados como música. . 40 minutos de dados de teste - 14 % rotulados como música.
Mel vs Linear Spectral Modeling • Nós convertemos os dados de treinamento para a escala ‘Mel’ e para ‘um Linear Spectral Modeling’. • Usando uma versão padrão de algoritmos EM ( Expectation – Maximization ) nos treinamos uma mistura de Classificadores Gaussianos para rotular segmentos de fala/música dos dados de treinamento.
Using the DCT to Approximate the KL Transform • Oque é um Karhumen – Loève ? A KL é uma transformação linear que permite a representação de funções utilizando funções-base formadas pelos “eigenVectors” ( autovetores) da matriz de correlação do sinal. A KL é uma transformação linear que geralmente é realizada para encontrar ‘eigenValues” ( autovalores ) da matriz de covariância.
KL Transform A transformação KL converte um vetor u de dimensão m em um vetor v de dimensão n onde : . n <= m e v é “uncorrelated” . Isso é expresso como : v = Ou
KL Transform Obs : The speech used is the trainning set for TIMIT( Garofolo et al. 1993) which is a speaker independent, clean speech database ( 3 hours of speech ).
Usando DCT • Na comunidade de reconhecimento de fala é usado um DCT ( Discrete Cosine Transform ) para aproximar da transformação KL. • A transformação é escrita como : c = Du onde c é o coeficiente cepstral de u e D que é n x m matrix of cosine basis.
Usando DCT • Pelos nossos estudos, observamos que o DCT está próximo do ótimo para a função de “decorrelated” para fala.
KL transform for music spectra • Vamos agora examinar a transformação KL para música. • A figura a seguir mostra os “eigenValues” e os 15 primeiros “eigenVectors” para uma sequência de Mel Log Spectral vectores coletados de Músicas dos Beatles (289 minutos de música no total).
Conclusão • Neste paper, procurou-se construir um caso de sucesso na comunidade de reconhecimento de fala pela investigação de como aplicável é, usar features dominantes da fala (spectral features ) para a modelagem de música.
Referências • Foote, J.T. (1997), Content-based retrieval of music and audio, in ‘SPIE’,pp. 138-147. • Garolfo, J.S. Et al. (1993), Darpa timit. acoustic-phonetic continuous speech corpus. Nistir 4930, Technical report, DARPA. • Logan, B. T. & Chu, S. (2000), Music summarization using key phrases, in ‘Proceedings IEEE International Conference in Spoken Language Processing’
EigenValues and EingenVectors • Vejamos um exemplo de eigenValue e EigenVector: • Se vc for perguntado se é um eigenVector correspondente do eigenValue para voce pode descobrir, subistituindo x, e A na equação :