Voicebox

Voicebox Speech processing toolbox for MATLAB André Palhares

Vector Distance - disteusq • Calcula a distânciaeuclidiana, quadradodaeuclidianaou de mahanalobis entre matrizes • D=disteusq(X,Y,MODE,W) • X,Y são matrizes com mesmo número de colunas • MODE é uma string • ‘x’: distância entre cada uma das linhas de X e Y • ‘d’: distância entre linhas correspondentes • ‘s‘: tira a raiz quadrada de modo a obter a distância euclidiana • W é opcional e utilizado como peso pra distância • Se MODE = ‘x’, retorna uma matriz com as distâncias • Se MODE = ‘d’, o retorno é um vetor coluna

Speech Analysis - enframe • Divide o sinal em frames, um por linha da matriz de saída • F = ENFRAME(X,LEN) • Cada frame fica com tamanho LEN e ocupa uma linha de F • F = ENFRAME(X,LEN,INC) • Cada frame começa a distancia INC do inicio do frame anterior

Speech Analysis – fram2wav • Converte frames em waveforms contínuos, usando algum método de interpolação • [w,s]=fram2wav(x,tt,mode) • Entradas • x(nf, p) – sinal de entrada, um frame por linha • tt(nf, 3) – serve para específicar quais frames exatamente se quer interpolar • mode – l pra interpolação linear, z para zero-order hold interpolation • Saídas • w(n,p) • s(ns, 2)

Speech Analysis – ewgrpdel • Calcula a energy weighted group delay waveform – para cada sample de entrada, essa rotina calcula o delay entre tal amostra e o centro de gravidade de uma janela centrada na amostra • [y,mm]=ewgrpdel(x,w,m) • x – sinal de entrada • w – a janela ou o tamanho da janela • m – onde fica o centro da janela (no meio, como default) • y – o waveform gerado • mm – o m utilizado no cálculo

Speech Analysis – activlev • Mede o level ativo do sinal, de acordo com a recomendação P.56 da ITU-T • [lev,af,fso]=activlev(sp,fs,mode) • sp – sinal de entrada • fs – frequencia de amostragem • mode: • ‘r’ – omitir todos os filtros (padrao é 200 Hz até 5.5 kHz) • ‘0’ – não usar filtro passa alta (inclui DC) • ‘4’ – usa filtro passa alta em 40 Hz • ‘1’ – usa filtro de chebyschev de ordem 1 • ‘2’ – usa filtro de chebyschev de ordem 2 (default) • ‘e’ – usa filtro elíptico • ‘h’ – omitir filtro passa baixa em 5.5 kHz • ‘d’ – saída e dB • Saídas • lev – level do sinal • af – duty cycle do sinal • fso – vetor com informações adicionais do sinal

Speech Analysis – spgrambw • Exibe o spectrograma do sinal em escala de cinza • [tt,f,b]=spgrambw(data,fs,bw,fmax)

Speech Analysis – txalign • Encontra o melhor alinhamento entre dois conjuntos de marcadores de tempo • [kx,ky,nxy,mxy,sxy]=txalign(X,Y,MAXT) • X e Y são vetores de tempo. O alinhamento tenta minimizar (X-Y)^2 com uma penalidade de MAXT^2 para cada par de entradas que não alinhem • Saídas: • nxy – número de alinhamentos obtidos • mxy – média das distancias do alinhamento • sxy – desvio padrão das distancias do alinhamento • kx – vetor do mesmo tamanho de X. kx(i) = j se X(i) alinhou com Y(j). Se não, kx(i) = 0. • Ky – idem em relação a Y

Speech Analysis – soundspeed • Retorna a velocidade do som no ar, em função da temperatura • v=soundspeed(t,m,g) • t – temperatura do ar em celsius • m – peso molecular médio do ar • g – constante adiabática do ar • v – velocidade do som

Voicebox Parameters and System Interface - voicebox • Usadoparasetarparâmetrosglobais do voicebox • y=voicebox(f,v) • f é o nome de algum campo a ser setado • v é o novo valor que tal campo vai assumir • y é o valor do campo atualmente, se nenhum valor novo for passado como parâmetro. Se f e v forem ambos passados ou não, y recebe a estrutura dos parâmetros atual • Entre os campos que podem ser setados, temos: • PP.dir_temp - localização de dados temporários • PP.dir_data - localizaçao de dados • PP.shorten - localização do executavel shorten • PP.sfsbin – localizaçao dos executaveis sfs • PP.sfssuffix – sufixo dos executaveis sfs

Voicebox

Voicebox

Presentation Transcript

Voicebox – Matlab toolbox