Voicebox
Download
1 / 10

Voicebox - PowerPoint PPT Presentation


  • 113 Views
  • Uploaded on

Voicebox. Speech processing toolbox for MATLAB André Palhares. Vector Distance - disteusq. Calcula a distância euclidiana , quadrado da euclidiana ou de mahanalobis entre matrizes D=disteusq(X,Y,MODE,W) X,Y são matrizes com mesmo número de colunas MODE é uma string

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Voicebox' - cher


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Voicebox

Voicebox

Speech processing toolbox for MATLAB

André Palhares


Vector distance disteusq
Vector Distance - disteusq

  • Calcula a distânciaeuclidiana, quadradodaeuclidianaou de mahanalobis entre matrizes

  • D=disteusq(X,Y,MODE,W)

  • X,Y são matrizes com mesmo número de colunas

  • MODE é uma string

    • ‘x’: distância entre cada uma das linhas de X e Y

    • ‘d’: distância entre linhas correspondentes

    • ‘s‘: tira a raiz quadrada de modo a obter a distância euclidiana

  • W é opcional e utilizado como peso pra distância

  • Se MODE = ‘x’, retorna uma matriz com as distâncias

  • Se MODE = ‘d’, o retorno é um vetor coluna


Speech analysis enframe
Speech Analysis - enframe

  • Divide o sinal em frames, um por linha da matriz de saída

  • F = ENFRAME(X,LEN)

    • Cada frame fica com tamanho LEN e ocupa uma linha de F

  • F = ENFRAME(X,LEN,INC)

    • Cada frame começa a distancia INC do inicio do frame anterior


Speech analysis fram2wav
Speech Analysis – fram2wav

  • Converte frames em waveforms contínuos, usando algum método de interpolação

  • [w,s]=fram2wav(x,tt,mode)

  • Entradas

    • x(nf, p) – sinal de entrada, um frame por linha

    • tt(nf, 3) – serve para específicar quais frames exatamente se quer interpolar

    • mode – l pra interpolação linear, z para zero-order hold interpolation

  • Saídas

    • w(n,p)

    • s(ns, 2)


Speech analysis ewgrpdel
Speech Analysis – ewgrpdel

  • Calcula a energy weighted group delay waveform – para cada sample de entrada, essa rotina calcula o delay entre tal amostra e o centro de gravidade de uma janela centrada na amostra

  • [y,mm]=ewgrpdel(x,w,m)

    • x – sinal de entrada

    • w – a janela ou o tamanho da janela

    • m – onde fica o centro da janela (no meio, como default)

    • y – o waveform gerado

    • mm – o m utilizado no cálculo


Speech analysis activlev
Speech Analysis – activlev

  • Mede o level ativo do sinal, de acordo com a recomendação P.56 da ITU-T

  • [lev,af,fso]=activlev(sp,fs,mode)

  • sp – sinal de entrada

  • fs – frequencia de amostragem

  • mode:

    • ‘r’ – omitir todos os filtros (padrao é 200 Hz até 5.5 kHz)

    • ‘0’ – não usar filtro passa alta (inclui DC)

    • ‘4’ – usa filtro passa alta em 40 Hz

    • ‘1’ – usa filtro de chebyschev de ordem 1

    • ‘2’ – usa filtro de chebyschev de ordem 2 (default)

    • ‘e’ – usa filtro elíptico

    • ‘h’ – omitir filtro passa baixa em 5.5 kHz

    • ‘d’ – saída e dB

  • Saídas

    • lev – level do sinal

    • af – duty cycle do sinal

    • fso – vetor com informações adicionais do sinal


Speech analysis spgrambw
Speech Analysis – spgrambw

  • Exibe o spectrograma do sinal em escala de cinza

  • [tt,f,b]=spgrambw(data,fs,bw,fmax)


Speech analysis txalign
Speech Analysis – txalign

  • Encontra o melhor alinhamento entre dois conjuntos de marcadores de tempo

  • [kx,ky,nxy,mxy,sxy]=txalign(X,Y,MAXT)

  • X e Y são vetores de tempo. O alinhamento tenta minimizar (X-Y)^2 com uma penalidade de MAXT^2 para cada par de entradas que não alinhem

  • Saídas:

    • nxy – número de alinhamentos obtidos

    • mxy – média das distancias do alinhamento

    • sxy – desvio padrão das distancias do alinhamento

    • kx – vetor do mesmo tamanho de X. kx(i) = j se X(i) alinhou com Y(j). Se não, kx(i) = 0.

    • Ky – idem em relação a Y


Speech analysis soundspeed
Speech Analysis – soundspeed

  • Retorna a velocidade do som no ar, em função da temperatura

  • v=soundspeed(t,m,g)

  • t – temperatura do ar em celsius

  • m – peso molecular médio do ar

  • g – constante adiabática do ar

  • v – velocidade do som


Voicebox parameters and system interface voicebox
Voicebox Parameters and System Interface - voicebox

  • Usadoparasetarparâmetrosglobais do voicebox

  • y=voicebox(f,v)

  • f é o nome de algum campo a ser setado

  • v é o novo valor que tal campo vai assumir

  • y é o valor do campo atualmente, se nenhum valor novo for passado como parâmetro. Se f e v forem ambos passados ou não, y recebe a estrutura dos parâmetros atual

  • Entre os campos que podem ser setados, temos:

    • PP.dir_temp - localização de dados temporários

    • PP.dir_data - localizaçao de dados

    • PP.shorten - localização do executavel shorten

    • PP.sfsbin – localizaçao dos executaveis sfs

    • PP.sfssuffix – sufixo dos executaveis sfs


ad