1 / 13

語音處理簡介

語音處理簡介. 語音處理簡介. 聲音 訊號 ( Audio Signals ): 泛指由人耳聽到的各種聲音的 訊號 聲音代表了空氣的密度隨時間的 變化, 是一個連續的 函數, 將聲音儲存到電腦時 ,必須先將訊號數位化,其中有幾個 參數需要考慮 : 取樣頻率( sample Rate ),常用 的取樣頻率 如下 : (1) 8 kHz (2) 16 KHz (3)22.05 KHz (4)44.1 KHz 取樣解析度( Bit Resolution ):每個聲音資料點所用的位元數,常用的數值 如下 : (1) 8-bit (2) 16-bit

reed
Download Presentation

語音處理簡介

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 語音處理簡介

  2. 語音處理簡介 • 聲音訊號(Audio Signals):泛指由人耳聽到的各種聲音的訊號 • 聲音代表了空氣的密度隨時間的變化,是一個連續的函數,將聲音儲存到電腦時,必須先將訊號數位化,其中有幾個參數需要考慮: • 取樣頻率(sample Rate),常用的取樣頻率如下:(1) 8 kHz (2) 16 KHz (3)22.05 KHz (4)44.1 KHz • 取樣解析度(Bit Resolution):每個聲音資料點所用的位元數,常用的數值如下: (1)8-bit (2)16-bit • 聲道:一般只分單聲道(Mono)或立體聲(Stereo),立體音即是雙聲道

  3. 辨識流程 預處理 特徵擷取 訓練 辨識 物種結果

  4. 語音預處理

  5. 預強調 • 為了補償語音在空氣傳送中,所衰減的高頻訊號,故將語音訊號 s(n)通過一個高通濾波器,其公式為: • 舉例來說,某一訊號前三個取樣值如下所示: 其中a為一個0.9 ~ 1.0之間的值,一般都取0.95 Value … Index x(0) x(1) x(2) …

  6. 預強調 • 經由預強調的值s為: • s(0): s(0) = x(0) = 1200 • s(1): • s(2): x(1)-0.95*x(0) = 1100-0.95*1200 = - 40 x(2)-0.95*x(1) = 1300-0.95*1100 = 255

  7. 音框化 • 在分析聲音時,通常以「短時距分析」(Short-term Analysis)為主,因為音訊在短時間內是相對穩定的。 • 一般音框長度範圍為10ms至40ms之間,且為防止前後音框變化劇烈,因此允許音框之間有重疊,重疊部分可以是音框長度的 1/2 到 2/3 不等 切音框示意圖

  8. 音框化 • 假設取樣頻率為16kHz,音框長度取25ms,音框重疊部分為15ms,則: 音框點數: 取樣點數(fs)*時間長度= 16kHz * 25ms =400點 音框重疊點數: 取樣點數(fs)*重疊時間長度= 16kHz * 15ms =240點 音框前進點數: 音框點數-音框重疊點數= 400-240 = 160點

  9. 音框化 • 一個長度1秒,取樣頻率16kHz的語音,總音框數為: 總音框數: (訊號總取樣點– 音框點數)/音框前進點數+1 (訊號總取樣點– 音框點數)/音框前進點數+1 =(16000-400)/160+1 =98.5 出現小數點,取無條件進入法,最終總音框數為99

  10. 音框示意 以上是音框示意圖, 音框點數(音框的長度): 4點 音框重疊部分:1/2 音框重疊點數:2點 總音框數:(16-4)/2+1=7

  11. 窗函數 • 為了消除視窗兩邊的訊號的不連續,通常會加上漢明窗(Hamming Window),其公式為: otherwise 其中 N為音框點數

  12. 窗函數 漢明窗 漢明窗頻率響應

  13. 窗函數

More Related