基於聯合因子分析與麥克風陣列之強健性語音辨認

基於聯合因子分析與麥克風陣列之強健性語音辨認基於聯合因子分析與麥克風陣列之強健性語音辨認 National Taipei University of Technology Professor: Yuan-Fu Liao Speaker: Wei-Te Fang& Hao-Cheng Chiang

Overview • Joint Factor Analysis (JFA) for Robust Speech Recognition • Joint Factor Analysis • JFAfor robustspeech recognition • Advanced Microphone Array and ASR Integration • Noise - Phase Error Filtering • Reverberation - Subband Filtering-and-Sum

Joint Factor Analysis (JFA) for Robust Speech Recognition Professor: Yuan-Fu Liao National Taipei University of Technology

Overview • 1.Introduction • 雜訊因素 • 傳統解決方法 • 2.Joint Factor Analysis (JFA) • 數學模型 • 3.JFAfor robustspeech recognition • Case1:環境，語者 • Case2:環境，語者，說話內容 • Case3:環境，語者，說話內容，語音屬性 • 4.Summary

Introduction • 語音辨認系統干擾因素 • 語者特性 • 雜訊環境 • 通道效應 • 測試環境和訓練環境不匹配 • 強健性語音參數求取 • Mean subtraction, Variance normalization, ARMA filtering (MVA) • Histogram Equalization (HEQ) • 先驗知識的調適語音模型 • Reference Model Weighting(RMW) • Eigen-Maximum Likelihood Linear Regression (EMLLR) • Reference Eigen-Environment and Speaker Weighting (RESW) • Probabilistic principal component analysis-Maximun Likelihood Linear Regresstion (PMLLR)

通道空間 語者相依通道相依語者空間 JFAfor Speaker Verification 常用的方法:UBM+GMM • 古典MAP • Eigen-voice • Eigen-channel

JFA系統流程 Speaker model UBM model

環境空間 語者相依環境相依語者空間 Case1 :考慮環境，語者影響 JFA model表示:

JFA系統流程

實驗一 • 實驗設定 • 語料庫:Aurora2 • 語音內容： • one, two, three, four, five, six, seven, eight, nine, zero, oh • 加成性雜訊： • 地下鐵雜訊、人聲雜訊、汽車雜訊、展覽會館雜訊、餐廳雜訊、街道雜訊、機場雜訊及火車站雜訊 • clean、SNR20 ～ -5 dB

JFA實驗設定 • 語者110人 • 男生55、女生55 • 雜訊28種 • 雜訊類型（N1~N4）*SNR（clean~ -5 dB） • 實驗維度設定 • 語者55維、雜訊14維 • 語者55維、雜訊20維 • 語者55維、雜訊24維 • 語者60維、雜訊20維 • 語者70維、雜訊20維

JFA語者特徵空間投影圖 • 語者空間前置分析

JFA之雜訊特徵空間投影圖 • 雜訊空間前置分析

測試環境之綜合比較 • 測試環境效能比較

環境空間 語者相依環境相依說話內容相依語者空間 Case2 :考慮環境，語者，說話內容影響 JFA model表示:(假設說話內容特徵空間為g,隱藏變數r(s)) 說話內容空間

JFA系統流程 Estimate g

加入說話內容之概念 • 說話內容:oh,zero,one,two,three,four,five,six,seven,eight,nine • 以oh ,zero ~ nine共11個音當作一個model • 假設說話內容特徵空間為g,隱藏變數r(s),則M (s)= m+ux (s)+vy(s)+gr(s)+dz(s) • 加入特徵空間g變數估算方法同v,u,d算法

JFA之語音內容特徵空間投影圖 • 語音內容特徵空間投影圖之分析

實驗二之實驗結果 • 實驗設定 • 固定語者(S) 55維，語音內容(T) 6維，雜訊(N)14維、20維、24維

環境空間 語者空間 Case3 :考慮環境，語者，說話內容，語音屬性影響 • 以語音屬性內容為model做attribute detectors • JFAmodel 表示:(假設語音屬性特徵空間為a,隱藏變數q(s)) 語者相依環境相依說話內容相依語音屬性相依說話內容空間語音屬性空間

JFA系統流程 Estimate g Estimate a

加入語音屬性之概念 • 以語音屬性為單位當作一個model • 加入特徵空間a變數估算方法同v,u,d,g算法

Automatic Speech Attribute Transcription (ASAT) • N-Best Rescoring

Summary • 實驗結果顯示，JFA方法優於其他系統。 • 可知正確考慮雜訊空間，即越接近實際雜訊情形，即可得到更正確之辨認結果。 • 未來JFA加入語音屬性之後，就可以實現robust speech attribute-based speech recognition。

基於聯合因子分析與麥克風陣列之強健性語音辨認

基於聯合因子分析與麥克風陣列之強健性語音辨認

Presentation Transcript