音素部分空間の統合による音声特徴量抽出の検討

音素部分空間の統合による音声特徴量抽出の検討音素部分空間の統合による音声特徴量抽出の検討神戸大学朴玄信，滝口哲也，有木康雄

発表構成 • 研究背景・目的 • 従来手法 • アプローチ • PCA・LDAによる部分空間 • 提案手法（音素部分空間の統合） • 音素部分空間解析 • 孤立単語認識実験 • 考察・まとめ・今後の予定

研究背景・目的　　 • 実環境で音声認識システムの需要が高まる例：生活家電、ゲーム機、カーナビ　など • 実環境では様々なノイズの影響で認識率の低下 • 実環境でノイズに頑健な音声認識システムが必要

従来手法（耐雑音） • モデルベース • モデル選択 • モデル適応 • 特徴量ベース • 解析手法による特徴量抽出（事前学習なし） • 統計手法による特徴量抽出（事前学習あり）

アプローチ１（音素部分空間統合） • 事前学習ありの特徴量抽出法 • 主成分分析（PCA）、線形判別分析（LDA）を用い、観測空間から音素情報を表わす部分空間を推定 • 各音素の部分空間推定⇒各音素部分空間統合PCAによる統合で、音素間の相関情報を特徴量空間に取り入れることを試みる。

アプローチ２（残響フィルタリング） • X(i,ω) = S(i,ω)・N1 + N2X：観測音声 i：フレーム ω：周波数S：クリーン音声 N1：乗法性雑音 N2：加法性雑音 • （残響時間が長い）残響の場合N1は現在フレームに対する伝達特性（時不変）N2は過去フレームに対する反響音の足し合わせ（時変） • logX = logS + log(N1 + N2/S)= logS + logN1 + log(1+N2/SN1)N1はSと無相関、N2にSの相関項の存在を仮定、N2/SN1はSが打ち消され、Sと無相関logSに対してPCAを行い、logXからlogSだけ抽出する軸推定

主成分分析（PCA） O2 s1 • 共分散行列の固有値分解による正規直交基底推定 • S1：全体構造、S2：共通性 • 本研究では音素部分空間学習と部分空間統合に利用 Observed data s2 Observed space O O1

線形判別分析（LDA） O2 Class 2 • クラス内共分散 • クラス間共分散 • 　　　　の固有値分解 • S1：クラス識別空間 • 本研究では音素部分空間学習 s1 Class 1 Observed space O O1

音素部分空間の学習（PCA） PCAによる音素部分空間 Φ/a/ Φ/i/ Φ/u/ Φ/o/ PCA PCA PCA PCA /a/ /i/ /u/ /o/ 観測空間 O

音素部分空間の学習（LDA） LDAによる音素部分空間　 Φ/a/ Φ/i/ Φ/u/ Φ/o/ LDA LDA LDA LDA /a/ /i/ /u/ /o/ 観測空間 O

音素部分空間の統合（PCA） 全音素データ集合 Yt_/a/ Φ/a/ Yt_/a/ Φ/i/ Yt_/i/ Yt_/i/ Xt Φ’ Φ/u/ Yt_/u/ Yt_/u/ PCA Φ/o/ 音素間の相関を表わす空間 Yt_/o/ Yt_/o/ 各音素部分空間を単に繋げた空間へ射影されたベクトルYｔの集合に対し PCAを行い、各音素部分空間を統合した空間(Φ’)を推定する。

特徴量抽出の流れ Speech signal 窓処理 FFT |.|2 Melfilter bank log 音素/a/PCA or LDA yta xt PCA Yt’ 正規化・＋Δ 音素/i/ PCA or LDA yti HMM 音素/o/PCA or LDA yto 統合した空間音素部分空間学習と認識従来：DCT, PCA, LDA

評価実験条件 • 話者（男２女２）ごと学習２６２０単語、テスト１０００単語 • 学習：クリーン音声　　　テスト：クリーン、３８０ｍｓ残響音声 • サンプリング１２ｋHz、窓幅３２ｍｓ、窓シフト８ｍｓ • 比較特徴量 • 音響モデル（話者特定モデル、４人話者共通モデル）　５４個音素HMM　３状態４混合

提案手法による部分空間解析　（　PCA　）　　　　　（　PCA⇒PCA　）提案手法による部分空間解析　（　PCA　）　　　　　（　PCA⇒PCA　）

提案手法による部分空間解析（　LDA　）　　　　（　LDA⇒PCA　）提案手法による部分空間解析（　LDA　）　　　　（　LDA⇒PCA　）

実験結果 • クリーン音声認識 • 残響（３８０ｍｓ）音声認識

考察 • 特定話者モデルより、４人共通モデルの場合認識率の低下ー＞不特定話者音声認識のためには、話者変動を表わす空間を推定し、除去の必要があるー＞多数話者データを用い、音素固有の空間と、話者変動空間を推定 • 特定話者はPLDA(LDA->PCA)、４人共通はPPCA(PCA->PCA)多数話者データを用いると、話者変動成分により、LDAによる音素クラスの分離精度が低下する。PCAは特定音素部分空間に話者変動成分を含むが、統合PCAにより音素クラス間共通成分（話者変動成分）が除去される。

まとめ、今後の予定 • 特徴量空間を音素ごとの部分空間に分け、統合する手法を提案した。 • 提案手法により、クリーン音声に対しては従来と同程度、残響音声に対しては認識率の改善 • 今後は、多数話者のデータの用いて実験、独立成分分析（ICA）やカーネルPCAなどを用いた部分空間推定と統合

音素部分空間の統合による音声特徴量抽出の検討

音素部分空間の統合による音声特徴量抽出の検討

Presentation Transcript