局所特徴量によるフィッシャー重みマップに基づく音素認識

局所特徴量によるフィッシャー重みマップに基づく音素認識局所特徴量によるフィッシャー重みマップに基づく音素認識加藤俊祐* 、滝口哲也**、有木康雄** *神戸大学　自然科学研究科 ** 神戸大学　工学部電子情報通信学会　音声研究会　２００６年１２月２２日　名古屋大学

発表内容 • 研究の背景 • 局所特徴量 • フィッシャー重みマップ • 実験結果・提案手法とMFCCの比較・提案手法とMFCCを組み合わせた特徴量 • 考察、今後の課題 • 関連研究

研究の背景 • 音声特徴量の問題点 • ＭＦＣＣは時間的な動的特徴量を表現していない • Δ、ΔΔＭＦＣＣが用いられているが、周波数の時間変化（ホルマント）を表現するには間接的 • この問題を解決するには • 時間－周波数平面上で、より直接的に　周波数の時間変化を表現した特徴量が望ましい

時間方向 の連続性研究の背景 • 提案内容 • 時間-周波数平面上で、局所的なパターンを検出 • その局所的な特徴量に対して、ＬＤＡにより重み付けした特徴量を動的特徴として提案　　　⇒音素認識により特徴量の有効性を確認

局所特徴 局所特徴・・・・各点に各局所パターンを適用したもの下図の1の点の値の和 □局所パターンの例 (3×3近傍では35種類) 横に連続する値の大きさ縦に連続する値の大きさカーブの値の大きさ時間-スペクトル平面

局所パターンの全部の例

局所特徴 点(3,3)での10番目の局所パターン □局所特徴の例点(7,2)での15番目の局所パターン周波数 35種類の局所パターン時間-周波数平面の各点局所特徴の行列時間

フィッシャー重みマップ 局所特徴　⇒次元が大きすぎる　　　　　　　　 ⇒次元を圧縮する

クラス3 クラス2 クラス1 フィッシャー重みマップ

フィッシャー重みマップ • 局所特徴量と固有ベクトルを並べた行列の積をとる固有ベクルの数固有ベクルの数時間-周波数平面の各点局所パターンの数(35個) 局所パターンの数(35個) 時間-周波数平面の各点

音声特徴行列 音声特徴ベクトル局所特徴の行列切出した時間周波数平面認識結果時間軸方向に切出しシフト幅ｓフレームフレーム幅ｆフレーム音声信号時間-周波数平面ハミング窓でFFT シフト幅10[ms] フレーム幅25[ms] 音声認識への適用音声特徴行列　　を一列に並べベクトル　　に変換 35種の局所パターンを適用重みマップを求め　　　　　　　　　で次元圧縮ＧＭＭで識別

実験条件 • 音声を音素別に切出し、音素認識を実行

フレーム数、周波数平面の実験 • 時間-周波数平面から切出し幅⇒事前実験により　・フレーム幅・・・５フレーム　・シフト幅・・・１フレームが一番効果的 • 時間-周波数平面より、時間-メル周波数平面の方が3%程結果が良い　⇒以後メル周波数(64次元)で実験切出し

重みマップWの数の変化による音素認識率 Wは21～30あたりまで識別率がほぼ同じ　⇒以後の実験は、Wの数は中間の25本（25×35=875次元）で実験、またWが24～26本の間での累積寄与率は0.99

PCA圧縮をしたときの音素認識率 混合数は8 or 12

MFCC、ΔMFCCとの比較 MFCCパワなし12次元 MFCCパワあり13次元 ΔMFCCパワあり13次元提案手法PCAなし875次元提案手法PCAあり150次元

提案手法とMFCCを組合わせた特徴量 • 提案手法、MFCC、ΔMFCCを組合わせた特徴量にストリーム別に重みをつけて実験

提案手法+MFCC 提案手法 1.0 ： 0.0 提案手法＋MFCC 0.6 ： 0.4 MFCC 0.0 ： 1.0 ストリーム重みの比率（提案手法：MFCC）

提案手法+ΔMFCC ΔMFCC 0.0：1.0 提案手法+ΔMFCC 0.3：0.7 提案手法 1.0：0.0 ストリーム重みの比率（提案手法：ΔMFCC）

提案手法+MFCC+ΔMFCC MFCC+ΔMFCC 0.0：0.5：0.5 MFCC+ΔMFCC+提案手法 0.2：0.4：0.4 提案手法 1.0：0.0：0.0 ストリーム重みの比率（提案手法：MFCC：ΔMFCC）

考察、まとめ • MFCC ＜ ΔMFCC ＜提案手法（PCA） • MFCC ＜ MFCC ＋提案手法（PCA） • ΔMFCC ＜ ΔMFCC ＋提案手法（PCA） • MFCC＋ΔMFCC 　　＜ MFCC＋ΔMFCC ＋提案手法（PCA）

今後の課題 • 時間-メル周波数平面以外にも局所パターンを適応 • 局所パターンの考察 • 連続音声認識への適応

関連研究 • 複合音響特徴平面に基づく音声認識のための局所特徴抽出法 [新田00] • 3×3局所領域に対する主成分分析により、複数の構造的特徴を得る • 主成分分析によって、平均、1次・2次微分などフィルタ（時間-周波数空間演算子）を求め、複合音響特徴平面を抽出する（特徴量抽出） • 各音響特徴平面上でLDA（KLT）を行い、時限圧縮をする • 時間-周波数パタンを用いた無声破裂音の認識 [井出82] • スペクトルの時間変化パタン（TSP）を利用 • 破裂音などスペクトルの時間変化過程を考慮することによって認識が可能になる • TSPの数フレーム分をPCAで次元圧縮し正規分布によるベイズで認識 • フィッシャー重みマップを用いた顔画像からの表情認識 [篠原03] • 顔画像の各点の局所特徴量の積和による高次局所自己相関関数 • 高次局所自己相関関数に重み付けを利用した表情認識 • 重み付けにより重要な点の値を強調できる

局所特徴量によるフィッシャー重みマップに基づく音素認識

局所特徴量によるフィッシャー重みマップに基づく音素認識

Presentation Transcript