260 likes | 553 Views
局所特徴量によるフィッシャー重みマップに基づく音素認識. 加藤俊祐* 、滝口哲也**、有木康雄** *神戸大学 自然科学研究科 ** 神戸大学 工学部. 電子情報通信学会 音声研究会 2006年12月22日 名古屋大学. 発表内容. 研究の背景 局所特徴量 フィッシャー重みマップ 実験結果 ・提案手法と MFCC の比較 ・提案手法と MFCC を組み合わせた特徴量 考察、今後の課題 関連研究. 研究の背景. 音声特徴量の問題点 MFCCは時間的な動的特徴量を表現していない
E N D
局所特徴量によるフィッシャー重みマップに基づく音素認識局所特徴量によるフィッシャー重みマップに基づく音素認識 加藤俊祐* 、滝口哲也**、有木康雄** *神戸大学 自然科学研究科 ** 神戸大学 工学部 電子情報通信学会 音声研究会 2006年12月22日 名古屋大学
発表内容 • 研究の背景 • 局所特徴量 • フィッシャー重みマップ • 実験結果・提案手法とMFCCの比較・提案手法とMFCCを組み合わせた特徴量 • 考察、今後の課題 • 関連研究
研究の背景 • 音声特徴量の問題点 • MFCCは時間的な動的特徴量を表現していない • Δ、ΔΔMFCCが用いられているが、周波数の時間変化 (ホルマント)を表現するには間接的 • この問題を解決するには • 時間-周波数平面上で、より直接的に 周波数の時間変化を表現した特徴量が望ましい
時間方向 の連続性 研究の背景 • 提案内容 • 時間-周波数平面上で、局所的なパターンを検出 • その局所的な特徴量に対して、LDAにより重み付けした特徴量を動的特徴として提案 ⇒音素認識により特徴量の有効性を確認
局所特徴 局所特徴・・・・各点に各局所パターンを適用したもの 下図の1の点の値の和 □局所パターンの例 (3×3近傍では35種類) 横に連続する 値の大きさ 縦に連続する 値の大きさ カーブの 値の大きさ 時間-スペクトル平面
局所特徴 点(3,3)での10番目の局所パターン □局所特徴の例 点(7,2)での15番目の局所パターン 周波数 35種類の局所パターン 時間-周波数平面の各点 局所特徴の行列 時間
フィッシャー重みマップ 局所特徴 ⇒次元が大きすぎる ⇒次元を圧縮する
クラス3 クラス2 クラス1 フィッシャー重みマップ
フィッシャー重みマップ • 局所特徴量 と固有ベクトル を並べた行列 の積をとる 固有ベクルの数 固有ベクルの数 時間-周波数平面の各点 局所パターンの数(35個) 局所パターンの数(35個) 時間-周波数平面の各点
音声特徴行列 音声特徴ベクトル 局所特徴の行列 切出した時間周波数平面 認識結果 時間軸方向に切出し シフト幅sフレーム フレーム幅fフレーム 音声信号 時間-周波数平面 ハミング窓でFFT シフト幅10[ms] フレーム幅25[ms] 音声認識への適用 音声特徴行列 を一列に並べベクトル に変換 35種の局所パターンを適用 重みマップ を求め で次元圧縮 GMMで識別
実験条件 • 音声を音素別に切出し、音素認識を実行
フレーム数、周波数平面の実験 • 時間-周波数平面から切出し幅⇒事前実験により ・フレーム幅・・・5フレーム ・シフト幅・・・1フレームが一番効果的 • 時間-周波数平面より、時間-メル周波数平面の方が3%程結果が良い ⇒以後メル周波数(64次元)で実験 切出し
重みマップWの数の変化による音素認識率 Wは21~30あたりまで識別率がほぼ同じ ⇒以後の実験は、Wの数は中間の25本(25×35=875次元)で実験、またWが24~26本の間での累積寄与率は0.99
PCA圧縮をしたときの音素認識率 混合数は8 or 12
MFCC、ΔMFCCとの比較 MFCCパワなし12次元 MFCCパワあり13次元 ΔMFCCパワあり13次元 提案手法PCAなし875次元 提案手法PCAあり150次元
提案手法とMFCCを組合わせた特徴量 • 提案手法、MFCC、ΔMFCCを組合わせた特徴量にストリーム別に重みをつけて実験
提案手法とMFCCを組合わせた特徴量 • 提案手法、MFCC、ΔMFCCを組合わせた特徴量にストリーム別に重みをつけて実験
提案手法+MFCC 提案手法 1.0 : 0.0 提案手法+MFCC 0.6 : 0.4 MFCC 0.0 : 1.0 ストリーム重みの比率(提案手法:MFCC)
提案手法とMFCCを組合わせた特徴量 • 提案手法、MFCC、ΔMFCCを組合わせた特徴量にストリーム別に重みをつけて実験
提案手法+ΔMFCC ΔMFCC 0.0:1.0 提案手法+ΔMFCC 0.3:0.7 提案手法 1.0:0.0 ストリーム重みの比率(提案手法:ΔMFCC)
提案手法とMFCCを組合わせた特徴量 • 提案手法、MFCC、ΔMFCCを組合わせた特徴量にストリーム別に重みをつけて実験
提案手法+MFCC+ΔMFCC MFCC+ΔMFCC 0.0:0.5:0.5 MFCC+ΔMFCC+提案手法 0.2:0.4:0.4 提案手法 1.0:0.0:0.0 ストリーム重みの比率(提案手法:MFCC:ΔMFCC)
考察、まとめ • MFCC < ΔMFCC < 提案手法(PCA) • MFCC < MFCC + 提案手法(PCA) • ΔMFCC < ΔMFCC + 提案手法(PCA) • MFCC+ΔMFCC < MFCC+ΔMFCC + 提案手法(PCA)
今後の課題 • 時間-メル周波数平面以外にも局所パターンを適応 • 局所パターンの考察 • 連続音声認識への適応
関連研究 • 複合音響特徴平面に基づく音声認識のための局所特徴抽出法 [新田00] • 3×3局所領域に対する主成分分析により、複数の構造的特徴を得る • 主成分分析によって、平均、1次・2次微分などフィルタ(時間-周波数空間演算子)を求め、複合音響特徴平面を抽出する(特徴量抽出) • 各音響特徴平面上でLDA(KLT)を行い、時限圧縮をする • 時間-周波数パタンを用いた無声破裂音の認識 [井出82] • スペクトルの時間変化パタン(TSP)を利用 • 破裂音などスペクトルの時間変化過程を考慮することによって認識が可能になる • TSPの数フレーム分をPCAで次元圧縮し正規分布によるベイズで認識 • フィッシャー重みマップを用いた顔画像からの表情認識 [篠原03] • 顔画像の各点の局所特徴量の積和による高次局所自己相関関数 • 高次局所自己相関関数に重み付けを利用した表情認識 • 重み付けにより重要な点の値を強調できる