200 likes | 592 Views
制約付き非負行列因子分解を用いた 音声特徴抽出の検討. 神戸大学大学院 工学研究科 朴 玄信,滝口哲也,有木康雄. 発表構成. 研究背景・目的 非負行列因子分解 (NMF: Nonnegative Matrix Factorization ) モデル,初期化,更新ルール,制約 提案手法 相関情報を用いた NMF の初期化 NMF を用いた音声特徴抽出 評価実験 NMF の誤差による評価 単語音声認識率による評価 まとめ・今後の課題. 研究背景・目的. 音声認識システムの性能向上のため, 観測信号から重要な音声特徴だけを抽出する手法が必要
E N D
制約付き非負行列因子分解を用いた音声特徴抽出の検討制約付き非負行列因子分解を用いた音声特徴抽出の検討 神戸大学大学院 工学研究科 朴 玄信,滝口哲也,有木康雄
発表構成 • 研究背景・目的 • 非負行列因子分解(NMF: Nonnegative Matrix Factorization) • モデル,初期化,更新ルール,制約 • 提案手法 • 相関情報を用いたNMFの初期化 • NMFを用いた音声特徴抽出 • 評価実験 • NMFの誤差による評価 • 単語音声認識率による評価 • まとめ・今後の課題 第10回音声言語シンポジウム
研究背景・目的 • 音声認識システムの性能向上のため,観測信号から重要な音声特徴だけを抽出する手法が必要 • PCAやICAなど統計的手法に基づく事前知識を用いたデータ依存型特徴抽出法が有効 • 非負行列因子分解(NMF)は局所的特徴抽出に有効 • 画像などの高次元空間上のデータから局所的基底(パーツ) • 音源分離などにも応用 • 音声認識のための,NMFを用いた特徴抽出 • 相関情報を用いた,NMFの初期化 第10回音声言語シンポジウム
非負行列因子分解(NMF) 1/2 X W H n本m次元サンプル r本基底ベクトル n本 r次元係数サンプル 第10回音声言語シンポジウム
非負行列因子分解(NMF)2/2 • 目的関数(XとWH間) • ユークリッド距離,カルバック・ライブラー情報量 • 更新ルール(WとHの要素ごと) • 加算ルール,乗算ルール • スパースネス制約 • Wに対して,以下のパースネス尺度を満たすように射影 第10回音声言語シンポジウム
NMFの初期化手法 • Random-based • WとHを,N(0,1)に従うランダム値の絶対値で初期化 • Clustering-based • (Spherical) K-Means clustering [S.Wild(2004), Y.Xue(2008)] • Wをクラスタの中心ベクトルで構成,Hはランダム • SVD-based • NNDSVD (Non-Negative Double Singular Value Decomposition) [C.Boutsidis(2008)] • WとHを,Xの特異ベクトルで構成 • ただし,負の成分には,0か,Xの平均値を代入 第10回音声言語シンポジウム
相関伝播初期化 (1/2) X H 和相関 W 相関行列 X0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 H0 = X0 1 0.1 0.2 0.3 0.1 1 0.4 0.1 0.2 0.4 1 0.4 0.3 0.1 0.4 1 0.6 0.6 1 0.8 X1 1 0.5 0.7 1 0 0 0 1 0 0.2 0.4 0.4 0 0 1 H1 1 0.4 0.6 0.4 1 0.1 0.6 0.1 1 0.4 0.6 1 0 0.48 0.32 0 1 H2 X2 第10回音声言語シンポジウム
相関伝播初期化 (2/2) • 相関伝播初期化の定式化 • d : 最大和相関を持つ次元 c: d次元とl次元間の相関比 • 相関伝播初期化の特徴 • 局所的な初期解(W) • ランダム要素なし • 比較的早い計算スピード 第10回音声言語シンポジウム
DCT MFCC Speech signal Pre-emphasis/windowing FFT |.|2 Mel filter log NMF Proposed Feature NMFを用いた音声特徴抽出 • 特徴抽出フロー • 定式化 • DCTやPCAの高次特徴も考慮した特徴抽出 第10回音声言語シンポジウム
実験条件 • データ行列X • 24 x 5,075 (対数メルフィルタバンク出力 x ランダムサンプル数 ) • 音素と話者のバランスがとれたランダムサンプリング • NMF更新 • 乗算ルールとスパースネス制約による,2万回更新 • スパースネス制約は,0.2~0.7 • NMF初期化手法の比較 • RANDOM, SKM, NNDSVD, CP • 単語音声認識 • 男女10人から,学習データ26,200単語,テストデータ10,000単語 • 音響モデル:54個のモノフォンHMM,3状態20混合 • 音声特徴抽出法の比較(24次元(12+Δ12),平均0正規化) • DCT(MFCC), PCA, ICA, NMF 第10回音声言語シンポジウム
初期化手法による基底Wと誤差 第10回音声言語シンポジウム
2万回更新後の基底Wの変化 第10回音声言語シンポジウム
2万回更新後の誤差 第10回音声言語シンポジウム
NMFを用いた単語認識 第10回音声言語シンポジウム
特徴抽出手法の比較(変換行列,認識率) 第10回音声言語シンポジウム
まとめ • 相関伝播初期化は誤差最小化に有効 • 中程度スパースネス制約 • NMFによる特徴量は,PCAによる特徴量と同等の性能 • 弱いスパースネス制約 -> 局所的より大局的特徴が有効? • 今後の課題 • 対角分散共分散用いるため,NMFの直交化(離散コサイン変換など) • パワースペクトル空間上でのNMF (メルフィルタバンクの代わりとして) • NMFの初期化手法と更新ルールとの関係について 第10回音声言語シンポジウム
行列W 初期 MSE DIV SC_W0.2 第10回音声言語シンポジウム
NMF推定誤差(|X-WH|F) 第10回音声言語シンポジウム
単語認識結果 第10回音声言語シンポジウム