380 likes | 740 Views
音響信号処理特論 音声処理における距離尺度. 奈良先端科学技術大学院大学 猿渡 洋. マッチングによる音声認識 DTW. (Dynamic Time Warping). 距離マトリックス計算. 非線形伸縮 マッチング. 正規化距離の比較. 音声入力. 音声分析. 認識結果. スペクトル距離. 単語標準パターン. 単語標準 パターン. DTW. 入力音声. 入力スペクトル系列の実例. 入力スペクトルと標準パターンスペクトルの比較. 音韻によるスペクトルの違い. スペクトルマッチング尺度. フレーム間のスペクトルの類似度 / 距離尺度
E N D
音響信号処理特論音声処理における距離尺度 奈良先端科学技術大学院大学 猿渡 洋
マッチングによる音声認識 DTW (Dynamic Time Warping) 距離マトリックス計算 非線形伸縮 マッチング 正規化距離の比較 音声入力 音声分析 認識結果 スペクトル距離 単語標準パターン 単語標準 パターン DTW 入力音声
入力スペクトルと標準パターンスペクトルの比較入力スペクトルと標準パターンスペクトルの比較
スペクトルマッチング尺度 • フレーム間のスペクトルの類似度/距離尺度 • スペクトル分析の手法(1)帯域フィルター群(20~30チャネル)の出力(2)FFTにより計算したFFTスペクトル包絡(3)LPC(線形予測分析)によるスペクトル包絡 • ノンパラメトリックな分析法に基づく距離尺度 • 帯域フィルター群による方法 • ハードウェアによる実時間分析が比較的容易 • FFT分析からの帯域のエネルギー • 対数周波数軸( メルスケール、バークスケール) • 聴覚モデル(マスキング)
音声波形の例 /aikawarazu/
LPC分析とケプストラム分析 FFT分析 同じ音声区間 でも分析法に よって形状が 異なる。 何が音声処理 に向いている のであろうか? LPC分析 ケプストラム分析
短時間スペクトルの特徴点 特にピークが重要 縦軸は?→対数振幅 スペクトル包絡 の情報が重要 横軸は?→メルスケール
短時間スペクトル分析 /aikawarazu/ 発声速度の局所的ゆらぎ
様々なスペクトルマッチング尺度 LPCスペクトル包絡 計算量が少ない ピークの精度が高い ピッチに多少影響される モデルベース
LPCスペクトル包絡とケプストラムスムージングLPCスペクトル包絡とケプストラムスムージング
LPCスペクトルマッチング尺度の具体例 • 線形予測分析(LPC)を介して得られたスペクトル包絡の間の類似度 • 入力音声のLPC スペクトル包絡: g(λ) • 標準パターンのスペクトル包絡: f(λ)
板倉‐斉藤距離(LR距離) 評価関数(板倉‐斉藤距離、最尤スペクトル距離などと呼ばれる) 上式は、下のように簡単に計算できることが知られている。 対数スペクトルの差を で表すと、LRは、 となる。この被積分項を、V (λ)のまわりでテイラー展開すると、 となる
式(3.7)より、 ここで、 V (λ)が小さいときには自乗の重み V (λ) 0 のときには|V (λ)|に比例する重み V (λ) 0のときには指数関数の重み → つまり、標準パターンスペクトルよりも入力スペクトル の方が上回っている場合により大きな重み → ピークを重視した距離尺度となっている。
COSH尺度 cosh 尺度(COSH)は、最尤スペクトル距離尺度LRのマッチングの重みの非対称性を取り除くことを目的に考え出された尺度で、式( 3.4)と式( 3.4)でf(λ)とg(λ)を取り替えた式を加えて、導出される。
対数スペクトル差V (λ)に対する重み 上式の被積分項をV (λ) = 0のまわりでテーラ展開すると、 |V (λ)|が小さいときには、自乗にきわめて近い重み |V (λ)| が大きいときには、指数関数 の重み
LPCケプストラム距離 LPC分析から得られたLPC スペクトル包絡のLPCケプストラム係数は、LPC予測係数から簡単に計算される。 LPCケプストラム距離(CEP)
ケプストラム係数の推定値 Parsevalの定理を用いると、 対数スペクトルの差V (λ)に対する重み: 2乗
各スペクトルマッチング尺度の特徴 被積分関数の値(重み) COSH CEP 30 LR 0 0 20 -20 (dB) 対数スペクトルの差V (λ) 50 谷 ピーク 図:スペクトルマッチング尺度(LR、CEP、COSH)における 対数スペクトル差V (λ)に対する重み
図3.2標準パターン入力/i/と入力音声/s/とのスペクトルマッチングの状態図3.2標準パターン入力/i/と入力音声/s/とのスペクトルマッチングの状態
図3.3単独に発声した/a/と連続発声中の/a/とのスペクトルマッチングの状態図3.3単独に発声した/a/と連続発声中の/a/とのスペクトルマッチングの状態
例題 以下に与える標準パターン対数振幅スペクトル と,入力音声の対数振幅スペクトル との距離をユークリッド距離と板倉-斉藤距離の2手法で求めよ Gain λ Gain λ
ユークリッド距離と板倉‐斉藤距離の計算法 ユークリッド距離 板倉-斉藤距離
スペクトル距離の計算例 ユークリッド 距離尺度では 同じ値になる 板倉‐斉藤距離尺度では、 明らかにg1の方が大きい。 →ピークを重視した距離 →ホルマントの一致度を測り やすい(音声処理に適切)
周波数軸の変換:LPCメルケプストラム距離 • LPC メルケプストラム距離人の耳の聴覚特性は、音の周波数の高さに対して、対数的な特性( メル尺度)を示すことが知られている。このような周波数軸上の重みがかかるように、周波数軸を伸縮する手法として、全域通過フィルター を用いたbilinear transformation と呼ばれる手法が提案されている。 は正規化角周波数で、 は変換された正規化角周波数である。この変換では、n 次までのケプストラム係数を入力として、対応するメルケプストラム係数を得ることができる。
2π メル周波数 〜 対数周波数 ω 荒く分析 細かく分析 0 2π ωnew
0次のケプストラム係数 は、次式を、 0次のケプストラム係数 は、次式を、 と変化させて計算される。 1次のケプストラム係数 も、次式を、 と変化させて計算される。 n次(n = 2, 3, ・ ・ ・,m)のケプストラム係数 も、次式を、 と変化させて計算される。 メル周波集軸を近似する周波数ワーピングの値は、サンプリング周波数が、 6.67kHz、8kHz、10kHzでは、それぞれa = 0.28、0.31、0.35とすれば、メル軸 をよく近似している。
LPCピーク重みつき距離尺度 スペクトル包絡のピーク付近のスペクトルの違いに対して敏感である距離尺度。 フォルマントのようなスペクトルの山部に着目した尺度であり、人間の聴覚特性に 近い。スペクトル包絡自身を重みとする。 WLR 尺度 WLR尺度は、最尤スペクトル距離尺度LRの被積分関数を基本とし、重みとしてf(λ)/u(f)およびg(λ)/u(g)を用い、次式のように定義される。 u = パワー r = 自己相関係数
上式は、のときに最小となり、 次に、WLRのスペクトルの差V (λ)に対する特性を解析する。重み関数 f(λ) およびg(λ)のピークの度合を表すパラメータとして、次式を用いる。 すると、式(3.33)の被積分項は、u(f) = u(g)の最小の条件のとき、次式のように 変形できる。
V (λ)が0に近い場合の様子を、V (λ) = 0 の回りでのテーラ展開 で調べてみる。すると、上式は、 となり、γV (λ)2の重みを持っていることがわかる。次に、|V (λ)| が充分に大きいところでは、上式は、 となり、O(|V (λ)|) の一次関数の重みを持っていることになる。 LPCの分析次数よりも大きいLPC 自己相関関数は、 次式のような再帰式で計算される。
音声特徴抽出の実際(MFCC) 0kHz 8kHz wav2mfcc.c (1) AD変換(16ビット、16kHzサンプリング) (2) 高域強調 1-0.97Z-1 (波形上で処理) (3) ハミング窓(25msec, 10msec シフト) (4) FFT(高速フーリエ変換) 1.0 0.0
音声特徴抽出の実際(MFCC) Mel-FrequencyCepstrumCoefficients ケプストラム係数 メルスケール(音の高低に対する聴覚特性) メルフィルタバンク分析 L W(k;l) メルフィルタバンク 0kHz 8kHz 周波数軸(DFT)パワースペクトラム S’(k)
MFCC (5) メルフィルタバンクの計算 (6) メルフィルタバンクからメルケプストラムへの変換(COS変換)
動的な特徴 (7) Δケプストラム、Δ対数パワー40 msec程度におけるスペクトルの変化 1次の回帰係数(差分)