200 likes | 284 Views
狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 ). 狭帯域包絡線間相関を用いた話者識別. amp.(dB). 1. 0.5. 0. -0.5. -1. 20. 40. 60. 80. 100. 120. amp.(dB). 1. 0.5. 0. -0.5. -1. 20. 40. 60. 80. 100. 120. amp.(dB). 1. 0.5. 0. -0.5.
E N D
狭帯域包絡線間相関を用いた話者識別における帯域と識別率の検討狭帯域包絡線間相関を用いた話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 )
狭帯域包絡線間相関を用いた話者識別 amp.(dB) 1 0.5 0 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 0 -0.5 -1 20 40 60 80 100 120 amp.(dB) 1 0.5 0 -0.5 -1 20 40 60 80 100 120 time (s)
:-30dBで打切り : の最大値 処理の流れ 1/4 Oct.分割した音声時間波形 ヒルベルト包絡 dB変換 狭帯域包絡線間相関係数
狭帯域包絡線間相関行列 識別候補: の最大値 帯域を制限 → 正解率の変化を調べる 正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布 11 27 11 11 33 68 V:Vowel 母音 N:Naal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 11 0 11 11 0 0 22 11 11 11 0 1 108 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 0 8 Vowel u 11 11 0 011 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 0 11 9 0 11 0 0 14 26 9 2 o V N’ N NY M MY S SH H HY F Z J K KY T TS P PY CH G GY D DY B BY RY Y R W Q - N Sl Fl Sv Ca Fv Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数)
帯域増加と平均正解率 1 14 0.9 0.8 0.7 0.6 31 C 0.5 6 22 0.4 0.3 0.2 0.1 5 10 15 20 25 30 35 Last band number 帯域番号6~14,22~31
帯域減少と平均正解率 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 5 10 15 20 25 30 35 first band number 帯域番号6~14,22~31
全39帯域を使用した正解率の比較 1 約7% 約3% 0.95 0.9 C 0.85 0.8 88.3% 85.9% 82.5% 0.75 0.7 1-39 6-31 6-14 22-31 band number
調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 The second formant F(kHz) 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 /a/ 1.5 第2フォルマント周波数600Hz~4000Hz(帯域番号18~30) 1.4 /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F(kHz)
調査結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) frontal sinus maxillary sinus sphenoidal sinus 声帯音源基本周波数成人男性:100~150Hz成人女性:250~300Hz (帯域番号6~14) 副鼻腔共振周波数3103~5398Hz(帯域番号28~31) 鼻腔概略図・声帯音源基本周波数
Band No. + 1-39 × 6-31 □ 6-14 22-31 データによるばらつきの検討 1 0.95 0.9 0.85 CA 0.8 0.75 0.7 0.65 0.6 0.55 0.5 All All A E K M N SA SB SC TA TB Y Talker 識別語に共通性
0 ne n' -5 139ms 161ms amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 正解率が高い識別語(ネットサーフィン:上段) mo n' 0 mi 95ms -5 amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 time ( s ) 93ms 61ms 正解率が低い識別語(水戸黄門:下段) 鼻音の継続時間
まとめ 声帯音源基本周波数 成人男性:100~150Hz 成人女性:250~300Hz 帯域番号6~14 → 声帯音源第2フォルマント周波数600Hz~4000Hz帯域番号18~30 → 第2フォルマント副鼻腔共振周波数前頭洞:3103~5398Hz帯域番号28~31 → 副鼻腔形状個人のばらつきは継続時間に関連
1/4オクターブバンド狭帯域フィルタ 0 -5 -10 -15 -20 -25 -30 -35 -40 2 3 4 10 10 10 Freq. (Hz) 狭帯域フィルタ:FIRフィルタ長さ:2048サンプル :44100Hz 周波数分解:21.5Hzフィルタ長:約46ms音声の狭帯域包絡線を100msで区切る ⇒声帯音源波 約4周期が対象 Amplitude (dB)
:b帯域の音声時間波形 :狭帯域フィルタb:帯域番号n :離散時刻に相当するサンプル番号M:狭帯域フィルタの長さ
1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 0 5 10 15 20 25 30 35 40
図8 鼻腔概略図 maxillary sinus frontal sinus sphenoidal sinus
: xの分散 : Xの平均 N: の長さに相当するサンプル番号 狭帯域包絡線間相関係数