310 likes | 418 Views
ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究. ー 狭帯域包絡線情報を用いた 個人性・伝送路特性の記述 -. 末廣一美,山田雄大(福島研究室). 様々な違いから生まれるコミュニケーションのバリア. A. 文化,言語,身体能力の 違いによる壁(バリア). メディア変換. 手話. 言語. ?. 手話. 言語. メディア:意図を伝える媒体. 個人差・利用状況 に合った 適応的なメディア変換. システムによる現状把握 が必要. 人の情報伝送路モデル. 3. ー. 聴取者. 話者. 音声. 3. □.
E N D
ユビキタス社会を支えるトランスメディア実現のための情報記述に関する研究ユビキタス社会を支えるトランスメディア実現のための情報記述に関する研究 ー 狭帯域包絡線情報を用いた 個人性・伝送路特性の記述 - 末廣一美,山田雄大(福島研究室)
様々な違いから生まれるコミュニケーションのバリア様々な違いから生まれるコミュニケーションのバリア A 文化,言語,身体能力の違いによる壁(バリア) メディア変換 手話 言語 ? 手話 言語 メディア:意図を伝える媒体 個人差・利用状況に合った適応的なメディア変換 システムによる現状把握が必要
人の情報伝送路モデル 3 ー 聴取者 話者 音声 3 □ メディア間の相互変換 はメディアに依存しない →メディア間の相互変換が可能 ⇒情報源の持つ「特徴量」による「情報記述」 1)情報の特徴量を抽出することは可能?2)特徴量による「話者識別」「室種別類別」が可能?
狭帯域包絡線情報を用いた話者識別 0.04 0.02 0 amplitude -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0.04 0.02 amplitude 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0 s s s time ( time ( time ( ) ) ) -10 amplitude(dB) -20 -30 0 0.2 0.4 0.6 0.8 1 人の聴覚メカニズム ⇒ 「狭帯域包絡線」を特徴量 音声時間波形を狭帯域に分割して包絡線を求める 帯域を制限(少ない特徴量で識別)↓正解率の変化を調べる
全39帯域の正解率の比較 100 90 80 70 60 Accuracy and Ratio (%) 50 40 30 20 10 0 1-39 6-31 6-14, 22-31 Used Band Number 86% 88% 81% fs 範囲 100% 25% 21% band数 100% 67% 49% 特徴量抽出,少ない特徴量でも識別可能 重要帯域近傍調査:音響学会にて発表予定(3月)
狭帯域包絡線情報を用いた室種別の類別 人の聴覚メカニズムは対象によって変化しない 室のインパルス応答の狭帯域包絡線を求める 狭帯域分割 ケプストラム 包絡線 の類似度を調べる ↓狭帯域包絡線情報で室種別の類別が可能か
同一室で異なる計測位置での の類似度 A A A W1_1 W2_1 J_1 W1_2 W2_2 J_2 W1_3 W2_3 J_3 g G G X A 洋室1(W1) 洋室2(W2) 和室(J) 1 1 1 0.9 0.9 0.9 0.8 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.6 0.5 0.5 0.5 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0 0 0 W2_1 W2_2 W2_3 W1_1 W1_2 W1_3 J_1 J_2 J_3 X(Room type_Point Number) W:洋室,J:和室 同一室では の類似度が高い
洋室1と和室の の類似度 g G G X A 1 : 0.9 0.8 : 0.7 0.6 A 0.5 W1_1 0.4 W1_2 0.3 W1_3 0.2 J_1 J_2 0.1 J_3 0 W1_1 W1_2 W1_3 J_1 J_2 J_3 X(Room Type_Point Number) 種別の異なる室では類似度は低い
容積の異なる洋室1と洋室2の の類似度 g G G X A 1 : 0.9 0.8 0.7 0.6 A 0.5 W1_1 0.4 W1_2 0.3 W1_3 W2_1 0.2 W2_2 0.1 W2_3 0 W1_1 W1_2 W1_3 W2_1 W2_2 W2_3 X(Room Type_Point Number) 容積の異なる同一種別の室でも類似度は高い
まとめ 【目的】 適応的メディア制御に必要な 「システムによる個人性・利用状況の識別」【手法】 狭帯域包絡線情報を特徴量とした 話者識別・室種別の類別【結果】・狭帯域包絡線情報を特徴量として用いた話者識別の有効性を再検証室種別類別できる可能性を示唆 ・個人性調査により少ない特徴量で識別可能 特徴量抽出・特徴量による情報の識別は可能
人の情報伝送路モデル 3 ー 但し, はAからBへの変換関数 は の逆変換関数 聴取者 話者 音声 3 □ 言語野レベル 物理変換レベル 音響事象レベル 物理変換レベル 言語野レベル
1 0.5 0 -0.5 -1 200 400 600 800 1000 1200 1400 1600 1800 2000 1 0.5 0 -0.5 -1 200 400 600 800 1000 1200 1400 1600 1800 2000 1 0.5 0 -0.5 -1 200 400 600 800 1000 1200 1400 1600 1800 2000 狭帯域包絡線間相関を用いた話者識別 amp.(dB) amp.(dB) amp.(dB) time (ms)
0.04 0.02 0 amplitude -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0.04 0.02 amplitude 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 0 s s s s s s time ( time ( time ( time ( time ( time ( ) ) ) ) ) ) -10 amplitude(dB) -20 -30 0 0.2 0.4 0.6 0.8 1 処理の流れ 1/4 Oct.分割した音声時間波形 b : 39バンド28.9Hz~20749Hz 0.04 0.02 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 ヒルベルト変換して求めた包絡線 0.04 0.02 0 -0.02 -0.04 0 0.2 0.4 0.6 0.8 1 dB変換(-30dBで打ち切り) 0 -10 -20 -30 0 0.2 0.4 0.6 0.8 1 狭帯域包絡線間相関係数
狭帯域包絡線間相関係数行列 識別候補: の最大値 帯域を制限↓正解率の変化を調べる DB 識別対象 正解率=識別候補が本人となった回数/識別条件数
登録語と識別語の音素分布 11 27 11 11 33 68 V:Vowel 母音 N:Nasal 鼻音 Fl:Fricative voiceless 摩擦音(無声) Fv:Fricative voiced 摩擦音(有声) Sl:Stop voiceless 閉鎖音(無声) Sv:Stop voiced 閉鎖音(有声) Ca:Central approximant 中央近接音 Q:Geminate consonant 促音 -:Long vowel 長音 11 0 11 11 0 0 22 11 11 11 0 1 108 8 3 10 5 0 27 0 11 15 10 a 77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9 0 0 3 3 i 22 22 0 0 22 0 0 31 19 35 2 1 17 11 0 8 Vowel u 11 11 0 011 11 11 20 0 8 e 11 0 0 11 0 19 21 0 11 0 11 9 0 11 0 0 14 26 9 2 o g gy V n ny m my s sh h hy z j k ky t ts p py ch d dy b by ry y r w Q - f N’ N Sl Fl Sv Ca Fv Consonant +:登録語(個数は上段の数) ×:識別語(個数は下段の数) 分布に偏りがない
帯域増加と平均正解率 1 14 0.9 0.8 0.7 0.6 31 C 0.5 6 22 0.4 0.3 0.2 0.1 0 2 5 10 15 20 25 30 35 39 Stop band number 重要帯域:帯域番号6~14,22~31
帯域減少と平均正解率 1 0.9 0.8 0.7 0.6 6 C 0.5 14 0.4 22 31 0.3 0.2 0.1 0 1 5 10 15 20 25 30 35 38 Starting band number 重要帯域:帯域番号6~14,22~
帯域増加と帯域減少の平均正解率 帯域を1帯域づつ増加 帯域を1帯域づつ減少 変化した点が同じ 重要帯域:帯域番号6~14,22~31
結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 4.0 3.8 3.4 3.0 /i/ 2.5 /e/ 2.2 2.0 1.8 The second formant F 2 (kHz) /a/ 1.5 1.4 第2フォルマント周波数の1091Hz~4000Hz(帯域番号22~30) /u/ 1.0 0.8 /o/ 0.6 0.2 0.5 1.0 1.4 The first formant F 1 (kHz)
結果の検討(高い周波数範囲の検討) 帯域番号22~31(1091Hz~5187Hz) 高い周波数範囲 副鼻腔共振周波数約3100Hz~5400Hz(帯域番号28~31) 前頭洞約8cm3 上顎洞 低い周波数範囲(6~14) 蝶形骨洞 声帯音源基本周波数男性:約100Hz~150Hz女性:約250Hz~300Hz (帯域番号6~14) 副鼻腔共振周波数・声帯音源基本周波数
Band No. + 1-39 × 6-31 □ 6-14 22-31 データによるばらつきの検討 1 0.95 88%86%83% 0.9 0.85 0.8 CA 0.75 0.7 0.65 0.6 0.55 0.5 A E K M N SA SB SC TA TB Y All Talker 識別語に共通性
ne to s a fi n' 0 -5 amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 time( ) s 正解率が高い識別語(ネットサーフィン:上段) mi to ko mo n' 0 -5 amplitude (dB) -10 -15 0 0.2 0.4 0.6 0.8 1 s time( ) 正解率が低い識別語(水戸黄門:下段) 「i」 「e」 「a」 鼻音の継続時間 母音の第2フォルマント 「o」
重要帯域近傍での平均正解率の変化 6-V V-31 90% 90% 85% 85% C C 80% 80% 75% 75% 70% 70% 30 31 32 33 4 5 6 7 8 29 V(Band Number) V(Band Number) 6-V,22-31 6-14, V-31 90% 90% 85% 85% C C 80% 80% 75% 75% 70% 70% 10 11 12 13 14 15 16 18 19 20 21 22 23 24 V(Band Number) V(Band Number) 重要帯域を7-11,22-31に絞り込める
まとめ 声帯音源基本周波数 約100~300Hz帯域番号6~14 第2フォルマント周波数・副鼻腔共振周波数 約1100Hz~5400Hz帯域番号22~31 正解率のばらつき鼻音の継続時間 母音の第2フォルマントに関連 周波数範囲で21%,帯域数で49%に制限
1/4オクターブバンド狭帯域フィルタ 0 -5 -10 -15 amplitude (dB) -20 -25 -30 -35 -40 2 3 4 10 10 10 Freq. (Hz) 狭帯域フィルタ:FIRフィルタ長さ:2048サンプル :44100Hz 周波数分解:21.5Hzフィルタ長:約46ms音声の狭帯域包絡線を100msで区切る ⇒声帯音源波 約4周期が対象
話者を識別するシステムに用いた登録語・識別語話者を識別するシステムに用いた登録語・識別語 識別語:登録語と異なる語1)松坂大輔 (matsuzaka daisuke)2)メール機能 (me-ru kinou)3)目から鱗 (mekara uroko)4)水戸黄門 (mito koumo n‘)5)モーニング娘 (mo-ni n’gu musume)6)中山きんにくん (nakayama kin‘niku n’)7)ネットサーフィン (netto sa-fi n‘)8)猫死んじゃった (neko shi n’jatta)9)猫踏んじゃった (neko fu n‘jatta)10)日本沈没 (niho n’ chi n‘botsu)11)忍たま乱太郎 (ni n’tama ra n‘tarou)12)ノストラダムス (nosutora damusu)13)のんびり屋 (no n’biriya)14)上田晋也 (ueda shi n‘ya)1語/約1秒1人/約8語 計82語(登録者により異なる) 登録語1)青い空 (aoisora)2)映画鑑賞 (eigaka n‘shou)3)石田一成 (ishida issei)4)マイホーム計画 (mai ho-mu keikaku)5)無人島探索 (muji n’tou tansaku)1語/約1秒1人/約5語 計55語(登録者全員共通)
帯域制限(6~14,22~31)時の識別語の正解率帯域制限(6~14,22~31)時の識別語の正解率 100% netto sa-fi n' mo-ni n'gu nosutora damusu musume 90% mekara uroko neko fu n'jatta 80% nakayama kin'niku n' ueda shi n'ya neko shi n'jatta 70% corrective judgement ratio matsuzaka daisuke 60% mito koumo n' no n'biriya 50% 40% niho n' chi n'botsu 30% 1 2 3 4 5 6 7 8 9 10 11 number of subjective word
包絡線抽出手法 狭帯域分割した音声時間波形のスペクトル 片側スペクトルとなる の解析的信号表現 狭帯域分割した音声時間波形の包絡線 ヒルベルト包絡線