ユビキタス社会を支える
This presentation is the property of its rightful owner.
Sponsored Links
1 / 31

ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究 PowerPoint PPT Presentation


  • 68 Views
  • Uploaded on
  • Presentation posted in: General

ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究. ー 狭帯域包絡線情報を用いた      個人性・伝送路特性の記述 -. 末廣一美,山田雄大(福島研究室). 様々な違いから生まれるコミュニケーションのバリア. A. 文化,言語,身体能力の 違いによる壁(バリア). メディア変換. 手話. 言語. ?. 手話. 言語. メディア:意図を伝える媒体. 個人差・利用状況 に合った 適応的なメディア変換. システムによる現状把握 が必要. 人の情報伝送路モデル. 3. ー. 聴取者. 話者. 音声. 3. □.

Download Presentation

ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


4437079

ユビキタス社会を支えるトランスメディア実現のための情報記述に関する研究

ー 狭帯域包絡線情報を用いた

     個人性・伝送路特性の記述 -

末廣一美,山田雄大(福島研究室)


4437079

様々な違いから生まれるコミュニケーションのバリア

A

文化,言語,身体能力の違いによる壁(バリア)

メディア変換

手話

言語

手話

言語

メディア:意図を伝える媒体

個人差・利用状況に合った適応的なメディア変換

システムによる現状把握が必要


4437079

人の情報伝送路モデル

3

聴取者

話者

音声

3

メディア間の相互変換

 はメディアに依存しない →メディア間の相互変換が可能  ⇒情報源の持つ「特徴量」による「情報記述」

1)情報の特徴量を抽出することは可能?2)特徴量による「話者識別」「室種別類別」が可能?


4437079

狭帯域包絡線情報を用いた話者識別

0.04

0.02

0

amplitude

-0.02

-0.04

0

0.2

0.4

0.6

0.8

1

0.04

0.02

amplitude

0

-0.02

-0.04

0

0.2

0.4

0.6

0.8

1

0

s

s

s

time (

time (

time (

)

)

)

-10

amplitude(dB)

-20

-30

0

0.2

0.4

0.6

0.8

1

人の聴覚メカニズム ⇒ 「狭帯域包絡線」を特徴量

音声時間波形を狭帯域に分割して包絡線を求める

帯域を制限(少ない特徴量で識別)↓正解率の変化を調べる


4437079

全39帯域の正解率の比較

100

90

80

70

60

Accuracy and Ratio (%)

50

40

30

20

10

0

1-39

6-31

6-14, 22-31

Used Band Number

86%

88%

81%

fs 範囲

100%

25%

21%

band数

100%

67%

49%

特徴量抽出,少ない特徴量でも識別可能

重要帯域近傍調査:音響学会にて発表予定(3月)


4437079

狭帯域包絡線情報を用いた室種別の類別

人の聴覚メカニズムは対象によって変化しない

室のインパルス応答の狭帯域包絡線を求める

狭帯域分割

ケプストラム

包絡線

  の類似度を調べる ↓狭帯域包絡線情報で室種別の類別が可能か


4437079

同一室で異なる計測位置での  の類似度

A

A

A

W1_1

W2_1

J_1

W1_2

W2_2

J_2

W1_3

W2_3

J_3

g

G

G

X

A

洋室1(W1)

洋室2(W2)

和室(J)

1

1

1

0.9

0.9

0.9

0.8

0.8

0.8

0.7

0.7

0.7

0.6

0.6

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0.1

0

0

0

W2_1

W2_2

W2_3

W1_1

W1_2

W1_3

J_1

J_2

J_3

X(Room type_Point Number)

W:洋室,J:和室

同一室では  の類似度が高い


4437079

洋室1と和室の  の類似度

g

G

G

X

A

1

0.9

0.8

0.7

0.6

A

0.5

W1_1

0.4

W1_2

0.3

W1_3

0.2

J_1

J_2

0.1

J_3

0

W1_1

W1_2

W1_3

J_1

J_2

J_3

X(Room Type_Point Number)

種別の異なる室では類似度は低い


4437079

容積の異なる洋室1と洋室2の  の類似度

g

G

G

X

A

1

0.9

0.8

0.7

0.6

A

0.5

W1_1

0.4

W1_2

0.3

W1_3

W2_1

0.2

W2_2

0.1

W2_3

0

W1_1

W1_2

W1_3

W2_1

W2_2

W2_3

X(Room Type_Point Number)

容積の異なる同一種別の室でも類似度は高い


4437079

まとめ

【目的】 適応的メディア制御に必要な 「システムによる個人性・利用状況の識別」【手法】 狭帯域包絡線情報を特徴量とした 話者識別・室種別の類別【結果】・狭帯域包絡線情報を特徴量として用いた話者識別の有効性を再検証室種別類別できる可能性を示唆 ・個人性調査により少ない特徴量で識別可能

特徴量抽出・特徴量による情報の識別は可能


4437079

人の情報伝送路モデル

3

但し,  はAからBへの変換関数      は   の逆変換関数

聴取者

話者

音声

3

言語野レベル

物理変換レベル

音響事象レベル

物理変換レベル

言語野レベル


4437079

人と人との情報伝達モデル


4437079

1

0.5

0

-0.5

-1

200

400

600

800

1000

1200

1400

1600

1800

2000

1

0.5

0

-0.5

-1

200

400

600

800

1000

1200

1400

1600

1800

2000

1

0.5

0

-0.5

-1

200

400

600

800

1000

1200

1400

1600

1800

2000

狭帯域包絡線間相関を用いた話者識別

amp.(dB)

amp.(dB)

amp.(dB)

time (ms)


4437079

0.04

0.02

0

amplitude

-0.02

-0.04

0

0.2

0.4

0.6

0.8

1

0.04

0.02

amplitude

0

-0.02

-0.04

0

0.2

0.4

0.6

0.8

1

0

s

s

s

s

s

s

time (

time (

time (

time (

time (

time (

)

)

)

)

)

)

-10

amplitude(dB)

-20

-30

0

0.2

0.4

0.6

0.8

1

処理の流れ

1/4 Oct.分割した音声時間波形

b : 39バンド28.9Hz~20749Hz

0.04

0.02

0

-0.02

-0.04

0

0.2

0.4

0.6

0.8

1

ヒルベルト変換して求めた包絡線

0.04

0.02

0

-0.02

-0.04

0

0.2

0.4

0.6

0.8

1

dB変換(-30dBで打ち切り)

0

-10

-20

-30

0

0.2

0.4

0.6

0.8

1

狭帯域包絡線間相関係数


4437079

狭帯域包絡線間相関係数行列

識別候補:   の最大値

帯域を制限↓正解率の変化を調べる

DB

識別対象

正解率=識別候補が本人となった回数/識別条件数


4437079

登録語と識別語の音素分布

11 27

11 11

33

68

V:Vowel母音

N:Nasal鼻音

Fl:Fricative voiceless

摩擦音(無声)

Fv:Fricative voiced

 摩擦音(有声)

Sl:Stop voiceless

 閉鎖音(無声)

Sv:Stop voiced

 閉鎖音(有声)

Ca:Central

approximant

       中央近接音

Q:Geminate

consonant

            促音

-:Long vowel 長音

11 0 11 11 0 0 22 11 11 11

0 1 108 8 3 10 5 0 27

0 11

15 10

a

77 0 0 11 0 11 0 0

8 22 10 12 8 0 9 9

0 0

3 3

i

22 22 0 0 22 0 0

31 19 35 2 1 17 11

0

8

Vowel

u

11

11

0 011 11

11 20 0 8

e

11 0 0 11

0 19 21 0

11

0

11

9

0 11 0 0

14 26 9 2

o

g

gy

V

n

ny

m

my

s

sh

h

hy

z

j

k

ky

t

ts

p

py

ch

d

dy

b

by

ry

y

r

w

Q

f

N’

Sl

Fl

Sv

Ca

Fv

Consonant

+:登録語(個数は上段の数)

×:識別語(個数は下段の数)

分布に偏りがない


4437079

帯域増加と平均正解率

1

14

0.9

0.8

0.7

0.6

31

C

0.5

6

22

0.4

0.3

0.2

0.1

0

2

5

10

15

20

25

30

35

39

Stop band number

重要帯域:帯域番号6~14,22~31


4437079

帯域減少と平均正解率

1

0.9

0.8

0.7

0.6

6

C

0.5

14

0.4

22

31

0.3

0.2

0.1

0

1

5

10

15

20

25

30

35

38

Starting band number

重要帯域:帯域番号6~14,22~


4437079

帯域増加と帯域減少の平均正解率

帯域を1帯域づつ増加

帯域を1帯域づつ減少

変化した点が同じ

重要帯域:帯域番号6~14,22~31


4437079

結果の検討(高い周波数範囲の検討)

帯域番号22~31(1091Hz~5187Hz)

4.0

3.8

3.4

3.0

/i/

2.5

/e/

2.2

2.0

1.8

The second formant F 2 (kHz)

/a/

1.5

1.4

第2フォルマント周波数の1091Hz~4000Hz(帯域番号22~30)

/u/

1.0

0.8

/o/

0.6

0.2

0.5

1.0

1.4

The first formant F 1 (kHz)


4437079

結果の検討(高い周波数範囲の検討)

帯域番号22~31(1091Hz~5187Hz)

高い周波数範囲

副鼻腔共振周波数約3100Hz~5400Hz(帯域番号28~31)

前頭洞約8cm3

上顎洞

低い周波数範囲(6~14)

蝶形骨洞

声帯音源基本周波数男性:約100Hz~150Hz女性:約250Hz~300Hz (帯域番号6~14)

副鼻腔共振周波数・声帯音源基本周波数


4437079

Band No.

+ 1-39

× 6-31

□ 6-14

22-31

データによるばらつきの検討

1

0.95

88%86%83%

0.9

0.85

0.8

CA

0.75

0.7

0.65

0.6

0.55

0.5

A

E

K

M

N

SA

SB

SC

TA

TB

Y

All

Talker

識別語に共通性


4437079

ne

to

s

a

fi

n'

0

-5

amplitude (dB)

-10

-15

0

0.2

0.4

0.6

0.8

1

time( )

s

正解率が高い識別語(ネットサーフィン:上段)

mi

to

ko

mo

n'

0

-5

amplitude (dB)

-10

-15

0

0.2

0.4

0.6

0.8

1

s

time( )

正解率が低い識別語(水戸黄門:下段)

「i」

「e」

「a」

鼻音の継続時間

母音の第2フォルマント

「o」


4437079

重要帯域近傍での平均正解率の変化

6-V

V-31

90%

90%

85%

85%

C

C

80%

80%

75%

75%

70%

70%

30

31

32

33

4

5

6

7

8

29

V(Band Number)

V(Band Number)

6-V,22-31

6-14, V-31

90%

90%

85%

85%

C

C

80%

80%

75%

75%

70%

70%

10

11

12

13

14

15

16

18

19

20

21

22

23

24

V(Band Number)

V(Band Number)

重要帯域を7-11,22-31に絞り込める


4437079

まとめ

声帯音源基本周波数 約100~300Hz帯域番号6~14

第2フォルマント周波数・副鼻腔共振周波数 約1100Hz~5400Hz帯域番号22~31

正解率のばらつき鼻音の継続時間 母音の第2フォルマントに関連

周波数範囲で21%,帯域数で49%に制限


4437079

1/4オクターブバンドの中心周波数


4437079

1/4オクターブバンド狭帯域フィルタ

0

-5

-10

-15

amplitude (dB)

-20

-25

-30

-35

-40

2

3

4

10

10

10

Freq. (Hz)

狭帯域フィルタ:FIRフィルタ長さ:2048サンプル :44100Hz

周波数分解:21.5Hzフィルタ長:約46ms音声の狭帯域包絡線を100msで区切る ⇒声帯音源波 約4周期が対象


4437079

話者を識別するシステムに用いた登録語・識別語

識別語:登録語と異なる語1)松坂大輔(matsuzaka daisuke)2)メール機能(me-ru kinou)3)目から鱗(mekara uroko)4)水戸黄門(mito koumo n‘)5)モーニング娘(mo-ni n’gu musume)6)中山きんにくん(nakayama kin‘niku n’)7)ネットサーフィン(netto sa-fi n‘)8)猫死んじゃった(neko shi n’jatta)9)猫踏んじゃった(neko fu n‘jatta)10)日本沈没(niho n’ chi n‘botsu)11)忍たま乱太郎(ni n’tama ra n‘tarou)12)ノストラダムス(nosutora damusu)13)のんびり屋(no n’biriya)14)上田晋也(ueda shi n‘ya)1語/約1秒1人/約8語計82語(登録者により異なる)

登録語1)青い空(aoisora)2)映画鑑賞(eigaka n‘shou)3)石田一成(ishida issei)4)マイホーム計画(mai ho-mu keikaku)5)無人島探索(muji n’tou tansaku)1語/約1秒1人/約5語計55語(登録者全員共通)


4437079

帯域制限(6~14,22~31)時の識別語の正解率

100%

netto sa-fi n'

mo-ni n'gu

nosutora damusu

musume

90%

mekara uroko

neko fu n'jatta

80%

nakayama kin'niku n'

ueda shi n'ya

neko shi n'jatta

70%

corrective judgement ratio

matsuzaka daisuke

60%

mito koumo n'

no n'biriya

50%

40%

niho n' chi n'botsu

30%

1

2

3

4

5

6

7

8

9

10

11

number of subjective word


4437079

包絡線抽出手法

狭帯域分割した音声時間波形のスペクトル

片側スペクトルとなる     の解析的信号表現

狭帯域分割した音声時間波形の包絡線

ヒルベルト包絡線


  • Login