slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
?????????????????? ??????????????????????????? PowerPoint Presentation
Download Presentation
?????????????????? ???????????????????????????

Loading in 2 Seconds...

play fullscreen
1 / 41

?????????????????? ??????????????????????????? - PowerPoint PPT Presentation


  • 91 Views
  • Uploaded on

音響伝達特性を用いたシングルチャネル 音源位置推定における局所的回帰に基づく未学習位置の補間. 第 14 回 音声言語シンポジウム 2012 年 12 月 20, 21 日 高島遼一,滝口哲也,有木康雄 神戸大学大学院. 研究背景・目的 (1/4). 音源位置推定 収録した音声から,その音源の位置を推定する 話者位置推定 ⇒ 対話ロボット,音声強調など 話者の推定 ⇒ 議事録作成など 従来の音源位置推定法 複数のマイク を用いて観測される信号間の 位相差 を利用. :時間差. :音速. d. マイクロホンアレー(マイク数 32 ).

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '?????????????????? ???????????????????????????' - thuy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間

第14回 音声言語シンポジウム

2012年12月20, 21日

高島遼一,滝口哲也,有木康雄

神戸大学大学院

slide2
研究背景・目的(1/4)
  • 音源位置推定
    • 収録した音声から,その音源の位置を推定する
    • 話者位置推定 ⇒ 対話ロボット,音声強調など
    • 話者の推定 ⇒ 議事録作成など
  • 従来の音源位置推定法
    • 複数のマイクを用いて観測される信号間の位相差を利用

:時間差

:音速

d

マイクロホンアレー(マイク数32)

slide3
研究背景・目的(2/4)

単一マイクによる音源位置推定法は,いまだ確立されていない

    • システムの縮小化,複数マイクの手法との複合
  • 提案アプローチ
    • 音響伝達特性を用いた単一チャネル音源位置推定法

位相差などのマイク間の情報を用いない,単一マイクでも行える音源位置推定の実現

slide4
研究背景・目的(3/4)

先行研究

音響伝達特性の識別に基づくシングルチャネル音源位置推定

(Takashima, et al., ICASSP, 2010)

音響伝達特性

位置B

S

HB

O

HA

位置A

Microphone

S

音響伝達特性

音響伝達特性(インパルス応答)は,音源の位置ごとに異なる特性をもつ

音源位置毎に音響伝達特性を学習

評価音声について,その音響伝達特性を識別することで音源位置を推定

slide5
研究背景・目的(4/4)

位置Dの

伝達特性

  • あらかじめ学習した位置しか
  • 推定(認識)できない
  • 位置Dを推定する(=クラスを作成する)
  • ためには位置Dの学習サンプルが必要

=位置B

位置A

特徴量(伝達特性MFCC)空間

研究目的:

限られた位置の学習サンプルのみを用いて未学習位置の推定を行う

提案アプローチ:

回帰分析による未学習位置の推定

位置C

位置B

先行研究ではパターン認識に基づき音源位置を推定

特徴量: 音響伝達特性 (MFCC:16次元)

クラス:  音源位置

slide6
提案手法の流れ

音源位置

音響伝達特性H

から座標θへの

回帰モデルf(H)を

学習

学習データ

観測信号Oから

音響伝達特性H

を推定

単一マイク

回帰モデル

を用いて

音響伝達特性

から位置を推定

評価データ

推定位置

slide7
回帰モデルの学習

目的変数

(位置 )

位置A

位置D

位置B

位置C

説明変数

(伝達特性H)

回帰分析

説明変数: 音響伝達特性 (MFCC:16次元)

目的変数 : 音源位置 (座標)

回帰分析手法

  • 線形回帰
    • 重回帰分析
  • 非線形回帰
    • Gaussian Process Regression (GPR) (C. E. Rasmussen, et al., 2006)
    • Support Vector Regression (SVR) (A.J. Smola, et al., 2004)
  • 学習方法
    • 局所的回帰
slide8
大域的回帰

目的変数

(位置 )

位置A

位置B

位置C

説明変数

(伝達特性H)

  • 一般的な回帰モデル学習法
  • あらかじめ学習サンプル全てを用いて一つの回帰関数を学習する
    • どの位置の推定においても単一の回帰関数が用いられる
  • 部屋内のあらゆる位置と音響伝達特性の関係をたった一つの関数で表現しきれるのか?
slide9
局所的回帰

目的変数

(位置 )

位置A

位置B

位置C

説明変数

(伝達特性H)

学習データ全てをデータベースとして保持

評価データ(入力)に対して,K近傍の学習データを取り出す

取りだしたK近傍の学習データのみを用いて回帰関数を学習する

回帰関数は評価データが入力された後、入力値によって動的に学習されることになる

slide10
音響伝達特性の推定(1/3)

音源位置

音響伝達特性H

から座標θへの

回帰モデルf(H)を

学習

学習データ

観測信号Oから

音響伝達特性H

を推定

単一マイク

回帰モデル

を用いて

音響伝達特性

から位置を推定

評価データ

推定位置

slide11
音響伝達特性の推定(2/3)

観測信号の定式化

ケプストラム領域での観測信号をクリーン音声と音響伝達特性の線形加算モデルで仮定

時間領域

短時間フーリエ変換

周波数領域

対数変換

離散コサイン変換

ケプストラム領域

未知

実際の環境ではSは未知であるため,Sの代わりにSの確率モデル(HMM)を用いて最尤推定法でHを推定する.

slide12
音響伝達特性の推定(3/3)

観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法)

解はEMアルゴリズムによって求められる

音響伝達特性の更新式は以下のように求められる

slide13
実験条件(1/2)

6.3 m

各音源位置にてインパルス応答

を測定し,クリーン音声に畳み込む

ことで残響信号をシミュレートした

クリーン音声はATR音声データベース

を使用

1.8 m

Loudspeaker

-90 cm

2.4 m

15 cm

-90 cm

90 cm

0

2.4 m

7.0 m

90 cm

Loudspeaker

Microphones

Microphone

3.15 m

slide14
実験条件(2/2)
  • 特徴量
    • MFCC:16次元
    • サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec
  • 回帰モデルの学習
    • 50 単語 (× 学習位置数)
    • 局所的回帰における近傍サンプル数 K = 75
  • 位置の推定
    • Text closed : 評価データは学習単語と同じ発話(インパルス応答を畳み込む前のクリーン音声)からなる50単語
    • Text open : 評価データは学習単語と異なる発話からなる116単語
  • 音響伝達特性の推定
    • クリーン音声の学習データ数: 2620単語 (上記の単語は含めない)
    • 音素数:54HMMの状態数:3 混合数:32
slide15
垂直軸(奥行き)移動における位置推定

-90 cm

-75 cm

・・・

0cm

・・・

75cm

90cm

Microphone

  • スピーカの水平軸は0 cm(正面)に固定(既知とする)
  • 位置を奥行き方向に-90~90cm,15cm間隔で収録
    • 計 13 位置
  • -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習
    • 学習位置数: 7位置
  • -90, -75, -60, ..., 0, ..., 60, 75, 90 cm(15cm間隔)をテスト
    • 未学習位置 : 6位置

-75, -45, -15, 15, 45, 75 cm

    • 既学習位置数 : 7位置

90, -60, -30, 0, 30, 60, 90 cm

slide16
垂直軸(奥行き)移動の位置推定結果

全ての位置を評価対象とした場合

未学習位置のみを評価対象とした場合

相関係数で評価

推定された位置と実際の位置が等しければ 1.0 を取る

slide17
垂直軸(奥行き)移動の位置推定結果

推定された位置 [cm]

実際の位置 [cm]

実際の位置 [cm]

Text closed

Text open

SVR (Support Vector Regression) による位置推定結果

青 : 未学習位置

緑 : 既学習位置

赤 : 正解の位置

slide18
水平軸移動における位置推定
  • スピーカの垂直軸(奥行き)は0 cmに固定(既知とする)
  • 位置を奥行き方向に-90~90cm,15cm間隔で収録
    • 計 13 位置
  • -90, -60, -30, 0, 30, 60, 90 cm

(30cm間隔)を学習

    • 学習位置数: 7位置
  • -90, -75, -60, ..., 0, ..., 60, 75, 90 cm

(15cm間隔)をテスト

    • 未学習位置 : 6位置

-75, -45, -15, 15, 45, 75 cm

    • 既学習位置数 : 7位置

90, -60, -30, 0, 30, 60, 90 cm

Loudspeaker

-90

-75 ・・・

0cm

90cm

・・・75

2.4 m

Microphone

slide19
水平軸移動の位置推定結果

全ての位置を評価対象とした場合

未学習位置のみを評価対象とした場合

相関係数で評価

推定された位置と実際の位置が等しければ 1.0 を取る

slide20
水平軸移動の位置推定結果

推定された位置 [cm]

実際の位置 [cm]

実際の位置 [cm]

Text closed

Text open

SVR (Support Vector Regression) による位置推定結果

青 : 未学習位置

緑 : 既学習位置

赤 : 正解の位置

slide21
考察・まとめ
  • 音響伝達特性を用いることで単一マイクで音源位置を推定する手法を提案
  • 回帰モデルを用いることで未学習位置を含めた位置の推定を検討
  • 垂直(奥行き)方向の位置推定において比較的高い相関を確認
  • Text open の場合では音響伝達特性の推定誤差が影響
  • 今後の課題
    • 水平・垂直の両方を含めた2次元位置の推定
    • より少ない学習位置での推定
    • 音響伝達特性の正確な推定
slide24
音源方向推定実験

2m

microphone

インパルス応答はRWCPデータベースの

ものを使用(他の実験とは異なる部屋環境)

  • スピーカと音源の距離は約 2 m に固定(既知とする)
  • 音源方向を 10°~170°,20°間隔で収録
    • 計 9 位置
  • 10, 50, 90, 130, 170° (40°間隔)を学習
    • 学習位置数: 5位置
  • 10, 30, ..., 90, 110, ..., 170°(20°間隔)をテスト
    • 未学習位置 : 4位置

30, 70, 110, 150°

    • 既学習位置数 : 5位置

10, 50, 90, 130, 170°

slide25
音源方向推定結果

全ての位置を評価対象とした場合

未学習位置のみを評価対象とした場合

相関係数で評価

推定された位置と実際の位置が等しければ 1.0 を取る

slide26
音源方向推定結果

推定された位置 [degree]

実際の位置 [degree]

実際の位置 [degree]

Text closed

Text open

SVR (Support Vector Regression) による位置推定結果

青 : 未学習位置

緑 : 既学習位置

赤 : 正解の位置

slide28
観測信号の定式化

時間領域

短時間フーリエ変換

周波数領域

対数変換

離散コサイン変換

ケプストラム領域

未知

統計モデル化

モデル領域

処理は全てMFCC領域で行われる

実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する.

SはHMM (Hidden Markov Model)でモデル化する

slide29
音響伝達特性の推定(1/2)

観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法)

解はEMアルゴリズムによって求められる

Q関数の同時確率            は、以下のように展開される

slide30
音響伝達特性の推定(2/2)

ケプストラム領域での O = S + H という仮定より

状態b(n),混合要素c(n)

におけるOの確率分布

クリーン音声の正規分布が

Hだけシフトされた

これらをQ関数に代入し、 を解く

slide31

音響伝達特性を推定

クリーン音声の

音素HMM

(a)

・・・

(i)

(i)

(k)

(i)

(o)

(i)

(u)

・・・

音響伝達特性推定の流れ

観測信号

音素認識

認識結果(ラベル)

i, k, i, o, i

音素HMMを連結

連結HMM

1.あらかじめクリーン音声の音素HMMを用意しておく

2.観測信号の音素認識を行う

3.音素認識の結果を元に音素HMMを連結する

4.連結されたHMMを用いて音響伝達特性を推定する

slide33
y軸(奥行き)移動の実験

-90 cm

-75 cm

・・・

Loudspeaker

0cm

90cm

Microphone

スピーカのx軸は0(正面)に固定

位置をy軸(奥行き)方向に-90~90cm、15cm間隔で収録

-90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習

-90, -75, -60, -45, -30, -15, 0,

15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト

未学習位置は-75, -45, -15, 15, 45, 75 cm

学習データ : 50単語 x 位置

評価データ : 116単語 x 位置

33

slide34
y軸 (奥行き)推定結果

Hsub (伝達特性が正確に推定されている)

Hest (伝達特性には推定誤差が含まれる)

Root Mean Square Error (RMSE) で評価

推定された位置と実際の位置との平均誤差 (cm)を表す

数値は (未学習位置のRMSE / 既学習位置のRMSE)

34

slide35
y軸 (奥行き)推定結果

Hest (伝達特性には推定誤差が含まれる)

Hsub (伝達特性が正確に推定されている)

最も誤差が小さかった条件下での推定結果

35

slide36
x軸(水平)移動の実験

Loudspeaker

-90

-75 ・・・

0cm

90cm

2.4 m

Microphone

スピーカのy軸は0に固定

位置をx軸(水平)方向に-90~90cm、15cm間隔で収録

-90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習

-90, -75, -60, -45, -30, -15, 0,

15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト

未学習位置は-75, -45, -15, 15, 45, 75 cm

学習データ : 50単語 x 位置

評価データ : 116単語 x 位置

36

slide37
x軸 (水平移動)推定結果

Hsub (伝達特性が正確に推定されている)

Hest (伝達特性には推定誤差が含まれる)

Root Mean Square Error (RMSE) で評価

推定された位置と実際の位置との平均誤差 (cm)を表す

数値は (未学習位置のRMSE / 既学習位置のRMSE)

37

slide38
x軸 (水平移動)推定結果

Hest (伝達特性には推定誤差が含まれる)

Hsub (伝達特性が正確に推定されている)

最も誤差が小さかった条件下での推定結果

38

slide39
音源方向推定の実験

2m

microphone

スピーカと音源の距離は約 2 m に固定

音源方向を 10°~170°、20°間隔で収録

10, 50, 90, 130, 170° (40°間隔)を学習

10, 30, 50, 70, 90, 110, 130, 150, 170°

(30°間隔)をテスト

未学習位置は 30, 70, 110, 150°

学習データ : 50単語 x 位置

評価データ : 116単語 x 位置

39

slide40
音源方向の推定結果

Hsub (伝達特性が正確に推定されている)

Hest (伝達特性には推定誤差が含まれる)

Root Mean Square Error (RMSE) で評価

推定された位置と実際の位置との平均誤差 (角度)を表す

数値は (未学習位置のRMSE / 既学習位置のRMSE)

40

slide41
音源方向の推定結果

Hest (伝達特性には推定誤差が含まれる)

Hsub (伝達特性が正確に推定されている)

最も誤差が小さかった条件下での推定結果

41