音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間

音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間第14回　音声言語シンポジウム 2012年12月20, 21日高島遼一，滝口哲也，有木康雄神戸大学大学院

研究背景・目的(1/4) • 音源位置推定 • 収録した音声から，その音源の位置を推定する • 話者位置推定 ⇒　対話ロボット，音声強調など • 話者の推定 ⇒　議事録作成など • 従来の音源位置推定法 • 複数のマイクを用いて観測される信号間の位相差を利用：時間差：音速 d マイクロホンアレー（マイク数32）

研究背景・目的(2/4) 単一マイクによる音源位置推定法は，いまだ確立されていない • システムの縮小化，複数マイクの手法との複合 • 提案アプローチ • 音響伝達特性を用いた単一チャネル音源位置推定法位相差などのマイク間の情報を用いない，単一マイクでも行える音源位置推定の実現

研究背景・目的(3/4) 先行研究音響伝達特性の識別に基づくシングルチャネル音源位置推定 (Takashima, et al., ICASSP, 2010) 音響伝達特性位置B S HB O HA 位置A Microphone S 音響伝達特性音響伝達特性（インパルス応答）は，音源の位置ごとに異なる特性をもつ音源位置毎に音響伝達特性を学習評価音声について，その音響伝達特性を識別することで音源位置を推定

研究背景・目的(4/4) 位置Dの伝達特性 • あらかじめ学習した位置しか • 推定（認識）できない • 位置Dを推定する(=クラスを作成する) • ためには位置Dの学習サンプルが必要 =位置B 位置A 特徴量(伝達特性MFCC)空間研究目的：限られた位置の学習サンプルのみを用いて未学習位置の推定を行う提案アプローチ：回帰分析による未学習位置の推定位置C 位置B 先行研究ではパターン認識に基づき音源位置を推定特徴量：　音響伝達特性 (MFCC：16次元) クラス：　　音源位置

提案手法の流れ 音源位置音響伝達特性H から座標θへの回帰モデルf(H)を学習学習データ観測信号Oから音響伝達特性H を推定単一マイク回帰モデルを用いて音響伝達特性から位置を推定評価データ推定位置

回帰モデルの学習 目的変数 (位置　) 位置A 位置D 位置B 位置C 説明変数 (伝達特性H) 回帰分析説明変数：　音響伝達特性 (MFCC：16次元) 目的変数 :　音源位置 (座標) 回帰分析手法 • 線形回帰 • 重回帰分析 • 非線形回帰 • Gaussian Process Regression (GPR) (C. E. Rasmussen, et al., 2006) • Support Vector Regression (SVR) (A.J. Smola, et al., 2004) • 学習方法 • 局所的回帰

大域的回帰 目的変数 (位置　) 位置A 位置B 位置C 説明変数 (伝達特性H) • 一般的な回帰モデル学習法 • あらかじめ学習サンプル全てを用いて一つの回帰関数を学習する • どの位置の推定においても単一の回帰関数が用いられる • 部屋内のあらゆる位置と音響伝達特性の関係をたった一つの関数で表現しきれるのか？

局所的回帰 目的変数 (位置　) 位置A 位置B 位置C 説明変数 (伝達特性H) 学習データ全てをデータベースとして保持評価データ(入力)に対して，K近傍の学習データを取り出す取りだしたK近傍の学習データのみを用いて回帰関数を学習する回帰関数は評価データが入力された後、入力値によって動的に学習されることになる

音響伝達特性の推定(1/3) 音源位置音響伝達特性H から座標θへの回帰モデルf(H)を学習学習データ観測信号Oから音響伝達特性H を推定単一マイク回帰モデルを用いて音響伝達特性から位置を推定評価データ推定位置

音響伝達特性の推定(2/3) 観測信号の定式化ケプストラム領域での観測信号をクリーン音声と音響伝達特性の線形加算モデルで仮定時間領域短時間フーリエ変換周波数領域対数変換離散コサイン変換ケプストラム領域未知実際の環境ではSは未知であるため，Sの代わりにSの確率モデル(HMM)を用いて最尤推定法でHを推定する．

音響伝達特性の推定（3/3) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる音響伝達特性の更新式は以下のように求められる

実験条件(1/2) 6.3 m 各音源位置にてインパルス応答を測定し，クリーン音声に畳み込むことで残響信号をシミュレートしたクリーン音声はATR音声データベースを使用 1.8 m Loudspeaker -90 cm 2.4 m 15 cm -90 cm 90 cm 0 2.4 m 7.0 m 90 cm Loudspeaker Microphones Microphone 3.15 m

実験条件(2/2) • 特徴量 • MFCC：16次元 • サンプリング周波数：12kHz　窓幅：32 msec　フレームシフト：8 msec • 回帰モデルの学習 • 50 単語 (× 学習位置数) • 局所的回帰における近傍サンプル数 K = 75 • 位置の推定 • Text closed : 評価データは学習単語と同じ発話(インパルス応答を畳み込む前のクリーン音声)からなる50単語 • Text open : 評価データは学習単語と異なる発話からなる116単語 • 音響伝達特性の推定 • クリーン音声の学習データ数： 2620単語 (上記の単語は含めない) • 音素数：54HMMの状態数：3　混合数：32

垂直軸(奥行き)移動における位置推定 -90 cm -75 cm ・・・ 0cm ・・・ 75cm 90cm Microphone • スピーカの水平軸は0 cm（正面）に固定(既知とする) • 位置を奥行き方向に-90～90cm，15cm間隔で収録 • 計 13 位置 • -90, -60, -30, 0, 30, 60, 90 cm （30cm間隔）を学習 • 学習位置数：　７位置 • -90, -75, -60, ..., 0, ..., 60, 75, 90 cm(15cm間隔)をテスト • 未学習位置 : ６位置 -75, -45, -15, 15, 45, 75 cm • 既学習位置数 : 7位置 90, -60, -30, 0, 30, 60, 90 cm

垂直軸(奥行き)移動の位置推定結果 全ての位置を評価対象とした場合未学習位置のみを評価対象とした場合相関係数で評価推定された位置と実際の位置が等しければ 1.0 を取る

垂直軸(奥行き)移動の位置推定結果 推定された位置 [cm] 実際の位置 [cm] 実際の位置 [cm] Text closed Text open SVR (Support Vector Regression) による位置推定結果青　：　未学習位置緑　：　既学習位置赤　：　正解の位置

水平軸移動における位置推定 • スピーカの垂直軸(奥行き)は0 cmに固定(既知とする) • 位置を奥行き方向に-90～90cm，15cm間隔で収録 • 計 13 位置 • -90, -60, -30, 0, 30, 60, 90 cm （30cm間隔）を学習 • 学習位置数：　７位置 • -90, -75, -60, ..., 0, ..., 60, 75, 90 cm (15cm間隔)をテスト • 未学習位置 : ６位置 -75, -45, -15, 15, 45, 75 cm • 既学習位置数 : 7位置 90, -60, -30, 0, 30, 60, 90 cm Loudspeaker -90 -75 ・・・ 0cm 90cm ・・・75 2.4 m Microphone

水平軸移動の位置推定結果 全ての位置を評価対象とした場合未学習位置のみを評価対象とした場合相関係数で評価推定された位置と実際の位置が等しければ 1.0 を取る

水平軸移動の位置推定結果 推定された位置 [cm] 実際の位置 [cm] 実際の位置 [cm] Text closed Text open SVR (Support Vector Regression) による位置推定結果青　：　未学習位置緑　：　既学習位置赤　：　正解の位置

考察・まとめ • 音響伝達特性を用いることで単一マイクで音源位置を推定する手法を提案 • 回帰モデルを用いることで未学習位置を含めた位置の推定を検討 • 垂直（奥行き）方向の位置推定において比較的高い相関を確認 • Text open の場合では音響伝達特性の推定誤差が影響 • 今後の課題 • 水平・垂直の両方を含めた２次元位置の推定 • より少ない学習位置での推定 • 音響伝達特性の正確な推定

ご清聴ありがとうございました

音源方向推定実験(付録)

音源方向推定実験 2m microphone インパルス応答はRWCPデータベースのものを使用（他の実験とは異なる部屋環境） • スピーカと音源の距離は約 2 m に固定(既知とする) • 音源方向を 10°～170°，20°間隔で収録 • 計 9 位置 • 10, 50, 90, 130, 170° （40°間隔）を学習 • 学習位置数：　5位置 • 10, 30, ..., 90, 110, ..., 170°(20°間隔)をテスト • 未学習位置 : 4位置 30, 70, 110, 150° • 既学習位置数 : 5位置 10, 50, 90, 130, 170°

音源方向推定結果 全ての位置を評価対象とした場合未学習位置のみを評価対象とした場合相関係数で評価推定された位置と実際の位置が等しければ 1.0 を取る

音源方向推定結果 推定された位置 [degree] 実際の位置 [degree] 実際の位置 [degree] Text closed Text open SVR (Support Vector Regression) による位置推定結果青　：　未学習位置緑　：　既学習位置赤　：　正解の位置

音響伝達特性の推定

観測信号の定式化 時間領域短時間フーリエ変換周波数領域対数変換離散コサイン変換ケプストラム領域未知統計モデル化モデル領域処理は全てMFCC領域で行われる実際の環境ではSは未知であるため，Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する． SはHMM (Hidden Markov Model)でモデル化する

音響伝達特性の推定（1/2) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる Q関数の同時確率　　　　　　　　　　　　は、以下のように展開される

音響伝達特性の推定（2/2) ケプストラム領域での O = S + H という仮定より状態b(n),混合要素c(n) におけるOの確率分布クリーン音声の正規分布が HだけシフトされたこれらをQ関数に代入し、を解く

音響伝達特性を推定 クリーン音声の音素HMM (a) ・・・ (i) (i) (k) (i) (o) (i) (u) ・・・音響伝達特性推定の流れ観測信号音素認識認識結果(ラベル) i, k, i, o, i 音素HMMを連結連結HMM 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する

位置推定実験(付録)

y軸(奥行き)移動の実験 -90 cm -75 cm ・・・ Loudspeaker 0cm 90cm Microphone スピーカのｘ軸は0（正面）に固定位置をy軸(奥行き)方向に-90～90cm、15cm間隔で収録 -90, -60, -30, 0, 30, 60, 90 cm （30cm間隔）を学習 -90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト未学習位置は-75, -45, -15, 15, 45, 75 cm 学習データ　：　50単語 x 位置評価データ　：　116単語 x 位置 33

y軸 (奥行き)推定結果 Hsub (伝達特性が正確に推定されている) Hest (伝達特性には推定誤差が含まれる) Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (cm)を表す数値は (未学習位置のRMSE / 既学習位置のRMSE) 34

y軸 (奥行き)推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 最も誤差が小さかった条件下での推定結果 35

ｘ軸(水平)移動の実験 Loudspeaker -90 -75 ・・・ 0cm 90cm 2.4 m Microphone スピーカのy軸は0に固定位置をx軸(水平)方向に-90～90cm、15cm間隔で収録 -90, -60, -30, 0, 30, 60, 90 cm （30cm間隔）を学習 -90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト未学習位置は-75, -45, -15, 15, 45, 75 cm 学習データ　：　50単語 x 位置評価データ　：　116単語 x 位置 36

x軸 (水平移動)推定結果 Hsub (伝達特性が正確に推定されている) Hest (伝達特性には推定誤差が含まれる) Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (cm)を表す数値は (未学習位置のRMSE / 既学習位置のRMSE) 37

x軸 (水平移動)推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 最も誤差が小さかった条件下での推定結果 38

音源方向推定の実験 2m microphone スピーカと音源の距離は約 2 m に固定音源方向を 10°～170°、20°間隔で収録 10, 50, 90, 130, 170° （40°間隔）を学習 10, 30, 50, 70, 90, 110, 130, 150, 170° (30°間隔)をテスト未学習位置は 30, 70, 110, 150° 学習データ　：　50単語 x 位置評価データ　：　116単語 x 位置 39

音源方向の推定結果 Hsub (伝達特性が正確に推定されている) Hest (伝達特性には推定誤差が含まれる) Root Mean Square Error (RMSE) で評価推定された位置と実際の位置との平均誤差 (角度)を表す数値は (未学習位置のRMSE / 既学習位置のRMSE) 40

音源方向の推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 最も誤差が小さかった条件下での推定結果 41

音響伝達特性を用いたシングルチャネル 音源位置推定における局所的回帰に基づく未学習位置の補間