410 likes | 583 Views
音響伝達特性を用いたシングルチャネル 音源位置推定における局所的回帰に基づく未学習位置の補間. 第 14 回 音声言語シンポジウム 2012 年 12 月 20, 21 日 高島遼一,滝口哲也,有木康雄 神戸大学大学院. 研究背景・目的 (1/4). 音源位置推定 収録した音声から,その音源の位置を推定する 話者位置推定 ⇒ 対話ロボット,音声強調など 話者の推定 ⇒ 議事録作成など 従来の音源位置推定法 複数のマイク を用いて観測される信号間の 位相差 を利用. :時間差. :音速. d. マイクロホンアレー(マイク数 32 ).
E N D
音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間音響伝達特性を用いたシングルチャネル音源位置推定における局所的回帰に基づく未学習位置の補間 第14回 音声言語シンポジウム 2012年12月20, 21日 高島遼一,滝口哲也,有木康雄 神戸大学大学院
研究背景・目的(1/4) • 音源位置推定 • 収録した音声から,その音源の位置を推定する • 話者位置推定 ⇒ 対話ロボット,音声強調など • 話者の推定 ⇒ 議事録作成など • 従来の音源位置推定法 • 複数のマイクを用いて観測される信号間の位相差を利用 :時間差 :音速 d マイクロホンアレー(マイク数32)
研究背景・目的(2/4) 単一マイクによる音源位置推定法は,いまだ確立されていない • システムの縮小化,複数マイクの手法との複合 • 提案アプローチ • 音響伝達特性を用いた単一チャネル音源位置推定法 位相差などのマイク間の情報を用いない,単一マイクでも行える音源位置推定の実現
研究背景・目的(3/4) 先行研究 音響伝達特性の識別に基づくシングルチャネル音源位置推定 (Takashima, et al., ICASSP, 2010) 音響伝達特性 位置B S HB O HA 位置A Microphone S 音響伝達特性 音響伝達特性(インパルス応答)は,音源の位置ごとに異なる特性をもつ 音源位置毎に音響伝達特性を学習 評価音声について,その音響伝達特性を識別することで音源位置を推定
研究背景・目的(4/4) 位置Dの 伝達特性 • あらかじめ学習した位置しか • 推定(認識)できない • 位置Dを推定する(=クラスを作成する) • ためには位置Dの学習サンプルが必要 =位置B 位置A 特徴量(伝達特性MFCC)空間 研究目的: 限られた位置の学習サンプルのみを用いて未学習位置の推定を行う 提案アプローチ: 回帰分析による未学習位置の推定 位置C 位置B 先行研究ではパターン認識に基づき音源位置を推定 特徴量: 音響伝達特性 (MFCC:16次元) クラス: 音源位置
提案手法の流れ 音源位置 音響伝達特性H から座標θへの 回帰モデルf(H)を 学習 学習データ 観測信号Oから 音響伝達特性H を推定 単一マイク 回帰モデル を用いて 音響伝達特性 から位置を推定 評価データ 推定位置
回帰モデルの学習 目的変数 (位置 ) 位置A 位置D 位置B 位置C 説明変数 (伝達特性H) 回帰分析 説明変数: 音響伝達特性 (MFCC:16次元) 目的変数 : 音源位置 (座標) 回帰分析手法 • 線形回帰 • 重回帰分析 • 非線形回帰 • Gaussian Process Regression (GPR) (C. E. Rasmussen, et al., 2006) • Support Vector Regression (SVR) (A.J. Smola, et al., 2004) • 学習方法 • 局所的回帰
大域的回帰 目的変数 (位置 ) 位置A 位置B 位置C 説明変数 (伝達特性H) • 一般的な回帰モデル学習法 • あらかじめ学習サンプル全てを用いて一つの回帰関数を学習する • どの位置の推定においても単一の回帰関数が用いられる • 部屋内のあらゆる位置と音響伝達特性の関係をたった一つの関数で表現しきれるのか?
局所的回帰 目的変数 (位置 ) 位置A 位置B 位置C 説明変数 (伝達特性H) 学習データ全てをデータベースとして保持 評価データ(入力)に対して,K近傍の学習データを取り出す 取りだしたK近傍の学習データのみを用いて回帰関数を学習する 回帰関数は評価データが入力された後、入力値によって動的に学習されることになる
音響伝達特性の推定(1/3) 音源位置 音響伝達特性H から座標θへの 回帰モデルf(H)を 学習 学習データ 観測信号Oから 音響伝達特性H を推定 単一マイク 回帰モデル を用いて 音響伝達特性 から位置を推定 評価データ 推定位置
音響伝達特性の推定(2/3) 観測信号の定式化 ケプストラム領域での観測信号をクリーン音声と音響伝達特性の線形加算モデルで仮定 時間領域 短時間フーリエ変換 周波数領域 対数変換 離散コサイン変換 ケプストラム領域 未知 実際の環境ではSは未知であるため,Sの代わりにSの確率モデル(HMM)を用いて最尤推定法でHを推定する.
音響伝達特性の推定(3/3) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる 音響伝達特性の更新式は以下のように求められる
実験条件(1/2) 6.3 m 各音源位置にてインパルス応答 を測定し,クリーン音声に畳み込む ことで残響信号をシミュレートした クリーン音声はATR音声データベース を使用 1.8 m Loudspeaker -90 cm 2.4 m 15 cm -90 cm 90 cm 0 2.4 m 7.0 m 90 cm Loudspeaker Microphones Microphone 3.15 m
実験条件(2/2) • 特徴量 • MFCC:16次元 • サンプリング周波数:12kHz 窓幅:32 msec フレームシフト:8 msec • 回帰モデルの学習 • 50 単語 (× 学習位置数) • 局所的回帰における近傍サンプル数 K = 75 • 位置の推定 • Text closed : 評価データは学習単語と同じ発話(インパルス応答を畳み込む前のクリーン音声)からなる50単語 • Text open : 評価データは学習単語と異なる発話からなる116単語 • 音響伝達特性の推定 • クリーン音声の学習データ数: 2620単語 (上記の単語は含めない) • 音素数:54HMMの状態数:3 混合数:32
垂直軸(奥行き)移動における位置推定 -90 cm -75 cm ・・・ 0cm ・・・ 75cm 90cm Microphone • スピーカの水平軸は0 cm(正面)に固定(既知とする) • 位置を奥行き方向に-90~90cm,15cm間隔で収録 • 計 13 位置 • -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 • 学習位置数: 7位置 • -90, -75, -60, ..., 0, ..., 60, 75, 90 cm(15cm間隔)をテスト • 未学習位置 : 6位置 -75, -45, -15, 15, 45, 75 cm • 既学習位置数 : 7位置 90, -60, -30, 0, 30, 60, 90 cm
垂直軸(奥行き)移動の位置推定結果 全ての位置を評価対象とした場合 未学習位置のみを評価対象とした場合 相関係数で評価 推定された位置と実際の位置が等しければ 1.0 を取る
垂直軸(奥行き)移動の位置推定結果 推定された位置 [cm] 実際の位置 [cm] 実際の位置 [cm] Text closed Text open SVR (Support Vector Regression) による位置推定結果 青 : 未学習位置 緑 : 既学習位置 赤 : 正解の位置
水平軸移動における位置推定 • スピーカの垂直軸(奥行き)は0 cmに固定(既知とする) • 位置を奥行き方向に-90~90cm,15cm間隔で収録 • 計 13 位置 • -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 • 学習位置数: 7位置 • -90, -75, -60, ..., 0, ..., 60, 75, 90 cm (15cm間隔)をテスト • 未学習位置 : 6位置 -75, -45, -15, 15, 45, 75 cm • 既学習位置数 : 7位置 90, -60, -30, 0, 30, 60, 90 cm Loudspeaker -90 -75 ・・・ 0cm 90cm ・・・75 2.4 m Microphone
水平軸移動の位置推定結果 全ての位置を評価対象とした場合 未学習位置のみを評価対象とした場合 相関係数で評価 推定された位置と実際の位置が等しければ 1.0 を取る
水平軸移動の位置推定結果 推定された位置 [cm] 実際の位置 [cm] 実際の位置 [cm] Text closed Text open SVR (Support Vector Regression) による位置推定結果 青 : 未学習位置 緑 : 既学習位置 赤 : 正解の位置
考察・まとめ • 音響伝達特性を用いることで単一マイクで音源位置を推定する手法を提案 • 回帰モデルを用いることで未学習位置を含めた位置の推定を検討 • 垂直(奥行き)方向の位置推定において比較的高い相関を確認 • Text open の場合では音響伝達特性の推定誤差が影響 • 今後の課題 • 水平・垂直の両方を含めた2次元位置の推定 • より少ない学習位置での推定 • 音響伝達特性の正確な推定
音源方向推定実験 2m microphone インパルス応答はRWCPデータベースの ものを使用(他の実験とは異なる部屋環境) • スピーカと音源の距離は約 2 m に固定(既知とする) • 音源方向を 10°~170°,20°間隔で収録 • 計 9 位置 • 10, 50, 90, 130, 170° (40°間隔)を学習 • 学習位置数: 5位置 • 10, 30, ..., 90, 110, ..., 170°(20°間隔)をテスト • 未学習位置 : 4位置 30, 70, 110, 150° • 既学習位置数 : 5位置 10, 50, 90, 130, 170°
音源方向推定結果 全ての位置を評価対象とした場合 未学習位置のみを評価対象とした場合 相関係数で評価 推定された位置と実際の位置が等しければ 1.0 を取る
音源方向推定結果 推定された位置 [degree] 実際の位置 [degree] 実際の位置 [degree] Text closed Text open SVR (Support Vector Regression) による位置推定結果 青 : 未学習位置 緑 : 既学習位置 赤 : 正解の位置
観測信号の定式化 時間領域 短時間フーリエ変換 周波数領域 対数変換 離散コサイン変換 ケプストラム領域 未知 統計モデル化 モデル領域 処理は全てMFCC領域で行われる 実際の環境ではSは未知であるため,Sの代わりにSの統計モデルを用いて最尤推定法でHを推定する. SはHMM (Hidden Markov Model)でモデル化する
音響伝達特性の推定(1/2) 観測信号に対する尤度が最大になるように、Hを推定する(最尤推定法) 解はEMアルゴリズムによって求められる Q関数の同時確率 は、以下のように展開される
音響伝達特性の推定(2/2) ケプストラム領域での O = S + H という仮定より 状態b(n),混合要素c(n) におけるOの確率分布 クリーン音声の正規分布が Hだけシフトされた これらをQ関数に代入し、 を解く
音響伝達特性を推定 クリーン音声の 音素HMM (a) ・・・ (i) (i) (k) (i) (o) (i) (u) ・・・ 音響伝達特性推定の流れ 観測信号 音素認識 認識結果(ラベル) i, k, i, o, i 音素HMMを連結 連結HMM 1.あらかじめクリーン音声の音素HMMを用意しておく 2.観測信号の音素認識を行う 3.音素認識の結果を元に音素HMMを連結する 4.連結されたHMMを用いて音響伝達特性を推定する
y軸(奥行き)移動の実験 -90 cm -75 cm ・・・ Loudspeaker 0cm 90cm Microphone スピーカのx軸は0(正面)に固定 位置をy軸(奥行き)方向に-90~90cm、15cm間隔で収録 -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 -90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト 未学習位置は-75, -45, -15, 15, 45, 75 cm 学習データ : 50単語 x 位置 評価データ : 116単語 x 位置 33
y軸 (奥行き)推定結果 Hsub (伝達特性が正確に推定されている) Hest (伝達特性には推定誤差が含まれる) Root Mean Square Error (RMSE) で評価 推定された位置と実際の位置との平均誤差 (cm)を表す 数値は (未学習位置のRMSE / 既学習位置のRMSE) 34
y軸 (奥行き)推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 最も誤差が小さかった条件下での推定結果 35
x軸(水平)移動の実験 Loudspeaker -90 -75 ・・・ 0cm 90cm 2.4 m Microphone スピーカのy軸は0に固定 位置をx軸(水平)方向に-90~90cm、15cm間隔で収録 -90, -60, -30, 0, 30, 60, 90 cm (30cm間隔)を学習 -90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90 cm (15cm間隔)をテスト 未学習位置は-75, -45, -15, 15, 45, 75 cm 学習データ : 50単語 x 位置 評価データ : 116単語 x 位置 36
x軸 (水平移動)推定結果 Hsub (伝達特性が正確に推定されている) Hest (伝達特性には推定誤差が含まれる) Root Mean Square Error (RMSE) で評価 推定された位置と実際の位置との平均誤差 (cm)を表す 数値は (未学習位置のRMSE / 既学習位置のRMSE) 37
x軸 (水平移動)推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 最も誤差が小さかった条件下での推定結果 38
音源方向推定の実験 2m microphone スピーカと音源の距離は約 2 m に固定 音源方向を 10°~170°、20°間隔で収録 10, 50, 90, 130, 170° (40°間隔)を学習 10, 30, 50, 70, 90, 110, 130, 150, 170° (30°間隔)をテスト 未学習位置は 30, 70, 110, 150° 学習データ : 50単語 x 位置 評価データ : 116単語 x 位置 39
音源方向の推定結果 Hsub (伝達特性が正確に推定されている) Hest (伝達特性には推定誤差が含まれる) Root Mean Square Error (RMSE) で評価 推定された位置と実際の位置との平均誤差 (角度)を表す 数値は (未学習位置のRMSE / 既学習位置のRMSE) 40
音源方向の推定結果 Hest (伝達特性には推定誤差が含まれる) Hsub (伝達特性が正確に推定されている) 最も誤差が小さかった条件下での推定結果 41