アレー信号処理を用いたブラインド音源分離の基礎

アレー信号処理を用いたブラインド音源分離の基礎アレー信号処理を用いたブラインド音源分離の基礎奈良先端科学技術大学院大学情報科学研究科　音情報処理学講座猿渡　洋

本日の内容 • マイクロホンアレー処理の概説 • ブラインド音源分離研究の背景･解説 • 独立成分分析とブラインド音源分離 • 独立成分分析における問題点 • 独立成分分析とビームフォーミングの統合 • 反復学習内・学習後ダイバーシチ • 音声認識への応用例 • 今後の展開

マイクロホンアレー研究の背景 • マイクロホンアレーとその応用 • 古典的アプローチ：ビームフォーミング • 遅延和型：　低サイドローブの実現が困難 • 適応型：目的音の方位・無音区間情報が必要 • 高性能な hands-free 通信 • 雑音にロバストな音声認識さらに自由度の大きい技術の開発が必要

マイクロホンアレーの問題点 目的音 • 遅延和型：素子係数により指向特性を制御 • 適応型：雑音の到来方向に指向特性を適応雑音も同時に拾ってしまう θ 目的音を指定雑音のみを観測する時間が必要 θ 死角

ブラインド音源分離の登場 • Blind Source Separation (BSS) • 複数の音源信号が混合されて観測された場合、観測信号のみから音源信号を推定する技術 • 目的音の方位・無音区間情報が不要 • 独立成分分析（ICA）に基づくBSS J. Cardoso, 1989 C. Jutten, 1990 （高次無相関化） P. Common, 1994 （ICAという言葉を定義） A. Bell et al., 1995 （infomaxによる定式化）

既知互いに独立 ICAに基づくBSS とは？おはよう Human 1 Source 1 Microphone 1 Observed signal 1 Microphone 2 Observed signal 2 こんにちは Source 2 音源信号を推定 Human 2

ICAに基づくBSSの定式化 線形混合過程混合行列音源信号観測信号分離過程分離信号分離行列コスト関数独立? 最適化

ICAにおける様々なコスト関数 分離信号ベクトル：　 • 無相関化 • 信号間相関を最小化 • 非線形関数１ • 高次相関をも最小化 • 非線形関数２ • 源信号確率密度関数を仮定シグモイド関数等

ICAに基づくBSSの問題点 • ICAは本質的に非線形最適化問題を含む → 局所最適解への落ち込み → 収束性能の悪化 • そもそも音声ってどのくらい独立なのか？ → 周波数帯域によって独立な場合とそうでな　い場合があるのではないか？ → ICAで分離できる性能の限界はどの程度か

ICAとビームフォーミングの統合 • 指向特性を介してICA-based BSSと古典的ビームフォーミングを統合化 • 非独立な帯域における分離性能を向上情報幾何学と音響信号処理とを融合した高精度なBSS

本アプローチの概念図 独立成分分析ビームフォーミング　両者間の対応付け・繰り返し処理を用いることにより、より高精度な分離音を取得する統一感のある情報源を脳の内部で分類化音源のある方位に聞き耳を立てる Aさんの声

具体的な手法例 • ICAとビームフォーマの切り替えを反復学習処理の最後に行う（反復学習後ダイバーシチ） • ICAとビームフォーマの切り替えを反復学習過程中において周期的に行う　　（反復学習内周期的ダイバーシチ） • ICAとビームフォーマの切り替えを反復学習過程中において適宜行う　　（反復学習内ダイバーシチ）

反復学習後ダイバーシチ • （1）帯域分割型ICAによるBSS • → 形成される指向特性より音源方位を陽に推定（２）音源方位を利用して死角制御型ビームフォーミング（３）アルゴリズムダイバーシチによる（１），（２）の統合

（１）帯域分割型ICAによる音源分離 周波数変換時間遅れを含む混合問題を単純化

（１）学習アルゴリズム • Iterative off-line learning algorithm : where

指向特性・・・空間に対してアレーが形成する利得の分布指向特性・・・空間に対してアレーが形成する利得の分布逆混合行列による指向特性： l 番目の音源のDOA ：に目的方位に死角に目的方位に死角に目的方位に死角に目的方位に死角 Source 2 Source 1 （２）死角制御型ビームフォーマ１． ICAで推定されたWより指向特性を算出し、音源方位を求める。２．推定された音源方位より死角制御型ビームフォーマを構成する。

（３）アルゴリズムダイバーシチによる統合 • 帯域毎に以下のルールでICAとビームフォーマを切り替える周波数　　での音源方位推定値が　　　である場合、の偏差閾値パラメータ収束性が悪い・独立性が低い帯域での分離性能を向上

実験条件 • 素子間隔 4 cm の 2 素子アレー • 音源 : • 方位－30°, 方位 40°の 2 音源（36通り） • 音響条件 : • 残響時間 RT= 0, 0.15, 0.30 sec • 逆混合行列の学習： • 1, 3, 5 秒間の観測信号を利用 • 評価基準： • Noise reduction rate (NRR) = 出力SNR [dB] – 入力SNR [dB] • 比較対象： • Murata法（in ICA’99; 狭帯域波形包絡間の類似性利用）

実験結果：ダイバーシチの効果 RT=0.15 sec の場合学習区間ビームフォーマ, ICA-based BSSよりもSNR向上

実験結果：音声認識による評価 学習区間=５ sec すべての場合において提案法により認識率改善

無残響実験 混合音分離音 (女性,村田・池田の手法) 分離音 (女性, 提案手法) 分離音 (男性, 提案手法) 残響付与実験 (残響時間 300 ms) 混合音分離音 (女性,村田・池田の手法) 分離音 (女性, 提案手法) 分離音 (男性, 提案手法) 分離音声デモ (逆混合行列の学習には 3 秒間の観測信号を利用)

反復学習内周期的ダイバーシチ ICA BF に目的方位に死角に目的方位 else に死角 Ordering & Scaling if final Init Direction of Arrival Estimation

反復学習における 指向特性のアニメーション - 従来のICAの場合 -

反復学習における 指向特性のアニメーション - 提案法の場合 -

無残響下での実験結果

RT=150msecの場合の実験結果

考察 • 無残響下ではNRR値の大幅な向上が見られた • ICAとビームフォーミング間の射影反復は有効に機能 • 残響下においてもNRR値の向上が見られた • 残響下でのビームフォーミングは必ずしも性能をあげる保証はないが適切な反復回数で切り替えることは収束を高める上で有効である問題点：全帯域を同時にBFに切り替える必要があるのか BFに切り替えるタイミングはいつが最適か

改善法：反復学習内ダイバーシチ 指向特性・・・空間に対してアレーが形成する利得の分布逆混合行列による指向特性： ONE TIME ICA BF l 番目の音源のDOA ： Direction of Arrival Estimation Diversity with Cost Function else に目的方位に死角 if final に目的方位に死角 Source 2 Source 1

コスト関数(2出力間Cosine距離) が小さい 2出力が無相関(≒独立)

コスト関数(Cont’d) ICAでは収束しない帯域の分離を行う収束の遅い帯域の学習を加速する反射成分や残響成分を考慮して独立に分離するがより大きいときは死角制御型ビームフォーミングを選択が以下のときは ICAを選択

残響時間 150 msec の場合の分離性能

ビームフォーミングの選択状況例(残響時間 150 msec) ICAの収束が遅い反復初期はビームフォーミングによって最適解近傍へ早く近づくことが可能 ICAでは収束しない帯域は全反復においてビームフォーミングが選択されるある程度学習の進んだ反復後期では反射成分や残響成分も考慮して独立に分離するICAが選択されるビームフォーミングを選択

残響時間 300 msec の場合の分離性能

考察 • 提案法による分離性能は従来法を上回る(RT150 msec : 4.6 dB, RT 300 msec : 1.5 dB) • 演算量を考慮しても提案法は収束が速い • 反復学習内において • 反復初期では学習の遅いICAよりも死角制御型　　　ビームフォーミングが選ばれて学習が加速される • 学習の進んだ反復後期ではICA が選択されて　　　反射成分や残響成分も考慮して分離が行われる • ICAでは収束しない帯域では反復全般において　　　死角制御型ビームフォーミングが選ばれる

分離音声の一例 • 残響時間 150 msec • 混合音声(男性、女性) • 従来法による分離音声(女性) • 提案法による分離音声(女性) • 残響時間 300 msec • 混合音声(男性、女性) • 従来法による分離音声(女性) • 提案法による分離音声(女性)

今後の展開 • ICAによるBSSはどこへ行くのか? • 数理解析上での進展はほぼ飽和ぎみ • 実際の音環境を取り扱えるには未だに至っていない • 共通の音源分離用データベースによる相互比較 • 独立成分分析とビームフォーミングを融合した高性能BSSシステムに関しては • 2素子以上のシステムへの拡張 • オンライン学習化（動く音源の分離）現在：　解ける問題のみ机上で解いていた今後：　実環境においていかにしてICAの実力を発揮させるか

今後の展開２ • 時間-周波数領域ＩＣＡに関する限界 • 周波数分割数を増加　⇒　残響には対応可能しかし分離性能は劣化 • 分割数増加により狭帯域信号間の独立性評価が困難に • Permutationの影響？（荒木，西川　他，2001）周波数領域ＩＣＡにこだわらないより残響に強い手法の提案が望まれる

帯域分割数 vs. 分離精度 分離性能劣化！

実験結果：従来BSS法との比較１ 学習区間=5 sec

実験結果：従来BSS法との比較2 学習区間=3 sec 5及び3秒で学習した場合どの残響下でも提案法が有効

実験結果：従来BSS法との比較３ 学習区間=１ sec 学習区間が短い場合Murata法では劣化大提案法では指向特性のみを使用するため劣化小

アレー信号処理を用いた ブラインド音源分離の基礎