300 likes | 620 Views
階層的領域分割法に基づく 木構造条件付確率場による一般物体認識. 神戸大学大学院工学研究科 奥村 健志 okumura@me.cs.scitec.kobe-u.ac.jp 神戸大学自然科学系先端融合研究環 滝口 哲也 , 有木 康雄 {takigu, ariki}@kobe-u.ac.jp. 研究背景と動機 (1/4). ロボット産業の発展 仮想現実感,拡張現実感の進歩. 社会的状況とその問題点 HDD の大容量化 携帯電話やデジタルカメラの普及. 大量のタグなし動画像が存在 → 人手による分類・検索が困難. 計算機による画像の「理解」
E N D
階層的領域分割法に基づく木構造条件付確率場による一般物体認識階層的領域分割法に基づく木構造条件付確率場による一般物体認識 神戸大学大学院工学研究科 奥村 健志 okumura@me.cs.scitec.kobe-u.ac.jp 神戸大学自然科学系先端融合研究環 滝口 哲也, 有木 康雄 {takigu, ariki}@kobe-u.ac.jp
研究背景と動機 (1/4) • ロボット産業の発展 • 仮想現実感,拡張現実感の進歩 • 社会的状況とその問題点 • HDDの大容量化 • 携帯電話やデジタルカメラの普及 • 大量のタグなし動画像が存在 • →人手による分類・検索が困難 計算機による画像の「理解」 → ヒトの視覚能力との大きな隔たり • (一般)物体認識の研究が求められている wall computer 認識 book human desk chair
研究背景と動機 (2/4) 領域分割 特徴量抽出・グラフ化 ラベル推定 tree cow grass • 従来アプローチ • 条件付確率場(CRF: Conditional Random Field)を用いた推定手法
研究背景と動機 (3/4) 領域分割 • 問題点 • 分割誤りを最小限に抑えるため,過分割を行う必要がある • 各領域から抽出される特徴量の識別性能の低下 • 物体のスケール変化への頑健性の低下
研究背景と動機 (4/4) coarse fine • 問題解決へのアプローチ • 階層的領域分割法に基づく木構造条件付確率場を提案 • 階層的領域分割法により複数スケールの特徴量を抽出 • 木構造条件付確率場によりクラス共起を考慮した上で 各層のクラス推定結果を統合
提案手法 (1/2) 入力画像 階層的領域分割 特徴量抽出(色、テクスチャなど) クラスごとの信頼度算出 Gentle Adaboost Segmentation by Weighted Aggregation (SWA) fine coarse
提案手法 (2/2) : ノード(各領域) : エッジ(上層と下層を結ぶ) : クラスの信頼度 : クラス共起情報(平滑化項) 木構造条件付確率場 (TCRF: Tree Conditional Random Field)
提案手法 (2/2) : メッセージ 確率伝播法 (BP: Belief Propagation) 認識結果 : rhino/hippo 木構造条件付確率場 (TCRF: Tree Conditional Random Field) : water : snow : vegetation
High energy cut 階層的領域分割法 エネルギー関数: Low-energy cut クラスタのサイズ: 評価関数: → 最小化 segment (固有値問題) [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000 • Segmentation by Weighted Aggregation (SWA)[Sharon, 2000] • クラスタ内の類似度は大きく,クラスタ間の類似度は小さくする • クラスタのサイズは均一にする
木構造条件付確率場 : エネルギー関数 (モデル式) : ポテンシャル関数 (クラス分布) : ポテンシャル関数 (クラス共起) : クラス変数 (目的変数) : 観測変数 (クラス信頼度) : モデルパラメータ (学習が必要) 木構造グラフのモデルで各層・各領域のクラス信頼度を統合
木構造条件付確率場 例えば… snow rhino cat water sky C種類のクラスに対する 信頼度の分布 木構造グラフのモデルで各層・各領域のクラス信頼度を統合
木構造条件付確率場 例えば… water rhino cat rhino cat water の働き 平滑化(対角要素) クラス共起(非対角要素) 木構造グラフのモデルで各層・各領域のクラス信頼度を統合
評価実験 (1/3) : rhino/hippo : polar bear : water : snow 88.0% : vegetation : ground : sky 93.6% 入力画像 正解ラベル 認識結果 • 実験データ • Corel dataset (7クラス,100枚,画像サイズ: 180×120) • 評価方法 • CV法 • 画素毎に正誤を判定
評価実験 (2/3) • 比較手法 • Logistic Regression (LR) : 領域間の関係を考慮しないモデル • Conditional Random Field (CRF) : 階層化をしない従来のCRF • ハイパーパラメータ • 実験結果(認識率) 2.2%
評価実験 (3/3) 入力画像 正解ラベル LR CRF TCRF (提案手法) : rhino/hippo : vegetation : polar bear : ground : water : snow : sky
まとめと今後の方針 • まとめ • 階層的領域分割法に基づく木構造条件付確率場による 一般物体認識手法を提案 • 異なるスケールの特徴に基づくクラス信頼度を統合することにより クラス間の境界付近に生じる誤認識を特に改善 (認識率 2.2%↑) • クラス “sky” をクラス “water” と多く誤認識していることなどから 特徴量・コンテキストレベルで改善を図る必要がある • 今後の方針 • 2次元・3次元の幾何的な特徴・コンテキストの利用を検討 • 幾何的なコンテキストの例 : クラスの位置関係,奥行き情報 etc. • 単一画像からの3次元形状復元手法をサーベイ
ご清聴ありがとうございました あと3分ほどお時間をいただいて 今後の研究について発表します
単眼画像からの擬似3次元化 → 専用装置を必要とせず、1枚の画像から3次元化が可能な手法が求められる Automatic Photo Popupと呼ばれる既存手法をベースに より高精度な3次元化手法を検討 • 研究背景と目的 • 現在、3次元動画像をみるには専用の装置が必要 • 動画の3次元化手法はstructure form motionなど確立しているが、画像の3次元化に有効な手法は確立していない
人検出の機能の追加 → 個別に物体検出を行って従来のラベリング結果と統合 → 検出結果をシードとしたグラフカットによる自動切り出し を行う(予定) • 従来のラベリング:3クラス(水平物、垂直物、空) • 問題点 • 画像内の個々の物体(人、車、木など)の認識が困難 • HOG特徴を用いたSVMによる人検出を実装 • 問題点 • 人領域を矩形でしか切り出せず粗い結果になる
今後の方針 • 別の擬似3次元化のアプローチとの統合 • ステレオカメラで撮った奥行き画像を教師画像とした推定 • 1枚の画像に対して擬似的に視差をつける手法 • 大まかな構図を捉える手法に、より詳細な奥行き情報を加えることで、細かい誤りを訂正する狙い
関連研究 [He, 2004] Xuming He, Richard S. Zemel, and Miguel A. Carreira-Perpinan. Multiscale conditional random fields for image labeling. In CVPR, pp. 695-702, 2004 [Kumar, 2005] Sanjiv Kumar and Martial Hebert. A hierarchical field framework for unified context-based calassification. In ICCV, pp. 1284-1291, 2005 [Awasthi, 2007] Pranjal Awasthi, Aakanksha Gagrani, and Balaraman Ravindran. Image modeling using tree structured conditional random fields. In IJCAI, pp. 2060-2065, 2007 • 他の階層的手法との比較 • 提案手法のみ複数スケールの特徴量を考慮可能
階層的領域分割法 これらのプロセスを繰り返し 行うことで領域が階層化される aggregatek aggregatel [Sharon, 2000] Eitan Sharon, Achi Brandt, and Ronen Basri. Fast multiscale image segmentation. In CVPR, pp. 70-77, 2000 • Segmentation by Weighted Aggregation (SWA)[Sharon, 2000] • Recursive Coarsening • Weighted Aggregation
特徴量 Bag of Features [Csurka, 2004] • 色特徴 • RGB, HSV, YCrCb, Lab • テクスチャ特徴 • Gabor Filter, LoG Filter • 形状特徴 • 領域の面積,周囲長 • 位置特徴 • 領域の重心座標 • Gentle Ababoost • ・ブースティング学習の一種 • ・(層数)×(クラス数)個の識別器を学習データ • から個々に学習し,クラスごとの信頼度を算出 fine coarse
木構造条件付確率場 : rhino/hippo : water : snow : vegetation (b)全体図 (a)周辺分布の計算 • クラス推定 • エネルギー関数Pを最大化する最適ラベル y*を求める • 確率伝播法(Belief Propagation)により周辺分布を推定する • 隣接ノードからのメッセージの積で周辺分布を計算する • 閉路が存在しない木構造であるため厳密推定が可能
Segmentation by Weighted Aggregation • 疎補間行列 P の決定 • TODO
Segmentation by Weighted Aggregation ただし, • 状態変数 u の導出 • 固有値問題に帰着
Bag of Features 学習用画像 k-meansによる ベクトル量子化 (W個のクラスタに分割) ※Wは手動で決定 : SIFT記述子(128次元の回転不変特徴) 128次元のSIFT記述子空間 Codebook (Visual Wordの辞書) Bag of Featuresによる 画像の表現 (W次元の正規化されたヒストグラム) 出現頻度 クラスタの重心がVisual Word (代表的な局所パターン) 入力画像 Visual Word • Bag of Featuresの利点 • 局所パターンの集合であるため,オクルージョンに強い • 抽象化されたVisual Wordにより,見え方の変化にも強い
木構造条件付確率場 • モデルパラメータ学習 • 正解ラベル付き学習データによりパラメータを学習 • 学習の基準は最大事後確率(MAP: Maximum aPosteriori)推定 • 勾配法の一つである L-BFGS 法により解析的に導出
木構造条件付確率場 • 確率伝播法(BP: Belief Propagation) • TODO