ユーザの表情に基づく映像コンテンツへのタギング

ユーザの表情に基づく映像コンテンツへのタギングユーザの表情に基づく映像コンテンツへのタギング神戸大学大学院工学研究科　宮原正典，青木政樹，滝口哲也，有木康雄

研究の背景 • テレビのディジタル放送開始→多チャンネル化 • YouTube,ニコニコ動画など動画共有サイトの発達 • ユーザが視聴可能な映像コンテンツが増大 • 見たい番組を簡単に探すのが困難に • 番組自動推薦システムの必要性　　⇒　映像コンテンツへの自動タギング手法

（コンテンツ解析） • 映像シーンの動き • シーンの色変化 • 顔・物体認識（ユーザ解析） • リモコン操作履歴[1] • 好きなキーワード[2] • 顔表情[3] 番組自動推薦システム（番組推薦）タグつきコンテンツデータベース [1]2001,Taka [2]2001,Masumitsu [3]2006,Yamamoto

従来手法の課題と提案 • 従来の顔表情に基づくタギング手法[2006,Yamamoto] • 関心の「有無」の2クラスのみを判定 • 顔の傾きやオクルージョンに弱い ⇒関心「有」をさらに，正の関心，負の関心に詳細化 ⇒特徴抽出にEBGM[1997,Wiskott]の導入 ⇒学習によって，自動的にリジェクトする機能

Display Webcam PC User 想定環境 • ユーザはPCのディスプレイに映るコンテンツを1人で視聴 • ウェブカメラはユーザを撮影 • PCはコンテンツの再生とユーザ顔動画の解析処理想定環境上面図

顔表情認識 EBGM Tag ・Neutral ・Positive ・Negative ・Rejective SVM User’s profile 提案システムの概要特徴抽出 AdaBoost 個人認識無表情画像個人用顔表情識別器

利点 AdaBoostによる顔領域抽出 • Haar-like特徴を用いたAdaBoostにより，正確な顔領域の抽出を行う．[2001,Viola] • 顔領域を切り出すことで，ユーザとカメラとの距離を正規化できる • EBGMにおいて，探索範囲を限定することで，計算時間を短縮

Gabor Wavelet Bunch Graph Jet EBGMによる特徴点抽出・個人認識 [1997,Wiskott] • 画像を，様々な周波数と方向を持ったGaborフィルターで畳み込み，それらの応答の集合をJetとする． • 顔特徴点の各点のJetを組み合わせたものをFace Graphと呼び，あらかじめ複数人からFace Graphを生成して束ねたものをBunch Graphと呼ぶ． • Bunch Graphと入力画像のFace Graphの類似度を計算し，特徴点の探索を行い，特徴点抽出と個人認識を行う．

SVMによる顔表情認識 • EBGMの個人認識により，個人を特定し，その人の無表情画像と個人顔表情識別器を選択する． • EBGMによって抽出された34点の顔特徴点について，無表情のときとの差分を取った，68次元のベクトルを特徴ベクトルとする． • Multiclass SVM(RBFカーネル)により顔表情認識を行う．

顔表情のクラス分類(タグ)定義

実験条件 • 被験者2名(A,B)に1回約17分間の映像コンテンツを4回分視聴させる． • その際，被験者を撮影した動画と，再生されている映像コンテンツを同期させながら，15fpsで記録． • その後，以下のようなインターフェースを用いて，顔表情タギングを手動で行った．

顔動画の手動タギング結果 表：各表情クラスのタギングフレーム数この手動タギング結果つきの顔動画を実験動画と呼び，以降の評価実験で用いる．

AdaBoostによる顔領域抽出の精度について実験を行ったAdaBoostによる顔領域抽出の精度について実験を行った顔表情認識 EBGM Tag ・Neutral ・Positive ・Negative ・Rejective SVM User’s profile 予備実験1 特徴抽出 AdaBoost 個人認識無表情画像個人用顔表情識別器

予備実験1－AdaBoostによる顔領域抽出 • 未検出率は被験者A,Bともに0%だった． • 誤検出率については，以下の表の通り． • 被験者Bは笑うと，顔を大きく上に向ける癖があり，顔以外の部分が顔と誤検出される傾向があった．

顔表情認識 EBGM Tag ・Neutral ・Positive ・Negative ・Rejective SVM User’s profile 予備実験2 EBGMによる個人認識の精度について実験を行った特徴抽出 AdaBoost 個人認識無表情画像個人用顔表情識別器

予備実験2－EBGMによる個人認識 • 個人認識の精度に問題がないことを確認． • EBGMで個人認識をし，個人用の識別器を選択をすることは十分可能といえる．

顔表情認識 EBGM Tag ・Neutral ・Positive ・Negative ・Rejective SVM User’s profile 評価実験 SVMによる顔表情認識の精度について実験を行った特徴抽出 AdaBoost 個人認識無表情画像個人用顔表情識別器

評価実験－SVMによる顔表情認識 • 各被験者について，4本中3本の動画から学習を行い，個人顔表情識別器を生成する．残りの1本についてテストを行う．(クロスバリデーション) • リジェクト機能 • 顔領域抽出で顔領域が発見できなかったフレームは無条件で，Rejectiveに分類 • 顔領域抽出に成功したフレームは，そのまま顔特徴点抽出を行い，学習・認識の対象とする

実験結果－SVMによる表情認識

考察 • 平均再現率は87.6%，平均適合率は88.0%と良好な結果が得られた． • 被験者がPositiveやNegativeと答えていても，表情表出の度合いが小さい場合，システムがNeutralと誤認識するパターンが多い． • 1つのフレームに表情のタグは1つしかないと仮定しているので，中間的な表情をしている場合，誤認識が多発する．

デモ映像

まとめと今後の方向 • 事前学習の手間をできるだけ減らすようにする • 複数人同時視聴に対応 • 顔方向・視線方向の追跡 • 表情以外のマルチモーダル情報も使い，番組推薦を行うシステムの構築 EBGMを特徴点抽出に用いることで，Neutral, Positive, Negative, Rejectiveという４つのクラスに拡張しても高い再現率，適合率が得られた

実験結果－Confusion matrix 被験者A

実験結果－Confusion matrix 被験者B

ユーザの表情に基づく 映像コンテンツへのタギング