280 likes | 399 Views
手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究. ○ 計画研究 ウ 白 井 良 明 島 田 伸 敬 (立 命 館 大 学) 三 浦 純 (大 阪 大 学). 3 年間の研究目的. 手話者をテレビカメラで観測し、両手の動きと形状ならびに顔の表情や口の動きを解析する。 ロバストにするための光源や背景の設定方法、画像特徴の種類と抽出法、話者の個人差や環境変動への適応法などを研究。. 3 年間の研究. 画像系列から、複雑背景での手の動きと形状を解析した。 手指情報から手話を認識する研究をした。
E N D
手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究手指ならびに非手指情報の画像計測と統合に基づく実用的手話翻訳の研究 ○計画研究 ウ 白 井 良 明 島 田 伸 敬 (立 命 館 大 学) 三 浦 純 (大 阪 大 学)
3年間の研究目的 手話者をテレビカメラで観測し、両手の動きと形状ならびに顔の表情や口の動きを解析する。 ロバストにするための光源や背景の設定方法、画像特徴の種類と抽出法、話者の個人差や環境変動への適応法などを研究。
3年間の研究 画像系列から、複雑背景での手の動きと形状を解析した。 手指情報から手話を認識する研究をした。 ロバストな認識を行うため、サンプルデータの自動合成を提案した。 顔の特徴を抽出し、表情を認識した。 ここでは、手指情報からの手話認識を述べる。
研究の背景 • 音声→手話の変換システム • 音声(またはテキスト)に対応する手話をCG表示(比較的早期に実現) • 手話→音声の変換システム • データグローブ等で手指形状データを取得 (手話者の負担が大きい) • 手のシルエットと3次元も出るとの照合 (我々の研究だが時間がかかる) 被験者の負担の少ない、 設置の容易な手話認識システムへの要望
システムの概要 • 手話→日本語音声の変換システムの構築 手話 手話特徴 特徴抽出(画像処理) 学習 HMMによる学習 固定カメラからの画像 学習データベース 手話特徴 マッチング HMMによる認識 認識結果(日本語)
特徴抽出 • 手話画像から学習・認識で用いる特徴系列を抽出するための画像処理 • カラーの背景差分による人物領域抽出 • 肌色領域抽出 • 肘・手首抽出 • 領域の追跡と隠蔽(手や顔の重なり)検出、分離
特徴量出(肌色の検出) • 初期のフレームから肌色をサンプル • サンプルから肌色を決定 肌色分布(HS色空間) 肌色検出 90%の等確率楕円
隠蔽時の処理 保存してある 顔テンプレート画像 隠蔽状態の肌色領域 ブロックごとに 相関を計算 相関の高い部分(顔領域) 相関の低い部分(手領域) 大体の手領域を取得できるため、 ・テンプレートマッチング精度の向上 ・手の形状が変化する際に利用
手話特徴量 位置に関する特徴量 形状に関する特徴量 突起数 手の面積 顔からの方向 顔からの距離 慣性主軸方向 円形度 動きの 速度・方向
顔からの距離 顔からの方向 手の速度のx,y方向成分 顔からの距離の対数表示 顔からの距離の対数表示の変化量: 顔からの方向 顔からの方向の変化量 位置・速度に関する特徴量 黒 • 顔の近くで行う手話ほど、手の位置や細かい動きが重要 • 両手の手話では左右の手の相対位置が重要 小さい 合う 両手の手話では左手から見た右手の相対座標を特徴として加える
初期状態 最終状態 移動中 静止中 移動中 HMMによる学習 • HMMはLeft-to-Right • 単語ごとに状態数を設定する必要がある • 手の移動や手の形の変化時に対して状態が遷移する 状態数決定の例(状態数:5)
速度による状態分割 速度の閾値によって運動区間(M)と静止区間(S)に分割 • ノイズによる運動区間は静止区間とする • 静止区間が短かければ、運動区間の境界とする • 運動区間でも谷が深ければ分割 ③ ① ① ② M M M M S
速度と方向による状態分割 90 動きの速度 60 30 運動区間内で、運動方向が大きく変化しすれば、分割 0 4 動きの方向 方向変化 0 (rad) -8 -16 0 50 25 フレーム
速さが遅く、顔からの距離が小さい区間で、顔からの方向が大きく変化していれば区間の中央で分割する速さが遅く、顔からの距離が小さい区間で、顔からの方向が大きく変化していれば区間の中央で分割する 顔からの方向を用いた状態分割 速さ 従来の状態分割法 黒 • 動きの速さ • 動きの方向 顔からの距離 顔の近くでゆっくり動く手話では、運動区間と静止区間を分割できない 顔からの方向
手話単語の認識実験 • 一単語あたり3シーケンス • 用いたデータ • 状態分割において3シーケンスとも状態数の揃ったもの15単語(両手:5単語・片手:10単語) • 組み合わせを変えながら、3シーケンスのうち2つを学習用、残りを認識用に用いた • 2シーケンスで状態数が等しく、残りの1つは静止区間の数が異なるもの(両手:7単語・片手:1単語) • 状態数の等しい2つを学習用(状態数の数を変えて2つのモデルを作成)、残りを認識用に用いた
認識結果 • 両手の手話では高い認識率が得られた • 片手の手話での認識率は低かった • テンプレートマッチングの失敗による影響 • 動きのよく似た手話が多い • 学習データが少ない
赤 ヒ形 頭 データベース 黒 ク形 レ ヒ ズボン レ形 スカート ク ・・・ 手形状データから学習データの合成 • 手話単語を手の形によって分類 • それぞれの手話単語から対応する手の形状データを取り出し、データベースを作成 • データベースから同じ手形のものを選び、対応部分と入れ替え(位置・速度の特徴はそのまま使用) 赤 ヒ ヒ
赤 ヒ形 頭 データベース 黒 ク形 レ ヒ ズボン レ形 スカート ク ・・・ 手形状データから学習データの合成 • 手話単語を手の形によって分類 • それぞれの手話単語から対応する手の形状データを取り出し、データベースを作成 • データベースから同じ手形のものを選び、対応部分と入れ替え(位置・速度の特徴はそのまま使用) 赤 ヒ ヒ
ウ オ イ ク コ サ ヒ テ ヌ レ モ レ(曲) ロ 手形による手話単語の分類 半円型 お金 長い・短い
HMMによる学習・認識実験 両手の手話17単語、片手の手話21単語 • 各単語、各手話者に3つの元データ • 2人の手話者のデータ(計6種類) • 認識データは1つ。 • 学習データはテストデータを除くデータと、 それから合成されたデータ2つ • 5つを学習データ、1つを認識データとして組み合わせを変えて3回実験 新しく生成されたサンプルを加える場合
Experimental result expert beginner
合成データの追加により成功した例 好き 誤認識 赤 手形による合成データの追加により成功 赤 誤認識 嫌い
Example of failure black head Overlapping hand shape is unstable
データ合成の今後の課題 今後の課題 • 様々な状況を想定した手形データを増やし、合成データをより多く用いて学習 • 手の動きを含めた学習データの生成
手話認識の今後の課題 • 多数のサンプルに対する学習と実験 • 文章の認識 • コーパスの作成(sINDEX の発展) 手話の表現(形態素、音素、変形、両手…)