1 / 20

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information. 指導教授:吳智鴻 學生:蔡依錞. 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較 。 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度 。 情緒變數: sadness, happiness, anger and neutral 資料庫 :來自一 位女性 演員,請他 念 258 個句子,同時表達這些情感。

miyoko
Download Presentation

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information 指導教授:吳智鴻 學生:蔡依錞

  2. 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。 • 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度。 • 情緒變數:sadness, happiness, anger and neutral • 資料庫:來自一位女性演員,請他念258個句子,同時表達這些情感。 • 三種辨別情緒的系統:audio,facial expression and bimodal information • 並用三個攝影鏡頭來捕捉臉部表情,頻率為120HZ。 • 102個偵測點,且要求他用四種不同的表情念四次,而錄音室在一個極安靜的房間,有48kHz(千赫)的採樣率。 摘要

  3. The best features from both unimodal systems were used asinput in the bimodal classifier. They showed that the performance significantly increased from 69.4% (video system) and 75% (audio system) to 97.2% (bimodal system). bimodal emotion recognition system

  4. 為了要比較這三種不同的方法,因此他們都用support vector machine classifier (SVC) with 2ndorderpolynomial kernel functions • 不過這三個系統的資料庫都是用leave-one-out cross validation method來訓練和測試。 研究方法

  5. 應用軟體:Praatspeech processing software • 音調和強度的平均值、標準差、範圍、最大最小值、中位數,都會被輸入進去討論。 • 說話與不說話的比率也會納入考量。 語音情感辨識系統

  6. 把一句句子收集到的data都縮減成4維度的特徵向量,再輸入分類器。把一句句子收集到的data都縮減成4維度的特徵向量,再輸入分類器。 • 將獲取的資料做正規化: • 1.每個frame都以鼻子標記點為中心 • 2.用一個表情一般,閉嘴巴的frame當作參考frame • 3.每個frame都以三個藍色點為基準點 • 4.每個frame分為五個區塊:forehead,eyebrow, low eye, right cheek and left cheek area (see Figure 2). 臉部情感辨識系統(1)

  7. 臉部情感辨識系統(2)

  8. 用PrincipalComponent Analysis(PCA)方法來減少每個frame的特徵數量至10維度。不過嘴唇附近的標記都沒有考慮,因為講話過程中可能被辨識為微笑或其他。 臉部情感辨識系統(3)

  9. low eye area vector的前兩個組成成分如圖3,可見不同的情緒分布在不同的叢集,所以重要的線索可從這10維的特徵萃取出來。 臉部情感辨識系統(4)

  10. 對每個frame,10維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組,如HMM對每個frame,10維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組,如HMM • 此研究的特徵向量會先從每個聲音的低微特徵向量取得,做預備處理。 • 用K=3來將這五個區塊的10維特徵分類出來,成為不同的叢集。 • 然後就分類後的frames數量,獲得在每個聲音階級的4維向量。 臉部情感辨識系統(4)

  11. feature-level fusion: • 兩個都用同一個分類器。連續的特徵選取技術,盡可能提高分類器的效能。特徵選取數量為10。 • decision level fusion: • 不同模組彼此用各自的分類器,然後再統一標準來整合。 • 有maximum(最大值), average(每個系統的加權平均值和最大值), product(乘以最大值), weight(不同的系統有不同的權重)。 Bimodal system

  12. 因為不同情緒有時的聲音之力量和音調會差不多,所以比較難被分類,如高興和生氣、難過和一般因為不同情緒有時的聲音之力量和音調會差不多,所以比較難被分類,如高興和生氣、難過和一般 研究結果-Acoustic emotion classifier

  13. Eyebrow效能最差。 • Hapiness沒有任何失誤。 研究結果-System based on facial expressions(1)

  14. In general, the results are very similar. 研究結果-System based on facial expressions(2)

  15. Hapiness有相當高的準確度。 研究結果-System based on facial expressions(3)

  16. As it was expected, the recognition rate of anger and neutral state was higher than unimodal systems. 研究結果-Bimodal system(1)

  17. 可看到這結果跟facial expression classifier(也就是Table4)比較相似。 • 因此這樣的方法不適用來混和這兩個系統比較,因為聲音的系統可說是完全被忽略掉。 研究結果-Bimodal system(2)

  18. anger (84%) and neutral states (84%)比Table4facial expressionclassifier (79%、81%)好;但是比Table5feature-level bimodal classifier(95%、92%)差。 • happiness (98%) and sadness (90%)比Table5準確性高很多。 • 因此結果顯示,decision-level fusion這個方法在每個情緒的辨識度都增加,也提高bimodal system效能。 研究結果-Bimodal system(3)

  19. 研究證實,用多模組系統效果比單一系統來辨識情緒來的好(5%)。研究證實,用多模組系統效果比單一系統來辨識情緒來的好(5%)。 • 結果顯示,某兩種情緒在其中一種形式會混淆的時候,在其他種形式就容易被分辨。如生氣和高興聲音辨識系統結果無法分辨,但在臉部情感辨識系統卻截然不同。 • 因為這個研究的資料庫完全是根據一位女性所完成,所以如果要應用到其他人,可能會跟預期的不同。如要做此議題,可能要收集更多其他人的資料,才能更準確。 • 此研究的另一個限制是視覺資料都是透過標記取得,在現實生活中較不可行。 Discussion

More Related