200 likes | 366 Views
Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information. 指導教授:吳智鴻 學生:蔡依錞. 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較 。 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度 。 情緒變數: sadness, happiness, anger and neutral 資料庫 :來自一 位女性 演員,請他 念 258 個句子,同時表達這些情感。
E N D
Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information 指導教授:吳智鴻 學生:蔡依錞
此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。 • 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度。 • 情緒變數:sadness, happiness, anger and neutral • 資料庫:來自一位女性演員,請他念258個句子,同時表達這些情感。 • 三種辨別情緒的系統:audio,facial expression and bimodal information • 並用三個攝影鏡頭來捕捉臉部表情,頻率為120HZ。 • 102個偵測點,且要求他用四種不同的表情念四次,而錄音室在一個極安靜的房間,有48kHz(千赫)的採樣率。 摘要
The best features from both unimodal systems were used asinput in the bimodal classifier. They showed that the performance significantly increased from 69.4% (video system) and 75% (audio system) to 97.2% (bimodal system). bimodal emotion recognition system
為了要比較這三種不同的方法,因此他們都用support vector machine classifier (SVC) with 2ndorderpolynomial kernel functions • 不過這三個系統的資料庫都是用leave-one-out cross validation method來訓練和測試。 研究方法
應用軟體:Praatspeech processing software • 音調和強度的平均值、標準差、範圍、最大最小值、中位數,都會被輸入進去討論。 • 說話與不說話的比率也會納入考量。 語音情感辨識系統
把一句句子收集到的data都縮減成4維度的特徵向量,再輸入分類器。把一句句子收集到的data都縮減成4維度的特徵向量,再輸入分類器。 • 將獲取的資料做正規化: • 1.每個frame都以鼻子標記點為中心 • 2.用一個表情一般,閉嘴巴的frame當作參考frame • 3.每個frame都以三個藍色點為基準點 • 4.每個frame分為五個區塊:forehead,eyebrow, low eye, right cheek and left cheek area (see Figure 2). 臉部情感辨識系統(1)
用PrincipalComponent Analysis(PCA)方法來減少每個frame的特徵數量至10維度。不過嘴唇附近的標記都沒有考慮,因為講話過程中可能被辨識為微笑或其他。 臉部情感辨識系統(3)
low eye area vector的前兩個組成成分如圖3,可見不同的情緒分布在不同的叢集,所以重要的線索可從這10維的特徵萃取出來。 臉部情感辨識系統(4)
對每個frame,10維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組,如HMM對每個frame,10維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組,如HMM • 此研究的特徵向量會先從每個聲音的低微特徵向量取得,做預備處理。 • 用K=3來將這五個區塊的10維特徵分類出來,成為不同的叢集。 • 然後就分類後的frames數量,獲得在每個聲音階級的4維向量。 臉部情感辨識系統(4)
feature-level fusion: • 兩個都用同一個分類器。連續的特徵選取技術,盡可能提高分類器的效能。特徵選取數量為10。 • decision level fusion: • 不同模組彼此用各自的分類器,然後再統一標準來整合。 • 有maximum(最大值), average(每個系統的加權平均值和最大值), product(乘以最大值), weight(不同的系統有不同的權重)。 Bimodal system
因為不同情緒有時的聲音之力量和音調會差不多,所以比較難被分類,如高興和生氣、難過和一般因為不同情緒有時的聲音之力量和音調會差不多,所以比較難被分類,如高興和生氣、難過和一般 研究結果-Acoustic emotion classifier
Eyebrow效能最差。 • Hapiness沒有任何失誤。 研究結果-System based on facial expressions(1)
In general, the results are very similar. 研究結果-System based on facial expressions(2)
Hapiness有相當高的準確度。 研究結果-System based on facial expressions(3)
As it was expected, the recognition rate of anger and neutral state was higher than unimodal systems. 研究結果-Bimodal system(1)
可看到這結果跟facial expression classifier(也就是Table4)比較相似。 • 因此這樣的方法不適用來混和這兩個系統比較,因為聲音的系統可說是完全被忽略掉。 研究結果-Bimodal system(2)
anger (84%) and neutral states (84%)比Table4facial expressionclassifier (79%、81%)好;但是比Table5feature-level bimodal classifier(95%、92%)差。 • happiness (98%) and sadness (90%)比Table5準確性高很多。 • 因此結果顯示,decision-level fusion這個方法在每個情緒的辨識度都增加,也提高bimodal system效能。 研究結果-Bimodal system(3)
研究證實,用多模組系統效果比單一系統來辨識情緒來的好(5%)。研究證實,用多模組系統效果比單一系統來辨識情緒來的好(5%)。 • 結果顯示,某兩種情緒在其中一種形式會混淆的時候,在其他種形式就容易被分辨。如生氣和高興聲音辨識系統結果無法分辨,但在臉部情感辨識系統卻截然不同。 • 因為這個研究的資料庫完全是根據一位女性所完成,所以如果要應用到其他人,可能會跟預期的不同。如要做此議題,可能要收集更多其他人的資料,才能更準確。 • 此研究的另一個限制是視覺資料都是透過標記取得,在現實生活中較不可行。 Discussion