Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information 指導教授：吳智鴻學生：蔡依錞

此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。 • 主要目的：了解這些系統的辨識強弱度，並比較不同的融合方法來提升系統的辨識度。 • 情緒變數：sadness, happiness, anger and neutral • 資料庫：來自一位女性演員，請他念258個句子，同時表達這些情感。 • 三種辨別情緒的系統：audio,facial expression and bimodal information • 並用三個攝影鏡頭來捕捉臉部表情，頻率為120HZ。 • 102個偵測點，且要求他用四種不同的表情念四次，而錄音室在一個極安靜的房間，有48kHz(千赫)的採樣率。摘要

The best features from both unimodal systems were used asinput in the bimodal classifier. They showed that the performance significantly increased from 69.4% (video system) and 75% (audio system) to 97.2% (bimodal system). bimodal emotion recognition system

為了要比較這三種不同的方法，因此他們都用support vector machine classifier (SVC) with 2ndorderpolynomial kernel functions • 不過這三個系統的資料庫都是用leave-one-out cross validation method來訓練和測試。研究方法

應用軟體：Praatspeech processing software • 音調和強度的平均值、標準差、範圍、最大最小值、中位數，都會被輸入進去討論。 • 說話與不說話的比率也會納入考量。語音情感辨識系統

把一句句子收集到的data都縮減成4維度的特徵向量，再輸入分類器。把一句句子收集到的data都縮減成4維度的特徵向量，再輸入分類器。 • 將獲取的資料做正規化： • 1.每個frame都以鼻子標記點為中心 • 2.用一個表情一般，閉嘴巴的frame當作參考frame • 3.每個frame都以三個藍色點為基準點 • 4.每個frame分為五個區塊：forehead,eyebrow, low eye, right cheek and left cheek area (see Figure 2). 臉部情感辨識系統(1)

臉部情感辨識系統(2)

用PrincipalComponent Analysis(PCA)方法來減少每個frame的特徵數量至10維度。不過嘴唇附近的標記都沒有考慮，因為講話過程中可能被辨識為微笑或其他。臉部情感辨識系統(3)

low eye area vector的前兩個組成成分如圖3，可見不同的情緒分布在不同的叢集，所以重要的線索可從這10維的特徵萃取出來。臉部情感辨識系統(4)

對每個frame，10維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組，如HMM對每個frame，10維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組，如HMM • 此研究的特徵向量會先從每個聲音的低微特徵向量取得，做預備處理。 • 用K=3來將這五個區塊的10維特徵分類出來，成為不同的叢集。 • 然後就分類後的frames數量，獲得在每個聲音階級的4維向量。臉部情感辨識系統(4)

feature-level fusion： • 兩個都用同一個分類器。連續的特徵選取技術，盡可能提高分類器的效能。特徵選取數量為10。 • decision level fusion： • 不同模組彼此用各自的分類器，然後再統一標準來整合。 • 有maximum(最大值), average(每個系統的加權平均值和最大值), product(乘以最大值), weight(不同的系統有不同的權重)。 Bimodal system

因為不同情緒有時的聲音之力量和音調會差不多，所以比較難被分類，如高興和生氣、難過和一般因為不同情緒有時的聲音之力量和音調會差不多，所以比較難被分類，如高興和生氣、難過和一般研究結果-Acoustic emotion classifier

Eyebrow效能最差。 • Hapiness沒有任何失誤。研究結果-System based on facial expressions(1)

In general, the results are very similar. 研究結果-System based on facial expressions(2)

Hapiness有相當高的準確度。 研究結果-System based on facial expressions(3)

As it was expected, the recognition rate of anger and neutral state was higher than unimodal systems. 研究結果-Bimodal system(1)

可看到這結果跟facial expression classifier(也就是Table4)比較相似。 • 因此這樣的方法不適用來混和這兩個系統比較，因為聲音的系統可說是完全被忽略掉。研究結果-Bimodal system(2)

anger (84%) and neutral states (84%)比Table4facial expressionclassifier (79%、81%)好；但是比Table5feature-level bimodal classifier(95%、92%)差。 • happiness (98%) and sadness (90%)比Table5準確性高很多。 • 因此結果顯示，decision-level fusion這個方法在每個情緒的辨識度都增加，也提高bimodal system效能。研究結果-Bimodal system(3)

研究證實，用多模組系統效果比單一系統來辨識情緒來的好(5%)。研究證實，用多模組系統效果比單一系統來辨識情緒來的好(5%)。 • 結果顯示，某兩種情緒在其中一種形式會混淆的時候，在其他種形式就容易被分辨。如生氣和高興聲音辨識系統結果無法分辨，但在臉部情感辨識系統卻截然不同。 • 因為這個研究的資料庫完全是根據一位女性所完成，所以如果要應用到其他人，可能會跟預期的不同。如要做此議題，可能要收集更多其他人的資料，才能更準確。 • 此研究的另一個限制是視覺資料都是透過標記取得，在現實生活中較不可行。 Discussion

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information