290 likes | 514 Views
A Multimodal Database for Affect Recognition and Implicit Tagging. 指導教授:吳智鴻 學生:蔡依錞. MAHNOB-HCI 是 一個多 模式紀錄資料庫, 可以同步響應目標情感辨識以及隱藏式標籤研究。 http ://ibug.doc.ic.ac.uk/resources/mahnob-hci-tagging-database/
E N D
A Multimodal Database forAffect Recognition and Implicit Tagging 指導教授:吳智鴻 學生:蔡依錞
MAHNOB-HCI是一個多模式紀錄資料庫,可以同步響應目標情感辨識以及隱藏式標籤研究。http://ibug.doc.ic.ac.uk/resources/mahnob-hci-tagging-database/MAHNOB-HCI是一個多模式紀錄資料庫,可以同步響應目標情感辨識以及隱藏式標籤研究。http://ibug.doc.ic.ac.uk/resources/mahnob-hci-tagging-database/ • 用此資料庫來同步紀錄facial videos, audio and vocal expressions, eye gaze, and physiological signals simultaneously. • 受測者:27位來自不同文化背景的男女。 摘要
第一個實驗:受測者觀看20個影片,說出一些字詞表達他們的情感。第一個實驗:受測者觀看20個影片,說出一些字詞表達他們的情感。 • 第二個實驗:短片和圖片先秀過一次(沒有任何tag),然後再秀出有正確和不正確tag的。 摘要(2)
心理學家建議觸發情緒的影片最好在1-10分鐘之間。心理學家建議觸發情緒的影片最好在1-10分鐘之間。 3.1Stimuli and Video Selection
6個不同位置攝影機。 • All cameras recorded with aresolution of 780 *580 pixels at 60 frames per second. • 單色是為了更好的解析度和降低動作的模糊。 3.2 Facial Expressions and Audio Signals
Tobii X1205 eye gaze tracker • 眼睛凝視點位置 • 瞳孔直徑 • 眨眼率 • 眼睛與tracker的距離 3.3 Eye Gaze Data
生理訊號(心電圖、GSR、呼吸頻率、皮膚溫度),為了減少記憶體和處理器的花費,採樣頻率從1024Hz降至256Hz生理訊號(心電圖、GSR、呼吸頻率、皮膚溫度),為了減少記憶體和處理器的花費,採樣頻率從1024Hz降至256Hz 3.4 Physiological Signals
30位有不同的文化背景的受測者at Imperial College, London.17位女生,13位男生;年齡介於19-40歲之間。 • 有三位受測者因為數據收集不完整,故統計27位。 • record facial videos, audio and vocal expressions, eye gaze, and physiological signals simultaneously. • 第一個實驗: • 每個影片受測者都五個選擇題。 • 第二個實驗: • 受測者僅回答是或否。 4.1 Experimental Protocol
F:CPU週期計數器 4.2 Synchronized Setup
情感變數:neutral, anxiety, amusement,sadness, joy, disgust, anger, surprise, and fear. • 20個影片順序隨機播放,受測者看完影片後要填寫自我評估量表,整個過程約兩分半鐘。所以全程大約50分鐘,30分鐘設置時間不算。 • 問受測者的五個問題: • emotional label/tag, • arousal, • valence, • dominance, • predictability 5.1 Emotion Experiment Paradigm
The emotional labels included neutral, anxiety, amusement,sadness, joy, disgust, anger, surprise, and fear. • 為了簡化介面,提供鍵盤九個按鍵讓受測者使用,問題2-5就是九點量表。 5.1 Emotion Experiment Paradigm(2)
腦波擷取:theta(4 Hz < f < 8 Hz), slow alpha (8 Hz < f < 10 Hz), alpha(8 Hz < f < 12 Hz), beta (12 Hz < f < 30 Hz), and gamma(30 Hz < f) bands were extracted from all 32 electrodes asfeatures. 5.2.1 EEG and Physiological Signals
A leave-one-participant-out cross validation technique 被用來驗證這些分類的效能。 • Animplementation of the SVM classifier from libSVMwithRBF kernel 用來分類這三種模組的樣本。 • 在每個種類特徵分類訓練前,先做one-way ANOVA。 • 三個模組資料集:peripheralphysiological signals, EEG, and eye gaze data. • 混合當中最好的兩種模組資料,來得到多模態混合結果。 5.4 Emotion Recognition Results
In this second experiment, 28 images and 14 video fragmentswere subsequently shown on their own and accompanied bya word tag. • 實驗程序: • 未標記的刺激:展示如照片時間(五秒鐘)。 • 標記的刺激:一樣五秒鐘。 • 問題:A question was displayed on the screen toask whether the participant agreed with the suggestedtag. Agreement or disagreement was expressed bypressing a green or a red button, respectively. • 整個過程大概20分鐘,包括設定。 6.1 Implicit Tagging Experiment Paradigm
臉部特徵點f1~f20。 6.2 Facial Expression Analysis
選擇Hidden Markov Models (HMMs)來分類臉部情感。 • For the implementation of the utilizedHMM, the HMM toolbox for MATLAB was used. • 每個受測者,都需要兩個HMMs來訓練: • 當看到圖片正確tag展示時的臉部表情。 • 當看到圖片不正確tag出現時的臉部表情。 • Adaboost被用來分類eye gazedata. • The general idea of Adaboost is to combine a group ofweak classifiers to form a strong classifier. 6.4 Classification Methods
可看到1、2是比較好的。 6.5 Facial Expression Results
整合臉部和眼動結果,預測率可從73.2提升至75。整合臉部和眼動結果,預測率可從73.2提升至75。 • 實驗結果也證實,受測者的臉部和眼動情感表達,都和多媒體的標籤息息相關。 6.7 Modality Fusion
結果顯示,並不是所有紀錄模組都和其他模組同步呼應。結果顯示,並不是所有紀錄模組都和其他模組同步呼應。 • 在情感相關的研究,選擇合適的刺激素材是一個非常重要的因 素,應該要足夠長來誘發受測者情緒,但也應該要控制不能太長避免無聊。 DISCUSSIONS AND RECOMMENDATIONS