半球面麥克風陣列架構之聲源定位系統之研究

半球面麥克風陣列架構之聲源定位系統之研究 研究生：陳瑾鍵指導老師：謝銘原博士南台科技大學電機工程系 Robotic Interaction Learning Laboratory

大綱 • 摘要 • 前言 • 研究動機與目的 • 三維聲源定位系統之系統架構 • 三維聲源定位系統之系統架構 • 三維聲源定位系統之動作流程 • 三維聲源定位系統之硬體系統 • 半球面聲源接收系統 • 類比數位轉換系統 Robotic Interaction Learning Laboratory

大綱 • 聲源方位判定系統架構分析 • 能量門檻值設定 • 聲源方位初步判定 • 聲源定位技術 • 聲源高低判斷 • 模糊聲源定位演算法 • 模糊聲源遠近演算法 • 實驗結果 • 結論 Robotic Interaction Learning Laboratory

摘要 • 本文提出一聲源定位系統之設計方法，可應用於機器人聽覺系統之聽聲辨位功能。 • 此系統之聲源接收系統是由12顆電容式麥克風分上下兩層置於一直徑19公分的半球面上；上層圓周以間隔90°排列4顆麥克風，下層圓周則以間隔45°排列8顆麥克風。為一球面麥克風陣列 • 本論文利用模糊聲源定位演算法，依麥克風間的能量關係推算出較確切的聲源方位，並在不同的環境條件下作測試。 Robotic Interaction Learning Laboratory

前言(1/2) • 聲音可說是人類與自然界中最早使用的訊號，也是最直接的通訊方式，人與人之間之互動大多透過聲音，所以聽覺系統方面的研究變成當前ㄧ重要課題。 • 機器人的聽覺功能多利用取音裝置（如麥克風）接受聲波後，轉換成電壓來進行語音及語意之辨識，這如同人類的耳朵接收到聲音，轉換成訊號刺激大腦一般。 Robotic Interaction Learning Laboratory

前言(2/2) • 避免接收過多的雜訊，影響辨識的結果 • 頭戴式麥克風 • 使用者不便，長期配帶造成不舒服。 • 免持式麥克風陣列 • 可克服環境噪音和回音對語音訊號的影響，還原出較乾淨的語音。 • 立體式麥克風陣列 • 立體式麥克風陣列 • 優點：多方考慮說話者的方位，在判斷角度可以更加精確。 • 缺點：三維的快速傅立葉轉換，增加了運算上的複雜性與花費時間。 • 平面式麥克風陣列 • 優點：減少計算的繁雜，快速即時做出對應動作。 • 缺點：偵測高度受限。 Robotic Interaction Learning Laboratory

研究動機與目的(1/2) • 許多科學家或是工程師所努力的目標 • 將機器人融入我們的生活之中，成為家庭的一份子 • 兼顧實用性與人性化的考量 • 賦予機器人擁有像人一樣的感知 • 未來智慧型機器人若要提高人機之間的互動功能，以聲音為主的互動是不可或缺的重要部份，要有好的語音互動溝通，聲源定位系統扮演著極重要的一環。 Robotic Interaction Learning Laboratory

研究動機與目的(2/2) • 人類兩個耳朵可以完成的聽覺功能，聽覺系統卻無法只依據兩個聲音感知器來達成，因此麥克風陣列的研究與運用，扮演著聽覺系統功能與效率的關鍵。 Robotic Interaction Learning Laboratory

三維聲源定位系統之系統架構 • 本文所提出的系統架構大致可分成聲源接收系統、類比數位轉換系統、聲源方位判定系統、馬達驅動系統。 Robotic Interaction Learning Laboratory

三維聲源定位系統之動作流程 Robotic Interaction Learning Laboratory

音訊接收元件(1/2) • 電容式麥克風對於來自不同角度聲音的收音靈敏度可分為 • 全指向式 • 單一指向式 • 雙指向式圖3. 電容式麥克風指向示意圖 Robotic Interaction Learning Laboratory

音訊接收元件(2/2) • 本文選擇使用今音電子公司所開發的ECM-60P全向性電容式麥克風 • 對聲音訊號反應靈敏 • 體積小 • 便宜容易運用圖5. ECM-60P 內部電路圖圖4. ECM-60P 外觀圖 Robotic Interaction Learning Laboratory

音訊接收電路設計與實體 圖6. 本系統之麥克風電路圖圖7. 本系統麥克風電路實體 Robotic Interaction Learning Laboratory

半球面麥克風陣列 • 為了可以判斷出聲源的高低關係，本文研製一球面麥克風陣列 • 球面直徑：19cm • 上層配置：4顆電容式麥克風，間隔為90° • 下層配置：8顆電容式麥克風，間隔為45° • 為了增加麥克風收音的指向性，本論文特別設置遮罩裝置，將其裝置於球面麥克風陣列下層之8顆麥克風上圖8. 本系統遮罩實體圖圖9. 本系統之麥克風陣列實體圖 Robotic Interaction Learning Laboratory

聲源放大與濾波電路設計(1/2) • 本文所設計之聲源放大濾波電路之特點 • IC上本文選擇使用LM324 • 二級放大電路(Gain：10~10000) • 帶通濾波器(HPF：20Hz LPF：7KHz) • 擁有穩壓IC可直接供給麥克風電路所需的電壓 • 電路板實體只有6×7的大小 Robotic Interaction Learning Laboratory

聲源放大與濾波電路設計(2/2) 圖10. 以LM324所規劃的二級放大電路以及帶通濾波電路圖11. 二級放大與帶通濾波電路實體圖 Robotic Interaction Learning Laboratory

電源整合電路與電源選擇 • 電源整合電路 • 總電源分接12組電源供給電路 • 選用外接式電池做為電源供給 • 體積小，方便與機器人結合 • 供電較穩定圖12. 電源整合電路圖圖14. 外接式電池時體圖圖13. 電源整合電路實體圖 Robotic Interaction Learning Laboratory

類比數位轉換系統 • USB-4711 • 具有16通道的類比輸入可提供本系統 • USB介面提供系統與電腦間最佳傳輸 • 集線器於設備上增加空間運用 • 8 digital input/output channels • 2 analog output channel 圖15. USB-4711實體圖 Robotic Interaction Learning Laboratory

聲源方位判定系統架構分析 • 半球面麥克風下層配置 • 8顆電容式麥克風以等角度分隔（45°）配置 • 每顆麥克風都有各自代表的角度圖16. 半球面麥克風陣列下層配置之示意圖 Robotic Interaction Learning Laboratory

設計能量門檻值 • 從能量曲線上做判斷，能量大於某個門檻值就是語音，否則就不是。 • 本文採用每0.5sec就擷取音訊一次，這個音段即為一個音框大小，直接去對此音段去做分析，不再切割音框。 • 經過測試發現，在一般室內的空間中，雜訊經由球面麥克風陣列接收進來後，透過二級放大、濾波後所輸出能量大小大約低於0.5V，因此本研究以0.5V為能量門檻值，來區分是否為有聲段或是無聲段。 Robotic Interaction Learning Laboratory

源方位初步判定 • 經過初步的測試之後，發現在一般室內空間中，本文得到的振幅大小大約為0~2.5V之間 • 下層8顆麥克風能量振幅做一比較，取較大兩顆，即可視此兩顆角度為可能聲源所在方位，其中我們將能量較大的(即為8顆麥克風中能量最大的)視為參考方位，而其所在角度視為基礎參考角度。 Robotic Interaction Learning Laboratory

聲源定位技術 • 近來對於聲音源定位的方式，大多使用明確的語音模組來進行。 • 聲源的定位必須考量到許多的環境因素，例如：環境中的雜訊、測試環境中的空間反射、回響等。 • 本文使用之定位技巧與技術 • 使用球面麥克風陣列來擔任聲源接收的角色，利用此裝置來抑制接收過多的環境噪音 • 規劃帶通濾波器來濾除麥克風陣列所接收到雜訊，盡量保留住人聲的頻率範圍來進行後置的定位運算，讓聲源的定位有更好的效果。 • 提出一個聲源定位模糊演算法 Robotic Interaction Learning Laboratory

聲源高低判斷之架構分析 • 文提出球面麥克風陣列在判斷聲源角度的同時也可初步判斷出聲源與麥克風陣列的高低關係。 • 假設a8、a1、a2的能量為下層最大的三個，取這三顆麥克風的能量平均值再與所對應的上層麥克風也就是b1的能量值加以比較。 • 假設a7、a8、a1的能量為下層最大的三個，取這三顆麥克風的能量平均值，其平均的值再與所對應的上層麥克風也就是b1與b4的能量平均值加以比較。圖17. 聲源高低比較示意圖 Robotic Interaction Learning Laboratory

聲源定位模糊演算法(1/2) • 爲了能夠精確的定位聲源角度方位，吾等建立了一聲源定位模糊演算法（ Fuzzy Sound Localization Algorithm , FSLA）來進行運算，進一部提高聲源角度定位的準確性。 • 系統以下層得到較大能量的兩個麥克風的電壓當作其輸入 • 能量最大一顆的電壓為Vmax1，其所在的基礎參考方位角度為 • 次大之一顆之電壓為Vmax2，其所在的基礎參考方位角度為 • 經過聲源定位模糊演算法進行運算後後會一個補償角度 Robotic Interaction Learning Laboratory

聲源定位模糊演算法(2/2) • 正確的聲源角度為總基礎參考方位角度加或減補償角 • 總基準參考角 • 聲源角度表1. SLFA之規則庫圖18. 輸入（Input, V1, V2）之歸屬函數圖19. 輸出（Output, ）之歸屬函數 Robotic Interaction Learning Laboratory

聲源距離模糊演算(1/3) • 以三種不同的聲源當做語料的輸入，分別在50cm~250cm之間以每50cm為一間距，量測出不同聲源及不同距離之間的能量關係。 • 據此三種聲源在不同距離所求得能量大小平均，做為往後運算的對應數值 • 據測量之結果提出一簡單的距離模糊演算法，來求得聲源與麥克風陣列之間的距離關係。 Robotic Interaction Learning Laboratory

聲源距離模糊演算(2/3) 表2. 不同聲源與麥克風距離與電壓大小相對關係表3. 不同聲源與距離平均關係 Robotic Interaction Learning Laboratory

聲源距離模糊演算(2/2) 圖20. 輸入(Vb)歸屬函數圖21. 輸出(d)歸屬函數表4. 距離運算模糊規則庫 Robotic Interaction Learning Laboratory

系統實體圖 圖22. 半球面麥克風陣列聲源定位系統 Robotic Interaction Learning Laboratory

實驗空間說明 • 環境參數 • 實驗室的長約9.8m寬約7.6m • 黃色：球面麥克風陣列聲源定位系統 • 紅色：書櫃其高度大概為2公尺 • 紫色：置物架 • 綠色：置物桌 • 淡藍色：冷氣機圖23. 實驗室之環境配置圖 Robotic Interaction Learning Laboratory

聲源設定 • 因為環境因素的干擾而造成音波振幅的不同，會造成聲源定位的準確性下降，因此我們預先錄製一段手機的鈴聲作為聲源的樣本，在錄製手機鈴聲時手機距離麥克風大約為40公分。圖24. 手機鈴聲之振幅圖25. 移動聲源測試時之手機 Robotic Interaction Learning Laboratory

操作介面介紹 • 為了讓使用者可以方便的操作本系統，吾等使用Visual C++ MFC設計一容易操作之介面 • 可隨時觀看12顆麥克風的能量大小 • 可隨時執行或停止聲源定位功能 • 可觀看RS-232傳值狀況 • 可即時看到聲源定位結果圖26. 本系統操作介面 Robotic Interaction Learning Laboratory

聲源方位為0度或是180度之定位實驗 圖28. 聲源位於180度測試之實驗圖27. 聲源位於0度測試之實驗 Robotic Interaction Learning Laboratory

不同聲源高低定位辨識實驗(1/2) • 將揚聲器至於45度的地方，距離麥克風陣列約150cm，且高度低於球面麥克風陣列約50公分，如圖29所示，其實驗結果如圖30所示圖30. 聲源放置麥克風陣列的下方測試結果圖29. 聲源位於系統45度之位置且高度低於麥克風陣列50公分 Robotic Interaction Learning Laboratory

不同聲源高低定位辨識實驗(2/2) • 將揚聲器放至於70度距離麥克風陣列約150cm且高於球面麥克風陣列50分公分的地方，如圖31所示，其實驗結果如圖32所示圖32. 聲源放置麥克風陣列的上方測試結果圖31. 聲源位於系統70度之位置且高度高於麥克風陣列50公分 Robotic Interaction Learning Laboratory

動態之聲源定位辨識實驗 • 動態音源測試—每次擷取間加入0.5sec延遲，由0°移動到90°。 (a) (b) (c) 圖33. 動態聲源測試結果(a)聲源位於0°(b)聲源位於45°(c)聲源位於90° Robotic Interaction Learning Laboratory

聲源距離測試之實驗 • 將聲源置於約45度且距離麥克風陣列距離50cm的地方與270度且距離麥克風陣列約為200cm的地方分別進行測試 (b) (a) 圖34. 聲源距離測試結果(a)聲源位於45°50 cm (b)聲源位於270°200 cm Robotic Interaction Learning Laboratory

與平面麥克風式陣列效能比較 • 將聲源放置45°，進行20次的測試，再與平面式麥克風陣列進行定位準確性比較表5. 球面麥克風陣列與平面麥克風陣列辨識率與效能比較表圖35. 與平面麥克風陣列進行辨識比較 Robotic Interaction Learning Laboratory

應用於智慧型機器人 • 本系統將應用於智慧型機器人，做為機器人之聽覺系統，吾等將此次統放置機器人的頭部上，當作機器人頭頂所戴裝飾帽如圖36所示圖36. 本系統應用於智慧型機器人之側面 Robotic Interaction Learning Laboratory

結論 • 本文提出一個以球面麥克風陣列作為聲源接收之模糊語者定位系統，來設計服務機器人的聽覺系統。 • 雖然本文是使用立體式麥克風陣列，但搭配FSLA的應用減少了立體式麥克風陣列複雜的運算。 • 本文所提出的聲源定位系統除了可以有效的定位出語聲源，聲源與麥克風陣列的高低與距離關係也可以簡單的判斷出來。 Robotic Interaction Learning Laboratory

未來展望 • 本文所提出的聲源定位系統，有下列的問題可以改進 • 與機器人更美觀的結合 • 聲源高低的判斷 • 系統的整合 • 與語意分析整合 Robotic Interaction Learning Laboratory

報告結束 感謝指導 Robotic Interaction Learning Laboratory

半球面麥克風陣列架構 之聲源定位系統之研究