專題研究語音訊號處理專題 (Special Projects in Speech Signal Processing) 李琳山

專題研究 • 語音訊號處理專題 • (Special Projects in Speech Signal Processing) • 李琳山

^ x[n] Speech Signal Processing • Major Application Areas • Speech Coding:Digitization and Compression • Considerations : 1) bit rate (bps) • 2) recovered quality • 3) computation • complexity/feasibility • Speech Processing for Network Environment x(t) x[n] Processing Algorithms LPF output • Speech Signals • Carrying Linguistic Knowledge and Human Information: Characters, Words, Phrases, Sentences, Concepts, etc. • Double Levels of Information: Acoustic Signal Level/Symbolic or Linguistic Level • Processing and Interaction of the Double-level Information x[n] xk 110101… Inverse Processing Processing Storage/transmission

今天的 天氣非常好今天的天氣非常好今天的 • Speech Signal Level • Signal Samples • Processing Speech Signal Processing – Processing of Double-Level Information Algorithms Chips or Computers • Linguistic Structure • Linguistic Knowledge Level Lexicon Grammar

網路環境下語音處理技術的角色 網際網路使用者介面數位內容分析使用者與數位內容之互動 • 數位內容分析—協助影音多媒體資訊之瀏覽 • 使用者介面—補鍵盤與滑鼠之不足 • 使用者與數位內容之互動—所有以文字為基礎之互動均可由語音完成

語音處理作數位內容分析（Content Analysis) 網際網路 • 即時資訊 • 氣象、路況 • 新聞 • 航班 • 股市 • 體育 • 個人及私有服務 • 私人記事本 • 企業資料庫 • 家電操作 • 網路遊戲 • 工作環境 • 智慧型代理人 • 文書處理 • 電子郵件 • 電傳會議 • 遠距教學 • 知識典藏 • 數位圖書館 • 虛擬博物館 • 日常業務 • 電子商務 • 虛擬銀行 • 線上交易 • 最吸引人的數位內容型態是影音多媒體，可能不帶文字，但常有語音旁白 • 影音多媒體不若文字型態，不易顯示在螢幕上，瀏覽不易 • 多媒體資訊的語音旁白常明確說明數位內容的主題概念，可用以分析數位內 • 容，建構易於瀏覽的組織體系 • 具備影音多媒體功能的手持電子設備已大量出現，未來應用發展空間無限

語音技術作為使用者介面 文字數位內容網際網路多媒體數位內容 • 手機、PDA、車上電子裝置、家電設備、各種隨身的配備零件等都可能成為上網最方便的工具 • 隨時隨地與全球知識及資訊系統相聯 • 輕薄短小，進入日常生活各個角落，隨時隨地使用 • 桌上型、筆記型個人電腦將不再是資訊使用者唯一的寵兒，逐漸進入『後PC』時代 • 原來最方便的鍵盤及滑鼠不再方便 • 人的手指不會縮小，車上路旁餐桌客廳也不適合使用鍵盤滑鼠 • 所需要的功能及資訊服務不斷增加 • 語音是隨時隨地用任何一種工具上網最方便自然的介面，可補鍵盤滑鼠之不足

語音技術作為使用者與數位內容的互動 多媒體數位內容文字數位內容語音合成文字資訊語音資訊語音資訊搜尋口語對話網際網路語音輸出入多媒體數位內容之語音分析文字資訊搜尋 • 今日上網的動作以文字為主要介面，但凡使用文字者，均可用語音達成 • 語音及多模式對話（Spoken and Multi-modal Dialogue）達成所有所需的互動 • 使用語音指令，透過手持電子設備，借助多媒體數位內容之語音旁白，瀏覽搜尋並使用網路資訊

簡介 • 讓大學部同學進行電腦語音訊號處理技術之初步研究 • 語音實驗室提供部份基礎程式、軟體工具及語音資料庫 • 同學要自行寫若干程式，由基本的語音處理技術進入深入的研究，並自行用自己隨時錄製的語音訊號進行實驗

進行方式（１）： • 以一個學期為單位，但不排除延續到第二學期進入更深入的課題 • 原則上每兩人一組，相互討論，共同工作，但一人一組亦可行 • 雖然未來主要的應用必將在硬體(例如晶片)上操作，本專題所有工作為數學模型及軟體程式，使用PC或工作站 • 每一組兩人第一階段建構一套大字彙語音辨識系統，第二階段再選一個具挑戰性的題目作深入研究 • 第二階段的深入研究會提供一系列可以深入研究的題目，每一組２人可選擇其中之一

進行方式（２）： • 第一階段的大字彙系統或第二階段的每一個研究題目都會有語音實驗室的研究生學長擔任助教，提供基礎論文，軟體工具等並引導同學進入主題，但後期的研究方向由選修同學自行負責，自由發揮 • 學期中每週與老師定期會面一次，每組同學隔週需上台報告研究進度一次 • 已修過「數位語音處理概論」的同學在完成前半學期的工作以後，亦可自行選定研究方向，不受上述規定限制。

配套課程 原則上修專題的同學都應選修『數位語音處理概論』大三以上程度均可聽得進去，排課時將儘量避免衝堂這門課可以加強學理基礎，學到豐富的研究方法，加強程式經驗能力，並進一步對此一新興領域有更完整的暸解該課程與本專題研究有互補設計

研究內容（一）—第一階段建構大字彙語音辨識系統研究內容（一）—第一階段建構大字彙語音辨識系統 • 建立一個基本型的大字彙語音辨識系統，以電視新聞為辨識對象 • 目的是對語音辨識有具體的了解及完整的經驗 • 使用HTK及SRILM這兩套完整的軟體工具 • 提供大量語料訓練模型

可能的深入研究題目(1) ：語者調適或正規化（Speaker Adaptation or Normalization） • 每一個人的聲音特性都是不同的 • 讓系統利用少量的使用者的聲音來學習使用者的聲音特性 • 可能使用的方法包括MAP、LLR、VTLN、SAT等

可能的深入研究題目(2): 語音文件之潛藏語意分析（Latent Semantic Analysis for Spoken Documents） • 多媒體資訊（例如新聞、演講、影片、課程）常不易瀏覽，它們所帶的語音訊息稱為語音文件 • 潛藏語意分析的目的是自動抽取出語音文件中所帶有的潛藏語意，也就是主題或觀念 • 可用來建立標題、摘要，抽取關鍵詞，並分析主題結構等，以利瀏覽

可能的深入研究題目(3) ：語音特徵正規化(Feature Normalization) • 語音訊號受到各種雜訊干擾 • 由使用最基本的倒頻譜平均值消去法(Cepstral Mean Subtraction, CMS )，倒頻譜正規化法 (Cepstral Normalization, CN)，分佈等化法 (Histogram Equalization, HEQ)等各種基本的語音特徵正規化技術開始 • 進一步進入深入研究的範疇

可能的深入研究題目(4):語音文件搜尋（Spoken Document Retrieval） • 現今的Google等所搜尋的是文字文件 • 透過網路所傳送的數位內容（Digital Content）正在快速走向多媒體 • 如何搜尋文字以外的數位內容已成為一個新的重要的研究方向 • 有效率的透過所帶的語音訊息，搜尋多媒體的數位內容

可能的深入研究題目(5):中文韻律模型（Prosodic Model）及聲調辨識（Tone Recognition） • 韻律（Prosody）就是語音訊號中的抑揚頓挫 • 聲調（四聲及輕聲）是國語語音的韻律中最顯著的一環 • 由語音訊號中抽取韻律參數，運用機器學習（machine learning）中的各種技術及工具，來進行聲調辨識

可能的深入研究題目(6):動態貝氏模型（Dynamic Bayesian Network, DBN）及其在語音辨識上的應用 • 各種訊號都可以建立機率式的模型 • 先了解何謂DBN，如何用圖來表示一個DBN • 使用一個現有的DBN工具：Graphical Model Toolkit（GMTK）來做語音辨識

可能的深入研究題目(7):語言模型調適（Language Model Adaption） • 語言模型是利用語言中字詞的前後關係建立的統計模型，可用以預測語者下一個會說出來的字或詞 • 一般的語言模型不具有處理主題的能力 • 讓系統了解句子的主題是什麼，然後讓語言模型向主題做調適

台大語音實驗室的研究領域 • 聲學訊號處理（Acoustic Signal Processing） —聲學特徵（Acoustic Features）及模型（Modeling），雜訊處理，抑揚頓挫（Prosody）用以協助辨識，自發性語音（Spontaneous Speech）含不流暢（Disfluencies）及發音模型（Pronunciation Modeling），… • 語言處理（Linguistic Processing） —語言模型調適（Language Model Adaptation），對話（Dialogues），語音文件搜尋（Spoken Document Retrieval），語音文件之瞭解與重組（Spoken Document Understanding and Organization），… • 整合性技術 —分散式語音辨識，中英文雙語處理，搜尋（Search）演算架構，針對中文語言特性之技術… • 相關知識背景 —數學模型（Probability, Linear Algebra）及程式 —信號與系統（電機背景的題目） —資訊大三以下相關領域（資訊背景的題目）

那些產業需要語音技術？ • 網路搜尋相關產業 — Google, Yahoo,… • 資訊軟硬體產業 —Microsoft, IBM,… • 電信產業 —AT&T, NTT, 中華電信… • 手機及各種手持設備產業 —摩托羅拉,諾基亞,… • 電腦產業 —廣達,華碩,… • 晶片產業 — Intel,聯發科,凌陽,… • “純語音”產業 — Nuance（口語對話作為客服前端窗口，行車引導，手機應用，…），賽微（手機應用），艾爾（語言教學） ,…

台大語音實驗室的國際活動 • GALE（美國政府） —阿拉伯文，中文，英文 • 與日本8個研究單位跨國合作 —東京大學、京都大學、東京工業大學、早稻田大學、ATR、… • 學生交流互訪 — MIT交換學生、IBM\Microsoft internship、日本團隊互訪… • 國際會議 — Interspeech（秋天），ICASSP（春天）， ASRU/SLT（冬天）

Interspeech 2005, Lisbon, Portugal

Interspeech 2006, New York (Central Park)

ICASSP 2006, Toulouse, France

SLT 2006, Aruba, South Caribbean

Tokyo, Japan (with Prof. Furui)

Tokyo, Japan (with Prof. Sagayama)

前瞻語音科技獎學金 • 國內產業界贊助 • 產業界對語音專業人才企盼殷切 • 台大語音實驗室與產業界交流往來密切

有興趣參加者 有可能在暑假中先辦一次Meeting，讓有興趣在暑假先行開始的同學利用暑假提早接觸相關研究，但要在開學時才開始是沒有問題的。先組成2人一組（一人一組亦可行），最好在7月17日（星期六）以前用e-mail先行登記，將姓名學號及e-mail地址寄至: lslee@cc.ee.ntu.edu.tw，如有意在暑假先行開始，可在e-mail中說明方便參加Meeting的時間。下學期每週定期Meeting暫訂每星期四下午5：30，地點另行通知，由上課第一週開始。相關訊息會通知登記者，並公告在網頁上。尚未修過相關課程者下學期開學時請選修「數位語音處理概論」課程。先完成前半學期基礎實驗的組可以選定後半學期深入研究的題目，原則上希望每一組作不同的題目。可以容納的組數有限，有興趣請早登記。

希望暑期先開始的同學 快樂暑假的輕鬆工作暑假中會在7月下旬或8月上旬先有一次Meeting 讓同學們在後半個暑假中自行利用方便的時間進入狀況打算下學期開學才開始進行也沒有問題請在7月17日（星期六）以前完成登記，希望暑期參加Meeting者可提出不方便的時間等

專題研究語音訊號處理專題 (Special Projects in Speech Signal Processing) 李琳山