專題研究語音訊號處理專題 (Special Projects in Speech Signal Processing) 李琳山

專題研究 • 語音訊號處理專題 • (Special Projects in Speech Signal Processing) • 李琳山

^ x[n] Speech Signal Processing • Major Application Areas • Speech Coding:Digitization and Compression Considerations : 1) bit rate (bps) 2) recovered quality 3) computation complexity/feasibility • Speech Processing for Network Environment x(t) x[n] Processing Algorithms LPF output • Speech Signals • Carrying Linguistic Knowledge and Human Information: Characters, Words, Phrases, Sentences, Concepts, etc. • Double Levels of Information: Acoustic Signal Level/Symbolic or Linguistic Level • Processing and Interaction of the Double-level Information x[n] xk 110101… Inverse Processing Processing Storage/transmission

今天的 天氣非常好今天的天氣非常好今天的 • Speech Signal Level • Signal Samples • Processing Speech Signal Processing – Processing of Double-Level Information Algorithms Chips or Computers • Linguistic Structure • Linguistic Knowledge Level Lexicon Grammar

網路環境下語音處理技術的角色 網際網路使用者介面數位內容分析使用者與數位內容之互動 • 數位內容分析—協助影音多媒體資訊之瀏覽 • 使用者介面—補鍵盤與滑鼠之不足 • 使用者與數位內容之互動—所有以文字為基礎之互動均可由語音完成

語音處理作數位內容分析（Content Analysis) 網際網路即時資訊 • 氣象、路況 • 新聞 • 航班 • 股市 • 體育個人及私有服務 • 私人記事本 • 企業資料庫 • 家電操作 • 網路遊戲工作環境 • 智慧型代理人 • 文書處理 • 電子郵件 • 電傳會議 • 遠距教學知識典藏 • 數位圖書館 • 虛擬博物館日常業務 • 電子商務 • 虛擬銀行 • 線上交易 • 最吸引人的數位內容型態是影音多媒體，可能不帶文字，但常有語音旁白 • 影音多媒體不若文字型態，不易顯示在螢幕上，瀏覽不易 • 多媒體資訊的語音旁白常明確說明數位內容的主題概念，可用以分析數位內容，建構易於瀏覽的組織體系 • 具備影音多媒體功能的手持電子設備已大量出現，未來應用發展空間無限

語音技術作為使用者介面 文字數位內容網際網路多媒體數位內容 • 手機、PDA、車上電子裝置、家電設備、各種隨身的配備零件等都可能成為上網最方便的工具 • 隨時隨地與全球知識及資訊系統相聯 • 輕薄短小，進入日常生活各個角落，隨時隨地使用 • 桌上型、筆記型個人電腦將不再是資訊使用者唯一的寵兒，逐漸進入『後PC』時代 • 原來最方便的鍵盤及滑鼠不再方便 • 人的手指不會縮小，車上路旁餐桌客廳也不適合使用鍵盤滑鼠 • 所需要的功能及資訊服務不斷增加 • 語音是隨時隨地用任何一種工具上網最方便自然的介面，可補鍵盤滑鼠之不足

語音技術作為使用者與數位內容的互動 多媒體數位內容文字數位內容語音合成文字資訊語音資訊語音資訊搜尋口語對話網際網路語音輸出入多媒體數位內容之語音分析文字資訊搜尋 • 今日上網的動作以文字為主要介面，但凡使用文字者，均可用語音達成 • 語音及多模式對話（Spoken and Multi-modal Dialogue）達成所有所需的互動 • 使用語音指令，透過手持電子設備，借助多媒體數位內容之語音旁白，瀏覽搜尋並使用網路資訊

簡介 • 讓大學部同學進行電腦語音訊號處理技術之初步研究 • 語音實驗室提供部份基礎程式、軟體工具及語音資料庫 • 同學要自行寫若干程式，由基本的語音處理技術進入深入的研究，並自行用自己隨時錄製的語音訊號進行實驗

進行方式（１）： • 以一個學期為單位，但不排除延續到第二學期進入更深入的課題 • 每兩人一組，相互討論，共同工作 • 雖然未來主要的應用必將在硬體(例如晶片)上操作，本專題所有工作為數學模型及軟體程式，使用PC或工作站 • 每一組兩人第一階段建構一套大字彙語音辨識系統，第二階段再選一個具挑戰性的題目作深入研究 • 第二階段的深入研究會提供一系列可以深入研究的題目，每一組２人可選擇其中之一

進行方式（２）： • 第一階段的大字彙系統或第二階段的每一個研究題目都會有語音實驗室的研究生學長擔任助教，提供基礎論文，軟體工具等並引導同學進入主題，但後期的研究方向由選修同學自行負責，自由發揮 • 學期中每週與老師定期會面一次，每組同學隔週需上台報告研究進度一次 • 已修過「數位語音處理概論」的同學在完成前半學期的工作以後，亦可自行選定研究方向，不受上述規定限制。

配套課程 原則上修專題的同學都應選修『數位語音處理概論』下學期每週三上午9:10-12:10，大三以上程度均可聽得進去這門課可以加強學理基礎，學到豐富的研究方法，加強程式經驗能力，並進一步對此一新興領域有更完整的暸解該課程與本專題研究有互補設計

研究內容（一）—第一階段建構大字彙語音辨識系統研究內容（一）—第一階段建構大字彙語音辨識系統 • 建立一個基本型的大字彙語音辨識系統，以電視新聞為辨識對象 • 目的是對語音辨識有具體的了解及完整的經驗 • 使用Kaldi, HTK及SRILM等軟體工具 • 提供大量語料訓練模型

可能的深入研究題目舉例(1) - 華語學習對話遊戲(Dialogue Game for Mandarin Chinese learning) • 語音對話系統是語音處理技術的具體呈現，常用馬可夫決策程序(Markov Decision Process, MDP)來建立使用者和機器的互動機制，或者說是利用數學統計及機器學習來得到一套好的對話策略。本專題我們將介紹對話系統，MDP之理論及學習，一直到將這套模型應用至華語學習的情境上，將撰寫MDP程式，助教會從基礎開始教起。

可能的深入研究題目舉例(2) - 非督導式以模型為基礎的語音處理（Model-based Unsupervised Speech Processing） • 今日語音辨識基本上是用有人標註好（註明每一段聲音在說什麼）的語料去訓練模型，但要人標註語料總是麻煩的。近年的一個新方向是不要標註語料，直接從聲音中學出語言中一些類似文字的基本單位。就像小孩子在學習語言時所學的基本單位音及音標一樣，不斷反覆的練習聆聽自己朗讀的聲音，自動的讓機器學習組成語音的基礎單元。助教會教同學用HTK 工具及自行撰寫程式來進行實作。

可能的深入研究題目舉例(3) - 語音文件摘要(SpokenDocumentSummarization) • 與純文字資料相比，語音文件不易呈現在螢幕上不易瀏覽，故自動選擇少數語句來構成摘要(summary)，盡量涵蓋原本語音文件中的資訊是重要的研究方向。本專題將會利用「數位語音處理概論」、「信號與系統」課程影音以及「公視新聞」等資料庫作為素材，引導同學進行自動語音文件摘要之研究。

可能的深入研究題目舉例(4) - 概念比對（Conceptmatching）之資訊搜尋 • 這個專題的研究主題是希望找到概念相關但不一定包含使用者所輸入的查詢詞的資訊。比方說，當使用者輸入查詢詞「歐巴馬」時，希望找到各種與美國總統相關的資訊，即使沒有包含「歐巴馬」這三個字的也希望能找到。助教會教同學由讀相關論文開始進入此一領域。

可能的深入研究題目舉例(5) - 語音資訊搜尋之辭典外（Out-of-Vocabulary）查詢詞問題 • 因為使用者輸入的查詢詞大多為專有名詞（人名、地名等）、專用術語或新詞（如「八八水災」），但這些詞往往沒有被語音辨識系統的辭典所涵蓋，導致語音辨識系統完全辨識不出這些辭彙，也就無法搜尋到這些詞的聲音了。本專題將探討如何解決這個問題。

台大語音實驗室的研究領域 • 聲學訊號處理（Acoustic Signal Processing） —聲學特徵（Acoustic Features）及模型（Modeling），雜訊處理，抑揚頓挫（Prosody）用以協助辨識，自發性語音（Spontaneous Speech）含不流暢（Disfluencies）及發音模型（Pronunciation Modeling），… • 語言處理（Linguistic Processing） —語言模型調適（Language Model Adaptation），對話（Dialogues），語音文件搜尋（Spoken Document Retrieval），語音文件之瞭解與重組（Spoken Document Understanding and Organization），… • 整合性技術 —分散式語音辨識，中英文雙語處理，搜尋（Search）演算架構，針對中文語言特性之技術… • 相關知識背景 —數學模型（Probability, Linear Algebra）及程式 —信號與系統（電機背景的題目） —資訊大三以下相關領域（資訊背景的題目）

那些產業需要語音技術？ • 網路搜尋相關產業 — Google, Yahoo,… • 資訊軟硬體產業 —Microsoft, IBM,… • 電信產業 —AT&T, NTT, 中華電信… • 手機及各種手持設備產業 —摩托羅拉,諾基亞,… • 電腦產業 —廣達,華碩,… • 晶片產業 — Intel,聯發科,凌陽,… • “純語音”產業 — Nuance（口語對話作為客服前端窗口，行車引導，手機應用，…），賽微（手機應用），艾爾（語言教學） ,…

台大語音實驗室的國際活動 • GALE（美國政府） —阿拉伯文，中文，英文 • 與日本8個研究單位跨國合作 —東京大學、京都大學、東京工業大學、早稻田大學、ATR、… • 學生交流互訪 — MIT交換學生、IBM\Microsoft internship、日本團隊互訪… • 國際會議 — Interspeech（秋天），ICASSP（春天）， ASRU/SLT（冬天）

Interspeech 2005, Lisbon, Portugal

Interspeech 2006, New York (Central Park)

ICASSP 2006, Toulouse, France

SLT 2006, Aruba, South Caribbean

Tokyo, Japan (with Prof. Furui)

Tokyo, Japan (with Prof. Sagayama)

前瞻語音科技獎學金 • 國內產業界贊助 • 產業界對語音專業人才企盼殷切 • 台大語音實驗室與產業界交流往來密切

有興趣參加者 先組成2人一組，最好在2月12日（星期三）以前用e-mail先行登記，將姓名學號及e-mail地址寄至: lslee@cc.ee.ntu.edu.tw 下學期每週定期Meeting暫訂每星期四下午5：30，地點另行通知，由上課第一週開始相關訊息會通知登記者，並公告在網頁上尚未修過相關課程者下學期開學時請選修「數位語音處理概論」課程。先完成前半學期基礎實驗的組可以選定後半學期深入研究的題目，原則上希望每一組作不同的題目可以容納的組數有限，有興趣請早登記

專題研究語音訊號處理專題 (Special Projects in Speech Signal Processing) 李琳山