工研院文字轉語音技術簡介

工研院文字轉語音技術簡介 資通所前瞻技術中心副研究員黃健紘

大綱 • 文字轉語音技術簡介 • 工研院 TTS 發展歷程 • 工研院 TTS 研發成果展示

文字轉語音 • TTS: Text-to-Speech • 輸入：文字字串 (text in characters) • 輸出：語音訊號 (speech in samples) • 將輸入文字，轉換合成為語音輸出

文字轉語音主要步驟 • 資料庫與 • 控制參數 • 文字 • 處理 • 語言 • 分析 • 音韻 • 生成 • 波形 • 合成 • 文字 • 資訊 • 口語文句 • 語言參數 • 聲學參數 • 語音波形

文字處理模組 • 將輸入文字轉換為口語文句(spoken text) • 標記指令處理(Markup Command Processing) • <prosody volume=“+6dB”>大聲一點</prosody> • 文字正規化 (Text Normalization) • 2010/10/15 二零一零年十月十五日 • 38.38%百分之三十八點三八 • 6:21 六點二十一分 or 六比二十一 or … ? • 斷句(Sentence Segmentation)

語言分析模組 • 分析口語文句得到對應的語言學(Linguistic)資訊 • 斷詞/構詞(Word Segmentation/Bracketing) • 詞長 • 詞序 • 字轉音(Text to Pronunciation) • 標音 • 聲調 • 標記詞性 (Part-Of-Speech Tagging) • 詞性

音韻生成模組 • 將語言學參數 Mapping 至聲學(acoustic)參數 • 音量(energy) • 音高(pitch) • 語速(duration) • Mapping Methods • Recurrent Neural Network (RNN) • Classification And Regression Tree (CART) • Hidden Markov Model (HMM)

波形合成模組 • 使用合成器產生語音波形 • 串接式合成 • 基週同步疊加(Pitch Synchronous Overlap and Add, PSOLA) • 基於參數合成 • 共振峰合成 (Formant Synthesis) • 線性預測編碼 (Linear Predictive Coding, LPC) • MLSA 濾波器(Mel Log Spectrum Approximation Filter)

語音合成 vs.真人錄音 • 系統自動化 • TTS可整合於系統中，提供自動文字轉語音輸出 • TTS可對於即時性、變動性之內容提供語音輸出 • 沒有全年無休、全天候之錄音人員可錄音 • 成本與效率 • 真人錄音之製作時間長、成本高 • 錄音之儲存與傳輸成本遠高於文字 • 品質一致性 • TTS 具一致性的音色、韻律和語音品質 • 真人錄音難以長時間保持一致性

TTS的需求與產品

Stephen Hawking’s Voice • Professor Stephen Hawking selects NeoSpeechText-to-Speech as his new voice. Mar. 15, 2004

工研院 TTS 技術發展 (1/3) • 男聲 • 女聲 • 第一代：cTTS • 韻律可調式中文文字轉語音技術 • RNN-based • 儲存中文單音節之語音單位 • 基本語音單位之韻律修改與串接合成

工研院 TTS 技術發展 (2/3) • 男聲 • 女聲 • 第二代：iTTS • 高音質大語料庫中文文字轉語音技術 • Corpus-based • 儲存超過10小時之大語料庫 • 大語料庫之語音單元挑選與串接合成

工研院 TTS 技術發展 (3/3) • 女聲1 • 女童 • 女聲2 • 男聲 • 第三代：mTTS • 基於模型之高音質文字轉語音技術 • Model-based • 儲存音韻統計模型之參數資料 (少量儲存空間) • 音韻統計模型與發聲模型之語音合成

工研院 mTTS 技術特色 (1/2) • 高品質自然語音合成 • 音韻自然平順 • 整句合成語音自然流暢，沒有拼接式語音合成在合成單元間的的不連貫現象 • 韻律可調控性 • 可調整音量、音高、語速等韻律參數，且合成音質不會降低 • 多音色語音模型選擇與建構 (Model Training) • 訓練語音模型只需約2-3小時之錄音語料 • 透過自動訓練步驟可在短時間內構建高品質音庫 • 低硬體儲存/運算資源需求 • 支援硬體資源較為缺乏的嵌入式系統

工研院 mTTS 技術特色 (2/2) • 智慧文本分析 (Text Analysis) • 可自動處理特殊符號、日期、時間、電話、金額、比數、項次等之正確讀法 • 可自動分析判斷破音字讀法 • 提供使用者自定義辭典的功能 • TTS系統可按照使用者定義的詞彙與標音來合成發音 • 支援 Microsoft Speech API (SAPI) 及 Markup 語法 • 使應用軟體開發者加速語音應用程式的開發過程 • 可搭配 SAPIevent 開發如文字語音同步等應用 • 可使用 SAPI 內建的 markup 指令，自行控制斷詞、發音、韻律、數字唸法等

工研院 TTS 技術產業貢獻摘要 • 電子書/有聲書 • 遠通科技、遠流、網際智慧、愛盲文教基金會等 • 語文學習/數位學習 • 蒙恬科技、網際智慧、僑委會、師範大學等 • 管理系統/訓練系統 • 上尚科技、中山科學研究院、工研院等 • 導航軟體 • 九福科技等 • 家用機器人 • 華碩電腦等

「金庸機」與工研院 TTS

聽見文字的聲音-視障有聲書系統 • 開發弱勢族群潛能之社會公益事業 • 樂彩公司倡議與投資，並由工研院規劃建構之平台，協助愛盲文教基金會經營有聲書下載之公益服務 • 透過文字轉語音合成技術，自動將文章內容合成為語音，讓視障者即時獲取新知，縮短學習落差 • 合成書籍下載次數已達上萬次，持續增加中愛盲基金會-視障有聲書系統

工研院 TTSDemo (1/7) • 合成語音男聲女聲金庸機女童聲 • 男聲 (劉墉 – 你自己決定吧) 記得我上成功嶺的時候，長官曾說過一段話，「打仗的時候，上面只要求你幾點幾分攻下目標，而不問你的人是不是過度疲勞，不可能趕這麼快！也不問你的火力夠不夠、糧食足不足，因為他們考慮的是全盤戰況，無法一一照顧你的需要。總之，你生，你死，是你自己的事！在幾點幾分攻下那個據點，則是你無法逃避的責任。」

工研院 TTSDemo (2/7) • 合成語音男聲女聲金庸機女童聲 • 女聲 (今日新聞網) 英國格拉摩根大學針對兩千多名英國人進行研究發現，笑容會隨年齡增長而遞減，在年過50歲後，每天大笑次數已是青少年時期的一半，因為此年齡層的人較常抱怨，也總是替年輕的孩子或晚輩擔憂。此外，男女性正值52歲時，更是幽默感急遽消弱的時刻。

工研院 TTSDemo (3/7) • 合成語音男聲女聲金庸機女童聲 • 金庸機 (神鵰俠侶【第二十七回】鬥智鬥力) 但國師和楊過正自僵持，已至十分緊急的當口，任誰稍有移動，都要立吃大虧。小龍女那金針緩緩刺將過去，國師竟半點也抗拒不得。見金針越移越近，自兩尺而一尺，自一尺而半尺，國師大叫一聲，雙輪向前立送，一個觔斗向後翻出，可是玄鐵劍上那股威猛之極的勁力，畢竟不能盡數卸去。他剛站定腳步，身子一晃，便坐倒在地。

工研院 TTSDemo (4/7) • 合成語音男聲女聲金庸機女童聲 • 女童聲 (格林童話 – 青蛙王子) 小公主兩眼緊緊地盯著金球，可是金球忽地一下子在水潭里就沒影兒了。因為水潭里的水很深，看不見底，小公主就哭了起來，她的哭聲越來越大，哭得傷心極了。哭著哭著，小公主突然聽見有人大聲說：「哎呀，公主，您這是怎麼啦？您這樣嚎啕大哭，就連石頭聽了都會心疼的呀。」聽了這話，小公主四處張望，想弄清楚說話聲是從哪兒傳來的，不料卻發現一隻青蛙，從水里伸出他那醜陋不堪的肥嘟嘟的大腦袋。

工研院 TTSDemo (5/7) • 台語 TTS • 證嚴法師靜思語 • Goân-liōngpa̍t-lâng, to̍h-sīsiān-thāika-tī.(原諒別人，就是善待自己。) • Tùi ka-tīài ū sìn-sim, tùi pa̍t-lâng ài sìn-jīm.(對自己要有信心，對別人要信任。) • Ài pôe-ióng hoaⁿ-híêsim, ū hoaⁿ-hí sim, to̍h-sī ūi ka-tīchiok-hok.(要培養歡喜的心，有歡喜心，就是為自己祝福。) • Chi̍t ê kha-chhiú kiān-choân, khiok m̄-khéng chò sūê lâng, to̍h téng-î bôkha-chhiúê lâng.(一個手腳健全，卻不肯做事的人，就等於沒有手腳的人。)

工研院 TTSDemo (6/7) • 台語 TTS • 佛經 (波羅蜜多心經) • Koan-chū-chāi-phô͘-sat, hêng-chhimpo̍at-ché pho-lô-bi̍t-to sî, chiàu-kiàngō͘-ūnkaikhong, tō͘ it-chhèkhó͘-eh.(觀自在菩薩，行深般若波羅蜜多時，照見五蘊皆空，度一切苦厄) • Sià-lī-chú, sek put-ì khong, khong put-ì sek, sek chek-sī khong, khong chek-sī sek. Siū sióng hêng sek, e̍k ho̍k jû-sī.(舍利子，色不異空，空不異色，色即是空，空即是色，受想行識亦復如是) • Kiat tè, kiat tè, pho-lôkiat tè, pho-lôcheng kiat tè, phô͘-thêsat pôho.(揭諦，揭諦，波羅揭諦，波羅僧揭諦，菩提薩婆訶)

工研院 TTSDemo (7/7) • TTS 的韻律變化 • Model-based TTS 會有韻律較平板的問題 • 一般 TTS 系統只有單一種韻律表現，長篇文章顯得單調

工研院線上 TTSDemo • 中文文字轉語音合成系統 • 中文文字轉語音與影像式人臉動畫合成系統請連線網址：http://atc.ccl.itri.org.tw/，或上網搜尋：ITRI TTS

其它線上 TTSDemo

TTS 的其它應用與挑戰 • 歌聲合成 • 表達式/情緒 (expressive/emotional)語音合成 • 根據文字內容合成出含有相對應情緒的語音 • 語者調適技術 (speaker adaptation) • 使用者只須錄製少量語料，即可將原本的TTS調適為使用者的聲音 • 多角色 • 年齡/性別/性格/地域/教育程度/… • 多語言(multilingual) • 智慧判斷發音語言、聲音一致、韻律流暢

THANKS FOR YOUR ATTENTION 謝謝您的聆聽 Q&A E-mail: C.H.Huang@itri.org.tw

工研院文字轉 語音技術 簡介