320 likes | 469 Views
工研院文字轉 語音技術 簡介. 資通所前瞻技術中心副研究員 黃健紘 . 大綱. 文字轉語音技術簡介 工研院 TTS 發展歷程 工研院 TTS 研發成果展示. 文字轉語音. TTS: Text-to-Speech 輸入 :文字 字串 ( text in characters ) 輸出 : 語音訊號 ( speech in samples) 將 輸入文字,轉換合成為語音輸出. 文字轉語音主要 步驟. 資料庫與 控制參數. 文字 處理. 語言 分析. 音韻 生成. 波形 合成. 文字 資訊. 口語文句. 語言參數. 聲學 參數.
E N D
工研院文字轉語音技術簡介 資通所前瞻技術中心副研究員 黃健紘
大綱 • 文字轉語音技術簡介 • 工研院 TTS 發展歷程 • 工研院 TTS 研發成果展示
文字轉語音 • TTS: Text-to-Speech • 輸入:文字字串 (text in characters) • 輸出:語音訊號 (speech in samples) • 將輸入文字,轉換合成為語音輸出
文字轉語音主要步驟 • 資料庫與 • 控制參數 • 文字 • 處理 • 語言 • 分析 • 音韻 • 生成 • 波形 • 合成 • 文字 • 資訊 • 口語文句 • 語言參數 • 聲學參數 • 語音波形
文字處理模組 • 將輸入文字轉換為口語文句(spoken text) • 標記指令處理(Markup Command Processing) • <prosody volume=“+6dB”>大聲一點</prosody> • 文字正規化 (Text Normalization) • 2010/10/15 二零一零年十月十五日 • 38.38%百分之三十八點三八 • 6:21 六點二十一分 or 六比二十一 or … ? • 斷句(Sentence Segmentation)
語言分析模組 • 分析口語文句得到對應的語言學(Linguistic)資訊 • 斷詞/構詞(Word Segmentation/Bracketing) • 詞長 • 詞序 • 字轉音(Text to Pronunciation) • 標音 • 聲調 • 標記詞性 (Part-Of-Speech Tagging) • 詞性
音韻生成模組 • 將語言學參數 Mapping 至聲學(acoustic)參數 • 音量(energy) • 音高(pitch) • 語速(duration) • Mapping Methods • Recurrent Neural Network (RNN) • Classification And Regression Tree (CART) • Hidden Markov Model (HMM)
波形合成模組 • 使用合成器產生語音波形 • 串接式合成 • 基週同步疊加(Pitch Synchronous Overlap and Add, PSOLA) • 基於參數合成 • 共振峰合成 (Formant Synthesis) • 線性預測編碼 (Linear Predictive Coding, LPC) • MLSA 濾波器(Mel Log Spectrum Approximation Filter)
語音合成 vs.真人錄音 • 系統自動化 • TTS可整合於系統中,提供自動文字轉語音輸出 • TTS可對於即時性、變動性之內容提供語音輸出 • 沒有全年無休、全天候之錄音人員可錄音 • 成本與效率 • 真人錄音之製作時間長、成本高 • 錄音之儲存與傳輸成本遠高於文字 • 品質一致性 • TTS 具一致性的音色、韻律和語音品質 • 真人錄音難以長時間保持一致性
Stephen Hawking’s Voice • Professor Stephen Hawking selects NeoSpeechText-to-Speech as his new voice. Mar. 15, 2004
工研院 TTS 技術發展 (1/3) • 男聲 • 女聲 • 第一代:cTTS • 韻律可調式中文文字轉語音技術 • RNN-based • 儲存中文單音節之語音單位 • 基本語音單位之韻律修改與串接合成
工研院 TTS 技術發展 (2/3) • 男聲 • 女聲 • 第二代:iTTS • 高音質大語料庫中文文字轉語音技術 • Corpus-based • 儲存超過10小時之大語料庫 • 大語料庫之語音單元挑選與串接合成
工研院 TTS 技術發展 (3/3) • 女聲1 • 女童 • 女聲2 • 男聲 • 第三代:mTTS • 基於模型之高音質文字轉語音技術 • Model-based • 儲存音韻統計模型之參數資料 (少量儲存空間) • 音韻統計模型與發聲模型之語音合成
工研院 mTTS 技術特色 (1/2) • 高品質自然語音合成 • 音韻自然平順 • 整句合成語音自然流暢,沒有拼接式語音合成在合成單元間的的不連貫現象 • 韻律可調控性 • 可調整音量、音高、語速等韻律參數,且合成音質不會降低 • 多音色語音模型選擇與建構 (Model Training) • 訓練語音模型只需約2-3小時之錄音語料 • 透過自動訓練步驟可在短時間內構建高品質音庫 • 低硬體儲存/運算資源需求 • 支援硬體資源較為缺乏的嵌入式系統
工研院 mTTS 技術特色 (2/2) • 智慧文本分析 (Text Analysis) • 可自動處理特殊符號、日期、時間、電話、金額、比數、項次等之正確讀法 • 可自動分析判斷破音字讀法 • 提供使用者自定義辭典的功能 • TTS系統可按照使用者定義的詞彙與標音來合成發音 • 支援 Microsoft Speech API (SAPI) 及 Markup 語法 • 使應用軟體開發者加速語音應用程式的開發過程 • 可搭配 SAPIevent 開發如文字語音同步等應用 • 可使用 SAPI 內建的 markup 指令,自行控制斷詞、發音、韻律、數字唸法等
工研院 TTS 技術產業貢獻摘要 • 電子書/有聲書 • 遠通科技、遠流、網際智慧、愛盲文教基金會等 • 語文學習/數位學習 • 蒙恬科技、網際智慧、僑委會、師範大學等 • 管理系統/訓練系統 • 上尚科技、中山科學研究院、工研院等 • 導航軟體 • 九福科技等 • 家用機器人 • 華碩電腦等
聽見文字的聲音-視障有聲書系統 • 開發弱勢族群潛能之社會公益事業 • 樂彩公司倡議與投資,並由工研院規劃建構之平台,協助愛盲文教基金會經營有聲書下載之公益服務 • 透過文字轉語音合成技術,自動將文章內容合成為語音,讓視障者即時獲取新知,縮短學習落差 • 合成書籍下載次數已達上萬次,持續增加中 愛盲基金會-視障有聲書系統
工研院 TTSDemo (1/7) • 合成語音 男 聲 女 聲 金庸機 女童聲 • 男聲 (劉墉 – 你自己決定吧) 記得我上成功嶺的時候,長官曾說過一段話,「打仗的時候,上面只要求你幾點幾分攻下目標,而不問你的人是不是過度疲勞,不可能趕這麼快!也不問你的火力夠不夠、糧食足不足,因為他們考慮的是全盤戰況,無法一一照顧你的需要。總之,你生,你死,是你自己的事!在幾點幾分攻下那個據點,則是你無法逃避的責任。」
工研院 TTSDemo (2/7) • 合成語音 男 聲 女 聲 金庸機 女童聲 • 女聲 (今日新聞網) 英國格拉摩根大學針對兩千多名英國人進行研究發現,笑容會隨年齡增長而遞減,在年過50歲後,每天大笑次數已是青少年時期的一半,因為此年齡層的人較常抱怨,也總是替年輕的孩子或晚輩擔憂。此外,男女性正值52歲時,更是幽默感急遽消弱的時刻。
工研院 TTSDemo (3/7) • 合成語音 男 聲 女 聲 金庸機 女童聲 • 金庸機 (神鵰俠侶【第二十七回】鬥智鬥力) 但國師和楊過正自僵持,已至十分緊急的當口,任誰稍有移動,都要立吃大虧。小龍女那金針緩緩刺將過去,國師竟半點也抗拒不得。見金針越移越近,自兩尺而一尺,自一尺而半尺,國師大叫一聲,雙輪向前立送,一個觔斗向後翻出,可是玄鐵劍上那股威猛之極的勁力,畢竟不能盡數卸去。他剛站定腳步,身子一晃,便坐倒在地。
工研院 TTSDemo (4/7) • 合成語音 男 聲 女 聲 金庸機 女童聲 • 女童聲 (格林童話 – 青蛙王子) 小公主兩眼緊緊地盯著金球,可是金球忽地一下子在水潭里就沒影兒了。因為水潭里的水很深,看不見底,小公主就哭了起來,她的哭聲越來越大,哭得傷心極了。哭著哭著,小公主突然聽見有人大聲說:「哎呀,公主,您這是怎麼啦?您這樣嚎啕大哭,就連石頭聽了都會心疼的呀。」聽了這話,小公主四處張望,想弄清楚說話聲是從哪兒傳來的,不料卻發現一隻青蛙,從水里伸出他那醜陋不堪的肥嘟嘟的大腦袋。
工研院 TTSDemo (5/7) • 台語 TTS • 證嚴法師靜思語 • Goân-liōngpa̍t-lâng, to̍h-sīsiān-thāika-tī.(原諒別人,就是善待自己。) • Tùi ka-tīài ū sìn-sim, tùi pa̍t-lâng ài sìn-jīm.(對自己要有信心,對別人要信任。) • Ài pôe-ióng hoaⁿ-híêsim, ū hoaⁿ-hí sim, to̍h-sī ūi ka-tīchiok-hok.(要培養歡喜的心,有歡喜心,就是為自己祝福。) • Chi̍t ê kha-chhiú kiān-choân, khiok m̄-khéng chò sūê lâng, to̍h téng-î bôkha-chhiúê lâng.(一個手腳健全,卻不肯做事的人,就等於沒有手腳的人。)
工研院 TTSDemo (6/7) • 台語 TTS • 佛經 (波羅蜜多心經) • Koan-chū-chāi-phô͘-sat, hêng-chhimpo̍at-ché pho-lô-bi̍t-to sî, chiàu-kiàngō͘-ūnkaikhong, tō͘ it-chhèkhó͘-eh.(觀自在菩薩,行深般若波羅蜜多時,照見五蘊皆空,度一切苦厄) • Sià-lī-chú, sek put-ì khong, khong put-ì sek, sek chek-sī khong, khong chek-sī sek. Siū sióng hêng sek, e̍k ho̍k jû-sī.(舍利子,色不異空,空不異色,色即是空,空即是色,受想行識亦復如是) • Kiat tè, kiat tè, pho-lôkiat tè, pho-lôcheng kiat tè, phô͘-thêsat pôho.(揭諦,揭諦,波羅揭諦,波羅僧揭諦,菩提薩婆訶)
工研院 TTSDemo (7/7) • TTS 的韻律變化 • Model-based TTS 會有韻律較平板的問題 • 一般 TTS 系統只有單一種韻律表現,長篇文章顯得單調
工研院線上 TTSDemo • 中文文字轉語音合成系統 • 中文文字轉語音與影像式人臉動畫合成系統 請連線網址:http://atc.ccl.itri.org.tw/,或上網搜尋:ITRI TTS
TTS 的其它應用與挑戰 • 歌聲合成 • 表達式/情緒 (expressive/emotional)語音合成 • 根據文字內容合成出含有相對應情緒的語音 • 語者調適技術 (speaker adaptation) • 使用者只須錄製少量語料,即可將原本的TTS調適為使用者的聲音 • 多角色 • 年齡/性別/性格/地域/教育程度/… • 多語言(multilingual) • 智慧判斷發音語言、聲音一致、韻律流暢
THANKS FOR YOUR ATTENTION 謝謝您的聆聽 Q&A E-mail: C.H.Huang@itri.org.tw