1 / 33

关键技术

关键技术. 数据库构建 文本处理 声学建模 最优搜索 波形处理. 关键技术. 数据库构建 文本处理 声学建模 最优搜索 波形处理. prosodic. annotated corpus. event. prosodic. prosodic. prosodic annotation. prosodic. prosodic. description. acoustics. event. speech. parameter. model. model. phonetic alignment. script. parser,.

Download Presentation

关键技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 关键技术 • 数据库构建 • 文本处理 • 声学建模 • 最优搜索 • 波形处理

  2. 关键技术 • 数据库构建 • 文本处理 • 声学建模 • 最优搜索 • 波形处理

  3. prosodic annotated corpus event prosodic prosodic prosodic annotation prosodic prosodic description acoustics event speech parameter model model phonetic alignment script parser, phonetic POS context 关键技术-数据库构建 • 数据库的作用 • 合成单元 • 训练数据 • 前端模型 • 后端模型

  4. prosodic annotated corpus event prosodic prosodic prosodic annotation prosodic prosodic description acoustics event speech parameter model model phonetic alignment script parser, phonetic POS context 关键技术-数据库构建 • 数据库的作用 • 合成单元 • 训练数据 • 前端模型 • 后端模型 • 数据库的设计,TTS系统技术路线的体现 • 覆盖所有基本单元及其变体 • 音位变体 • 韵律变体

  5. prosodic annotated corpus event prosodic prosodic prosodic annotation prosodic prosodic description acoustics event speech parameter model model phonetic alignment script parser, phonetic POS context 关键技术-数据库构建 • 数据库的作用 • 合成单元 • 训练数据 • 前端模型 • 后端模型 • 数据库的设计,TTS系统技术路线的体现 • 覆盖所有基本单元及其变体 • 音位变体 • 韵律变体 • 数据库加工 • 录音 • 标注

  6. 数据库的设计 • 系统目标分析-数据库任务分析 • 基本单元确定 • 规模 • 内容 • 通用系统数据库 • 文本设计 • 来源 - 文本数据库 • 覆盖 - 基本单元,语境分类 • 指标 - 累积频度 • 具体指标 • 基本单元: 音节,100%覆盖 • 语境音节(SV: Syllable Vector):左、右声调,左、右音位类别 • 评价指标:语境音节累积频度 • 实施:基于文本数据库统计的句子的挑选

  7. 文本设计结果

  8. 数据库加工 • 录音 • 标注 • 音段 • 韵律 • 韵律标注实施 – 人工 • 标注内容 • 流程定义 • 质量:准确性、一致性 • 加快数据加工进程 • 流程标准化 • 手段自动化 • 韵律的自动标注 – 文本+声学信息

  9. 关键技术 • 数据库构建 • 文本处理 • 声学建模 • 最优搜索 • 波形处理

  10. 关键技术-文本处理 • 从文字到发音描述 • 发什么音,音位预测 • 如何发音,音位变体及韵律预测 • 如何描述发音-韵律 • 从语用的角度描述韵律,即韵律事件(初敏、施勤的工作) • 从功能的角度,韵律的交际功能(许毅的工作)

  11. 关键技术- 文本处理-韵律描述 韵律层级结构:韵律词、韵律短语、语调短语 其它的韵律现象:语调、重音、情感

  12. 关键技术-文本处理 • 从文字到发音描述 • 发什么音,音位预测 • 如何发音,音位变体及韵律预测 • 如何描述发音-韵律 • 从语用的角度描述韵律,即韵律事件 • 韵律事件预测建模 • 任务:利用分词、词性、字长等信息计算出输入文字最大可能的韵律状态分布 • 技术:DP (Dynamic Programming), DT (Decision Tree)

  13. 关键技术-文本处理-韵律事件预测建模 • 数学描述 • wn待合成的词序列 • xn对应的语言学特征 • 词典词,词长 • POS • an对应的韵律边界-层级结构 • 求解 • DP+DT • PW -> PP -> IP

  14. 韵律事件预测 – 实例 • Input lexical word layer: 他(rn) 靠(pg) 打工(vgo) 买来(vgn) 旧(ag) 乒乓球(ng) 桌(ng) ,(w2) 拚(vg) 命(ng) 练习(ng) ,(w2) 是(vy) 日本(npr) 体坛(ng) 公认(vgo) 的(usde) 勤奋(ag) 者(kn) 。(w1) • OutPut PWord Layer: 他靠 rm_pg 打工 vg 买来 vg 旧 ag 乒乓球桌 ng , w2 拚命vg 练习 ng , w2 是 vg 日本 ng 体坛 ng 公认的 ag 勤奋者 ag_ng 。 w1 • OutPut PPhrase Layer: 他靠打工 买来旧乒乓球桌 , 拚命练习 , 是日本体坛 公认的勤奋者 。 • OutPut IPhrase Layer: 他靠打工买来旧乒乓球桌 ,拚命练习 , 是日本体坛公认的勤奋者 。

  15. 参考文献 [1] Zhu Weibin, “CORPUS BUILDING FOR DATA-DRIVEN TTS SYSTEMS”, IEEE 2002 Speech Synthesis Workshop [2] Li Haiping, “The Context Variation Unit Vector”, ICSLP 2002 [3] Shi Qin, “Statistic Prosody Structure Prediction Based on Annotated Corpus”, IEEE 2002 Speech Synthesis Workshop [4] Shi Qin, “COMPARISONS AMONG FOUR STATISTICS BASED METHODS OF PROSODY STRUCTURE PREDICTION”, NCMMSC 2003

  16. 关键技术 • 数据库构建 • 文本处理 • 声学建模 • 最优搜索 • 波形处理

  17. 关键技术-声学建模 • 从发音描述到语音声学参数 • 语境变化带来音位变体,音段参数变化 • 韵律变化带来基本单元韵律声学参数的变化

  18. 关键技术-声学建模 • 从发音描述到语音声学参数 • 语境变化带来音位变体,音段参数变化 • 韵律变化带来基本单元韵律声学参数的变化 • 如何“声学地”刻画韵律 • 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征

  19. 关键技术-声学建模-韵律声学参数 图中绿色为预测值,红色实际计算值 • 韵律声学参数 • 音高(F0), 音高斜率(Slope),时长(Duration)

  20. 关键技术-声学建模 • 从发音描述到语音声学参数 • 语境变化带来音位变体,音段参数变化 • 韵律变化带来基本单元韵律声学参数的变化 • 如何“声学地”刻画韵律 • 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征 • 韵律声学预测建模 • 任务:利用输入的韵律描述信息,计算每个基本单元的韵律声学参数分布概率 • 技术:决策树(Decision Tree), GMM (Gaussian Mixture Model)

  21. 50 40 30 20 10 0 1.5 2.5 1 2 DT and GMM 聚类样本的概率分布-GMM 决策树的结构 韵律状态问题集Q: { 声调、 左右声调、 边界、 左右边界、 。。。} q1 样本库 q2 q3 q4 q5 q6 q7 Mean GMM 叶子 聚类样本 某叶子样本集F0分布

  22. 关键技术-声学建模-韵律声学预测建模 • 韵律声学预测建模训练 • 基于决策树将数据库中所有样本依据韵律声学参数分类 • 由决策树上每个叶子所有样本计算每个叶子的韵律声学参数GMM • 两类模型 • 目标模型 • 转移模型 • 声学参数预测 • 利用输入的韵律描述信息,通过回答决策树每个节点关于韵律描述信息的问题,得到对应的叶子所关联的GMM

  23. 关键技术 • 数据库构建 • 文本处理 • 声学建模 • 最优搜索 • 波形处理

  24. 关键技术-最优搜索 • 最佳候选样本序列序列搜索 • 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 • 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列

  25. 关键技术-最优搜索 • 最佳候选样本序列序列搜索 • 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 • 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 • 数学描述

  26. 关键技术-最优搜索 • 最佳候选样本序列序列搜索 • 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 • 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 • 数学描述 • 技术 • 动态规划(DP)

  27. Target Stream Target Cost Transition Cost Occurrences Search Occurrence Stream 关键技术-最优搜索 • 最佳候选样本序列序列搜索 • 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 • 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 • 数学描述 • 技术 • 动态规划(DP)

  28. References [1] Alan Black, “The Blizzard Challenge – 2005: Evaluating corpus-based speech synthesis on common datasets”, INTERSPEECH 2005 [2] A. Hunt and A. Black, “Unit selection in a concatenative speech synthesis system using a large speech database” ICASSP’96 [3] Ma Xijun, “PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION”, ICASSP’04 [4] Wael Hamza, “On Building a Concatenative Speech Synthesis System from the Blizzard Challenge Speech Databases”, INTERSPEECH 2005

  29. 关键技术 • 数据库构建 • 文本处理 • 声学建模 • 最优搜索 • 波形处理

  30. 关键技术-波形处理 • 两种情形 • 挑选样本距离预测值较远,需韵律调整 • 两拼接端点不吻合,需平滑处理

  31. 关键技术-波形处理 • 两种情形 • 挑选样本距离预测值较远,需韵律调整 • 两拼接端点不吻合,需平滑处理 • 技术 • PSOLA (Pitch Synchronous OverLap Add) • 加窗

  32. 关键技术-波形处理-PSOLA TD-PSOLA a. 基频提高 b. 基频降低 c. 时长延长 d. 时长缩短

  33. State-of-the-Art • 通用系统, 5千句录音 • 这里长城的走势比司马台更加富于变化和韵律;山势比慕田峪雄奇峻峭;构造墙体的是大块的白山岩,非常醒目。无论春夏秋冬、风云雨雪,各种光线下都能拍出美妙的照片。 • 个人系统, 326句录音 • 这里长城的走势比司马台更加富于变化和韵律;山势比慕田峪雄奇峻峭;构造墙体的是大块的白山岩,非常醒目。无论春夏秋冬、风云雨雪,各种光线下都能拍出美妙的照片。 • 英语系统, 8k句录音 • Northwest flight 123 departs New York at eight p.m. on Monday, May eighth and arrives in John F. Kennedy International Airport at ten twenty six p.m.

More Related