330 likes | 556 Views
语曲转换中的语音 - 乐谱对齐算法研究. 毕业设计答辩:. 清华大学计算机系 沈一峰 指导老师: 蔡莲红教授. OUTLINE. 研究背景 & 选题意义. 研究内容. 实验结果与讨论. 演示. 总结与展望. 研究背景 & 选题意义. 语曲转换 是指话音通过语音参数的修改转换成目标曲谱的歌唱声音 语曲转换的关键步骤 乐谱编辑 语音采集 音节切分 语音 - 乐谱对齐 参数修改 -> 乐曲生成. 毕业设计工作. 语曲转换中的语音 - 乐谱对齐算法研究. 毕业设计工作. 输入:. 输出:. “语曲转换”. 原始语音. 话音.
E N D
语曲转换中的语音-乐谱对齐算法研究 毕业设计答辩: 清华大学计算机系 沈一峰 指导老师: 蔡莲红教授
OUTLINE 研究背景&选题意义 研究内容 实验结果与讨论 演示 总结与展望
研究背景&选题意义 • 语曲转换 • 是指话音通过语音参数的修改转换成目标曲谱的歌唱声音 • 语曲转换的关键步骤 • 乐谱编辑 • 语音采集 • 音节切分 • 语音-乐谱对齐 • 参数修改->乐曲生成
毕业设计工作 • 语曲转换中的语音-乐谱对齐算法研究 毕业设计工作 输入: 输出: “语曲转换” 原始语音 话音 “歌声” 音节切分 语音特征 提取 语音特征 修改(转换) 话音 话音 特征参数 音段/音节边界信息 乐谱 语音-乐谱 对齐策略 特征参数的预测值 毕业设计工作
OUTLINE 研究背景&选题意义 研究内容 1 算法流程 2 各层对齐策略 实验结果与讨论 演示 总结与展望
语音&乐谱分层结构 你的姿态 你的青睐 我存在在你的存在 你以为爱 就是被爱 你挥霍了我的崇拜 你的姿态,你的青睐,我存在在你的存在 你以为爱,就是被爱,你挥霍了我的崇拜 崇拜
分层次的切分/对齐策略 韵律短语层 句子层 > = > < = > > = < < = < 音节层
语音段/静音段标记 SM_SYLICAND SM_IDLE SM_SYLLABLE SM_SINENCE SM_SILCAND 语音/静音段切分状态机 • 语音参数: • 帧能量(20)、过零率(5) • 语音/静音段切分状态机:
句子层/短语层切分点选择 • 考虑因素 • 静音段的时长 • 乐谱中句子/短语的歌唱时长 • 乐谱中句子/短语的歌词数 • 选择标准: • 句子层: • 短语层:
音节层备选切分点提取 一类声母/ 二类声母 静音/噪声 伪静音 韵尾 韵母 • 语音参数: • 能量、过零率、基频/周期、最大振幅 • 基于归并的音节切分自动机:
音节层切分点选择&对齐策略 • 设经过音节切分自动机后的音节数为M,该段的歌词数为N: • M=N • 音节与歌词一一对应 • M>N • 将相邻音节合并 • M<N • 音节拆分
OUTLINE 研究背景&选题意义 研究内容 实验结果与讨论 * 实验数据 * 实验设置 * 实验指标 * 实验结果 演示 总结与展望
实验数据 • 20个曲谱 • 东方之珠 和你一样 在那桃花盛开的地方 少年 崇拜 • 左边 开始懂了 我只在乎你 我是明星 暖暖 • 梦里水乡 爱情转移 爱转角 童话 老鼠爱大米 • 记事本 隐形的翅膀 青花瓷 青藏高原 黄昏 • 20段录音 • 女声、录音内容与曲谱一一对应 • 采用笔记本电脑录音,环境有一定噪声 • 共1320个音节,录音总时长21分20秒
实验设置 • 四种切分方式 • 人工切分 • 采用VisualSpeech对20段录音进行人工标记 • 基于归并的音节切分自动机切分 • 乐谱指导的分层次音段切分(算法1) • 改进后的乐谱指导的分层次音段切分(算法2) • 对比实验 • 以人工切分结果为标准结果 • 比较后三种切分结果的准确率
实验指标 • 切分音节的分类 • 切分准确且对齐正确的音节 • 切分准确但对齐错误的音节 • 丢失、多切、切错的音节 • 召回率&准确率 • 召回率=切分准确且对齐正确的音节个数/目标音节个数 • 准确率=切分准确且对齐正确的音节个数/切分的音节个数 • 切分准确的标准: • abs(人工标注切分点位置-自动切分点位置)<100ms &abs(人工标注音节长度-自动切分音节长度)<100ms
实验结果—自动机切分结果 一: 切分准确且对齐正确的音节数 二: 切分准确但对齐错误的音节数 三: 多切的音节数 四: 丢失的音节数 五: 切错的音节数
实验结果—算法1切分结果 句子边界/韵律短语边界切分结果:
实验结果—算法1切分结果 一: 切分准确且对齐正确的音节数 二: 切分准确但对齐错误的音节数 三: 多切的音节数 四: 丢失的音节数 五: 切错的音节数
算法结果分析 • 提高了准确率和召回率 • 平均准确率提高94.14% • 平均召回率提高88.57% • 切分错误的原因 • 句子/短语边界切分点选择错误 • 音节切分自动机的准确率不高
算法改进 • 句子/短语边界切分点选择错误 • 增加音节预测模块 • 预测每个候选语音段的音节数 • 修改句子/韵律短语边界选择策略 • 加入备选音节数作为因子 • 音节切分自动机的准确率不高 • 调整参数阈值
OUTLINE 研究背景&选题意义 研究内容 实验结果与讨论 演示 总结与展望
OUTLINE 研究背景&选题意义 研究内容 实验结果与讨论 演示 总结与展望
总结&展望 • 总结 • 阅读文献 • 实现算法 • 设计实验 • 总结改进 • 展望 • 更高效准确率更高的音节切分算法 • 更好的对齐策略
Thank you! Q&A
毕设论文目录(1) • 第1章 引言 • 1.1 研究背景及意义 • 1.2 国内外研究现状 • 1.2.1 语曲转换的现状 • 1.2.2 音节切分的现状 • 1.2.2.1 声学特征阈值法 • 1.2.2.2 基于HMM模型的音节切分法 • 1.3 论文工作 • (已完成)
毕设论文目录(2) • 第2章 分层次的音段切分算法 (已完成) • 2.1 分层模型 • 2.1.1 分层级短语语流韵律架构(HPG) • 2.1.2 分层模型 • 2.2 基于归并的音节切分自动机 • 2.2.1 基本原理 • 2.2.2 音节个数范围的估计 • 2.3 分层次的音段切分算法 • 2.4 本章小结 • (已完成)
毕设论文目录(3) • 第3章 基于乐谱指导的分层次对齐策略 • 3.1 乐谱信息的使用 • 3.2基于乐谱指导的分层次对齐策略 • 3.2.1 算法流程 • 3.2.2 各层次的对齐策略 • 3.3 算法改进 • 3.4 本章小结 • (已完成)
毕设论文目录(4) • 第4章 实验结果与讨论 • 4.1 实验目的 • 4.2 实验数据 • 4.3 实验设置 • 4.4 实验指标 • 4.5 实验结果与讨论 • 第5章 总结与展望 • 5.1 总结 • 5.2 展望