欢迎来到天天文库
浏览记录
ID:51088171
大小:7.15 MB
页数:64页
时间:2020-03-18
《基于统计声学建模的单元挑选语音合成方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、中国科学技术大学硕士学位论又基于统计声学建模的单元挑选语音合成方法研究作者姓名:学科专业:导师姓名:完成时间:宋阳信号与信息处理凌震华副教授二。一四年五月一日Universit∑ofSciencandTechnolg)ofChinanversitvOtcIenceandecrlnoloqyof11naAdissertationformaster’SdegreeResearchonStatisticalAcousticModelBasedUnitSelectionSpeechSynthesisMethodAuthor’SName:YangSongSpeciality:Signaland
2、InformationProcessingSupervisor:AssociateProfessorZhen—HuaLingFinishedtime:May1眦,2014中国科学技术大学学位论文原创性声明掣IIIl2I16IIoIIllI4III掣III螋本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名:定昼旦签字日期:呈!丝:苎:呈望中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有
3、者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按相关规定向国家相关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,能够将学位论文编入《中国学位论文全文数据库》等相关数据库进行检索,能够采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。回公开口保密(——年)作者签名:塞里导师签名:签字日期:呈!阡:#孑气童室聋签字日期:j竺尘生j_—一摘要自20世纪末以来,基于统计声学建模的语音合成技术发展迅速,因其具有系统构建自动化程度高、合成效果稳定等优点,逐渐成为语音合成领域的研究热点。其
4、中,隐马尔可夫模型(HiddenMarkovModel,H心)是最为常用的声学统计模型形式。目前基于H心的语音合成方法主要包含两大类,即基于HMM的参数语音合成和基于HMM的单元挑选语音合成。单元挑选语音合成方法按照待合成句的文本从预先录制好的音库中挑选合适的单元序列,然后拼接单元序列的波形得到合成最终的合成语音。在音库数据量充分的情况下,单元挑选合成方法相对参数合成方法具有合成语音音质高、自然度好的优势。本文研究基于HMM的单元挑选语音合成方法,针对现有方法在单元挑选准则中存在的两个不足进行改进。第一,在基于H删的单元挑选合成方法中,训练阶段针对不同的声学特征进行相应的声学统计模型
5、的训练,单元挑选阶段融合不同模型的似然值度量以设计单元挑选准则。在现有方法中,声学统计模型参数可以利用训练音库基于最大似然准则得到,但是单元挑选准则中用于融合不同声学统计模型的权值无法自动训练。考虑到模型权值向量的合理与否对最终合成语音自然度有着显著影响,本文提出了基于合成质量预测的模型权值优化方法,实现了对于模型权值的合理估计。第二,传统方法在进行基于HMM的频谱特征建模时往往使用协方差矩阵为对角阵的单高斯模型,该模型对于高维频谱特征的描述能力不足,因此传统方法通常采用低维且维间相关性较弱的梅尔倒谱作为频谱特征。而梅尔倒谱相对谱包络等高维频谱特征,存在频谱细节丢失的问题。因此本文提
6、出了基于受限玻尔兹曼机的频谱建模与单元挑选语音合成方法,改进了单元挑选准则,提升了合成语音的自然度。整篇文章的安排如下:第1章是绪论,将介绍语音合成的基础知识,回顾语音合成的发展历史,并概述语音合成的常用方法以及当前研究热点。第2章介绍基于H姗的单元挑选语音合成方法,包括HMM的基本原理,系统构建流程以及涉及的关键技术等,分析该方法的优缺点并引出本文中后续研究工作的动机。第3章重点介绍基于合成质量预测的模型权值优化方法。该方法首先利用预设的权值组合收集较少的人工测听结果,然后采用多元自适应回归样条构建针对不同权值下合成语音质量的预测模型,最后基于该预测模型利用模式搜索算法自动搜索最优
7、权值。实验结果表明该方法可以有效优化模型权值并改善合成语音的自然度。T摘要第4章重点介绍基于受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM)的频谱建模与单元挑选语音合成方法。该方法在模型训练阶段,采用RBM对HMM各状态的频谱特征进行建模;在语音合成阶段,使用训练得到的RBM模型计算备选样本频谱特征的对数似然值,并通过分段线性映射构建单元挑选的目标代价函数。实验结果表明该方法可以有效的提高合成语音的自然度。此外,本章还实验分析
此文档下载收益归作者所有