源-目标说话人声音转换研究

源-目标说话人声音转换研究

ID:36633898

大小:5.28 MB

页数:72页

时间:2019-05-13

源-目标说话人声音转换研究_第1页
源-目标说话人声音转换研究_第2页
源-目标说话人声音转换研究_第3页
源-目标说话人声音转换研究_第4页
源-目标说话人声音转换研究_第5页
资源描述:

《源-目标说话人声音转换研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、目录第一章绪论11.1源-目标说话人声音转换研究的背景和概况11.2国内外研究现状21.3本文的主要研究工作4第二章源-目标说话人声音转换的基本原理72.1语音信号的产生机理72.2说话人特征与语音模型及其参数表示92.3基于LPC的语音分析/合成模型102.3.1线性预测系数及线频谱参数的提取102.3.2基于听觉感知加权的特征参数表示142.3.3LPC分析/合成模型下的转换系统框架152.4源-目标说话人声音转换系统的组成框架152.5转换效果的评价方法172.5.1客观评价172.5.2主观评价182.6实验数据库描述182.7本章

2、小结19第三章基于矢量量化的码本映射方法203.1矢量量化的基本原理203.2码本映射方法的原理及框图213.3影响谱转换效果的几个因素233.3.1初始码字的选择问题243.3.2源话者与目标话者码本尺寸大小的匹配实验253.4本章小结27第四章分类线性映射方法284.1关于分类算法的探讨284.2分类线性映射(CLT)方法的基本原理294.2实验结果及其讨论314.2.1初始聚类中心的选择实验314.2.3码本映射法和分类线性映射法的对比实验334.2.4分类算法的选取对谱转换效果的影响344.3本章小结35第五章分类线性加权映射方法3

3、65.1高斯混合模型(GaussianMixtureModel)的基本原理365.1.1GMM的基本参数365.1.2GMM的训练算法(EM算法)385.2分类线性加权的映射(WCLT)方法395.2.1最小均方误差准则下的谱转换函数的获取415.2.2加权最小均方误差准则下的谱转换函数的获取425.3实验结果及其讨论455.3.1WCLT中转换效果和混合度的关系455.3.2不同的源/目标转换组合的对比实验465.3.3两种训练准则下的谱失真比较475.3.4训练数据集大小对转换精度的影响实验485.4本章小结49第六章部分音源特征的转换

4、研究516.1基频及其轨迹的转换516.1.1基音周期的提取516.1.2均值线性变换模型536.1.3基于基元段特征的基频轨迹的转换546.2目标激励残差信号的产生566.3实验结果和分析576.3.1基频轨迹的转换586.3.2转换语音的主观评价596.3.3转换合成语音示例616.4本章小结62第七章总结与展望63参考文献66致谢69攻读硕士学位期间发表或完成的学术论文70中国科学技术大学硕士学位论文第一章绪论第一章绪论1.1源-目标说话人声音转换研究的背景和概况语音在日常通讯中占有非常重要的地位,它携带着大量有用信息,一般认为它至少

5、包含语义信息、说话环境信息和说话人特征信息。其中,说话人特征信息描述了与说话人身份相关的声音方面特征,而与具体内容信息和说话环境无关。因此凭借语音信号中的说话人的个性特征,我们仅从电话、网络通讯、广播等中传播的声音就可辨别和确认出说话人的具体身份。语音信号与信息处理研究领域中的自动说话人识别就是利用计算机从说话人的语音进行说话人身份识别的技术。声音转换(VoiceConversion)是一种改变说话人声音特征的技术,将某个说话人的语音模式转换成与其特性不同的另一种语音模式,而保持语音中原有的具体内容信息(语义信息)和说话时的环境信息不变,例

6、如男女声的转换[1]。源-目标说话人声音转换则是指将源说话人的语音模式转换成某个指定的特定目标说话人的语音模式,即保持源说话人原有的语音信息内容不变,使转换后的语音具有目标说话人的声音特点[2]。声音转换技术有着广泛的应用前景,首先它是对语音合成技术的丰富和延拓。随着计算机技术的飞速发展,人机交互变得越来越重要,成为其中一个重要发展方向。语音由于其便捷的特性,而倍受瞩目。人机语音交互包括语音识别和语音合成两部分。前者是让计算机听懂人说话,涉及到模式识别方面的知识;后者是让计算机说话,这主要是由文语合成系统(TTS)来完成。传统的TTS系统中

7、合成语音都是单一话者的语音,这就使得合成语音显得单调,缺乏个性,要想得到多样的发音则必须建立多套语音数据库。声音转换技术则较容易实现多种音色的个性化发音,使传统的耗时庞大的语音数据库的采集得以简化为仅需采集一个说话人(源)的语音数据库,对于其他音色的声音,只需少量的训练语音,便可从源说话人的语音库通过声音转换技术获得,节约了大量工作量与存储空间,且使系统变得更加灵活[3]。还有,未来的系统会在人们接收E-mail或手机短信息时自动将信件内容用模仿发信人的声音读出来。扩展自然对话系统功能是这种应用的一种延伸。特别是在娱乐和教育领域,产生多说话

8、人特征的语音显示出很高的需求性,如戏剧、广播剧和电影里的角色配音中[4],声音转换技术的运用,可以将原演员的声音特征加入到本地化场景配音中,使之更具原汁原味。70中国科学技术大学

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。