基于发音运动连续性的语音修复的研究

基于发音运动连续性的语音修复的研究

ID:42482251

大小:2.49 MB

页数:59页

时间:2019-09-15

基于发音运动连续性的语音修复的研究_第1页
基于发音运动连续性的语音修复的研究_第2页
基于发音运动连续性的语音修复的研究_第3页
基于发音运动连续性的语音修复的研究_第4页
基于发音运动连续性的语音修复的研究_第5页
资源描述:

《基于发音运动连续性的语音修复的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于发音运动连续性的语音修复的研究PhonemicRestorationBasedontheMovementContinuityofArticulation学科专业:模式识别与智能系统作者姓名:赵涔汐指导教师:党建武教授天津大学计算机科学与技术学院二零一七年十二月万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文

2、中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日万方数据摘要语音复原效应(PhonemicRestorationEffect)是一种听觉感知现象,即在某些特定条件下,大脑会自

3、动将缺失的语音进行恢复,使缺失的语音信号听上去似乎是完整的。这一现象反映了人在噪声等特殊环境下可以对缺失的语音信号进行修复的一种能力。目前对这一现象产生的原因,有两个公认的假设:一是基于各个发音器官的协同发音作用,即发音运动的连续性,二是基于上下文语义。这两个假设相互独立相互矛盾,但均未得到有力的证实。第一个假设中提到,人类在发出语音信号时,其发音器官,如嘴唇、舌头、下颌等,在协同发音的作用下,它们高度合作、相互制约,是无法自由地、骤然地运动的,而是有一条平滑而连续的运动轨迹。而人类的大脑即通过感知这种连续性,来对缺失的语音信号进行修复。为验证

4、上面提到的第一个假设,本文提出了基于发音运动连续性的语音修复的框架。该框架的整体修复流程如下:对于有信号缺失的语音,将它输入到修复系统中,首先会对该信号进行端点检测,将现存的语音信号片段都检测出来;然后对这些语音信号进行相应的声学参数的提取,再利用发音运动与语音信号之间的双向映射模型,把它们映射成对应的发音运动特征;再将所得的发音运动特征按照时间的顺序连接起来,因为语音信号是是有缺失的,所以所得的发音运动特征自然也是有缺失的,而根据发音运动是连续的这一特点,可以利用插值等方法,将其缺失的部分进行补齐;最后再利用前面提到的双向映射模型,将补齐的发

5、音运动特征映射成相应的声学特征,并合成语音填补到原来有缺失的语音信号中,这样即实现了语音的修复。为实现上述提到的语音修复框架,本研究首先建立了基于深度神经网络(DeepNeuralNetwork,DNN)的语音信号与发音器官运动之间的双向映射模型,期间研究了不同的发音运动特征对于映射模型的影响,并根据具体问题,探究了最合适的发音运动参数、改进了传统的深度神经网络映射模型,提出了带有瓶颈特征的DNN层级结构模型;其次便是根据发音器官运动的连续性,利用三次样条插值(CubicSplineInterpolation)的方法来对缺失的发音运动特征进行修

6、复,进而实现对语音信号的修复。最后本研究从MNGU0数据库中选取了25句音频,手动对这些音频的语音信号的一部分做了替换,并利用该语音修复的框架对其进行修复。实验结果表明,本文提出的语音修复方法对于提高缺失语音信号的感知质量(PerceptualEvaluationofSpeechQuality,PESQ)是十分有效的,并且在一定程度上验证了语音复原效应的第一个假设。I万方数据关键词:语音复原效应,协同发音,发音运动的连续性,深度神经网络,三次样条插值II万方数据ABSTRACTPhonemicrestorationeffectisapercep

7、tualphenomenonwhereundercertainconditions,soundsactuallymissingfromaspeechsignalcanberestoredbythebrainandmayappeartobeheard.Thisillusoryphenomenonrevealsthesophisticatedcapabilityofthebrainunderlyingrobustspeechperceptioninnoisysituations.Therearetwoacceptedtwohypotheses:th

8、efirsthypothesisiscoarticulation;andtheotheroneissemanticcontextprovidedbys

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。