基于深度学习的短语音说话人识别研究

基于深度学习的短语音说话人识别研究

ID:35182825

大小:4.94 MB

页数:64页

时间:2019-03-21

基于深度学习的短语音说话人识别研究_第1页
基于深度学习的短语音说话人识别研究_第2页
基于深度学习的短语音说话人识别研究_第3页
基于深度学习的短语音说话人识别研究_第4页
基于深度学习的短语音说话人识别研究_第5页
资源描述:

《基于深度学习的短语音说话人识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10459学号或申请号201312182145密级硕士学位论文基于深度学习的短语音说话人识别研究作者姓名:李慧慧导师姓名:王杰教授学科门类:工学专业名称:自动化培养院系:电气工程学院完成时间:2016年5月AthesissubmittedtoZhengzhouUniversityforthedegreeofMasterResearchontheSpeakerRecognitionSystemundertheShortUtteranceBasedonDeepLearningTheoryByHuihuiLiSupervisor:JieWangAutomationSch

2、oolofElectricalEngineeringMay,2016学位论文原创性声明,本人郑重声明:所呈交的学位论文,是本人在导师的指导下独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的科硏成果。对本文的研究做出重要贡献的个人和集体。。,均己在文中W明确方式标明本声明的法律责任由本人承担学位论文作者:^^日期;2016年夕月引日学位论文使用授权声明。本人在导师指导下完成的论文及相关的实物作品,知识产权归属郑州大学根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部

3、,口或机构送交论文的复印件和电子版允许论文被查阅和借阅;本人授权郑州、大学可W将本学位论文的全部或部分编入有关数据库进行检索,可采用影印缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学一位论文或与该学位论文直接相关的学术论文或成果时,第署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。学位论文作者;十《?辜t着、日期:2016年^月毛1日摘要摘要说话人识别技术作为语音识别的一个重要分支,隶属于生物认证的一种。80年代以来说话人识别技术持续快速发展,尤其在引入了高斯混合模型后该技术在理论层面得到了进一步提高。在安

4、静的周边环境中以及语音数据充足时,该技术的识别率甚至能超过90%。但是在实际运用的过程中,由于周围环境纷乱复杂与理想环境相去甚远,经常出现采集到的原始语音数据库太小、周边噪声干扰度过大、语料部分缺失等各种各样的问题。基于GMM理论的识别方式很大程度上依靠所采集到的数据,因此在语料数据不充分的情况下,该识别方法的准确度随之严重下降。由于存在此类问题,原始识别技术在推广和应用过程中举步维艰。本文针对短语音说话人识别性能不佳的问题,结合深度学习理论,分别从特征提取和说话人模型建立两个方面进行研究,来解决传统基于GMM的识别系统在短时测试时效果不佳的问题。主要内容如下:从特征提取

5、的角度出发,解决传统说话人识别系统短语音精度不高的问题。本文利用卷积深度信念网络从原始语音信号的频谱中提取高层次语音特征,这种从原始的语音数据中挖取深度特征的方法可以避免在原语音特征上进行特征学习带来的原始说话人信息的丢失,能够提取出更具说话人区分特性的特征表达。而后在Matlab平台上基于TIMIT语音库构建了CDBN的具体模型,通过无监督预训练和有监督的参数调优对网络进行训练对原始语音频谱数据进行CDBN特征提取。并用该特征代替传统的MFCC特征,基于GMM-UBM进行实验,之后将MFCC特征与CDBN特征进行组合获取新的语音特征进行识别实验,最终计算不同特征下模型的

6、识别结果的EER,进行系统总体性能对比分析。实验表明,无论是在长语音还是短语音的情况下,CDBN特征均优于传统MFCC特征,所提出的方法有效地解决了原始识别系统在短语音识别过程中精度不高的问题。从模型建立角度出发,解决传统说话人识别系统短语音精度不高的问题。文中在传统MFCC语音特征的基础上,利用深度神经网络做说话人识别系统的后端识别模型,并引入dropout策略来抑制DNN网络训练中易于出现的过拟合问题。以深层神经网络强大的非线性建模能力为依托,对原始语音特征进行分I摘要类,并在Matlab平台上基于TIMIT说话人语音库上实现了基于MFCC特征分别与GMM-UBM和D

7、NN的说话人识别系统,计算不同模型下识别结果的EER作为系统评价指标。由系统识别结果可见,通过深度神经网络建立的识别模型能够从有限的原始MFCC特征中获取更具区分性的特征,对特征分布有更好的描述,进而极大的提升了识别精度,有效改善了传统说话人识别系统短时性能不佳的问题,同时在引入dropout策略后,系统识别性能进一步有所提高。关键词:说话人识别,短时性能,深度学习,特征挖掘,高斯混合模型,深度神经网络IIAbstractAbstractSpeakerrecognitiontechnologyisanimportantbran

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。