基于深度学习的说话人识别系统

基于深度学习的说话人识别系统

ID:23930066

大小:3.81 MB

页数:68页

时间:2018-11-11

基于深度学习的说话人识别系统_第1页
基于深度学习的说话人识别系统_第2页
基于深度学习的说话人识别系统_第3页
基于深度学习的说话人识别系统_第4页
基于深度学习的说话人识别系统_第5页
资源描述:

《基于深度学习的说话人识别系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、焱姜邱t大#硕士研究生学位基于深度学习的说话人识别系统作者:张竞丹指导教师:__专业(獅:j^m±較论文日期-八年六月:二〇单位代11664学号1503210052分类号TP391密级硕士研究生学位论文题(中、英文)基于深度学习的说话人识别系统Speakerrecognitionsystembasedondeeplearning作者姓名张竞丹指导教师姓名职务韩俊刚教授专业学位类别工程硕士专业学位领域计算机技术提交论文二○一八年六月摘要摘要随着语音识别技术不断的发展,说话

2、人识别作为一种重要的身份认证方法受到了越来越多的关注。说话人识别又称声纹识别,通过从语音信号中提取能表征说话人身份的特征来进行识别。作为一种生物认证技术,说话人识别有着重要的研究价值和广阔的研究前景。由于语音识别技术在深度学习的推动下获得了巨大进展,说话人识别技术深受影响,越来越多的研究者们从传统的基于概率统计方法转移到基于深度学习方法的研究中来。本文受端到端说话人模型的启发,在训练数据语料较少的条件限制下对端到端网络进行改进,将深度神经网络提取的说话人深层特征作为说话人模型,再使用后端模型为说话人

3、打分,即搭建时延神经网络(TimeDelayNearalNetwork,TDNN)与概率形式的线性判别分析(ProbabilisticLinearDiscriminantAnalysis,PLDA)后处理打分模型相结合的基于深度学习的说话人识别系统。该系统用于完成文本无关的闭集合内的说话人辨认任务。文中的模型由八层隐藏层和一层池化层构成,池化层主要计算前一层隐藏层输出的均值和标准差,并将该统计量累积起来作为下一隐藏层的输入。说话人注册阶段,从训练好的网络的最后一层隐藏层中提取出说话人深层次的特征作为

4、其表征向量;测试阶段,提取同样的表征向量,并使用PLDA模型进行评分判决。此外,模型中不再选择单帧梅尔频率倒谱系数(MelFrequencyCepstralCoefficents,MFCC)做为特征,而是利用TDNN的特点,将拼接的MFCC特征作为网络输入;同样的,在网络的隐藏层中按照一定步长拼接上一层输出作为下一层输入,从而捕获语音的长时特征。最后,在PLDA后处理方法评分下,对比TDNN提取的说话人表征向量模型与传统方法i-vector的实验结果。实验结果表明,TDNN提取的说话人表征向量系统在

5、含噪音的数据集中,EER值下降了2.4%;在性别相关的测试中,女性测试数据下降0.8%;在含有中文测试的实验中,EER值减少13.8%。关键词:说话人识别;时延神经网络;i-vector;梅尔倒谱系数;PLDAIABSTRACTABSTRACTWiththecontinuousdevelopmentofspeechrecognitiontechnology,speakerrecognitionhasreceivedmoreandmoreattentionasanimportantmethodofid

6、entityauthentication.Speakerrecognition,alsoknownasvoiceprintrecognition,identifiesthespeakerbyextractingfeaturesthatcharacterizethespeaker'sidentityfromthespeechsignal.Asabiometricauthenticationtechnology,speakerrecognitionhasimportantresearchvalueand

7、broadresearchprospects.Asthespeechrecognitiontechnologyhasmadegreatprogressundertheinfluenceofdeeplearning,thespeakerrecognitiontechnologyisdeeplyaffected.Moreandmoreresearchershaveshiftedtheirresearchfromtraditionalmethodsbasedonprobabilitystatisticst

8、odeeplearningmethods.Inspiredbytheend-to-endmodel,thispaperusesdeepneuralnetworktoextractthedeepfeaturesofspeakers,andimprovethenetworkundertheconditionoflesstrainingdata.Establishingaspeakerrecognitionsystemusingtime-delayedneuralnetwo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。