gmm说话人建模的关键问题研究

gmm说话人建模的关键问题研究

ID:33323025

大小:5.17 MB

页数:83页

时间:2019-02-24

gmm说话人建模的关键问题研究_第1页
gmm说话人建模的关键问题研究_第2页
gmm说话人建模的关键问题研究_第3页
gmm说话人建模的关键问题研究_第4页
gmm说话人建模的关键问题研究_第5页
资源描述:

《gmm说话人建模的关键问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据密级:膨歹?幺擎硕士学位论文⑧作者姓名指导教师学科(专业)所在学院提交日期万方数据ADissertationSubmittedtoZhejiangUniversityfortheDegreeofMasterofEngineering'一1一TITLE:&星墨星垒!QhQ里k星Yp!Q鱼!曼堕墨QfGMMmodelingforspeakerrecognition..........—.Author:Supervisor:Subject:College:SubmittedDate:’一万方数据浙江大学研究生学位论文独创性声明本人声明所呈交的学位论文是本

2、人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示感谢。学位论文作者签名:爰7五才1签字日期:碥Ic年弓月“Et学位论文版权使用授权书本学位论文作者完全了解浙江大学有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权浙江大学可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制

3、手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:27五才导师签名:签字日期:沙,哞(》月/<日髑笳签字日期办I侔尸月/彳日万方数据浙江大学硕士学位论文摘要随着计算机技术及人工智能等技术的发展,说话人识别在近几年也有了长足的进展。自从Reynolds提出将GMM(GaussianMixtureModel,高斯混合模型)用于说话人识别之后,GMM便一直是说话人识别领域的研究热点。尽管之后研究人员又提出了许多新的效果更好的说话人识别方法,如GMM.SVM,JFA,i-vector等,但这些方法均基于GMM模型,系统中GMM模型性能

4、的好坏直接关系着系统的识别性能,因此对GMM模型本身的研究十分必要。本文的主要研究内容如下:第一,UBM背景模型数据选择。UBM是说话人识别系统的核心,在选择背景说话人数据时,通常的做法都是使数据覆盖尽量多的说话人、通道以及麦克风类型,然而过多的数据中必然存在冗余,会增加UBM模型训练的复杂度。为了剔除冗余数据,Hansen提出在原始背景说话人数据中选择部分用于训练UBM的方法。本文在第三章首先验证了Hansen所提出的数据选择方法的有效性,并且在其基础上对其中的智能特征选择方法IFS采用跳帧方式改进。NIST数据库上的实验证明,利用改进的方法使得UBM训

5、练时间由原来的3小时46分钟缩短为9分钟,在大大降低模型训练时问的同时,系统等错误率EER有了0.47%的提升。第二,基于GMMtoken配比相似度校正得分的说话人识别方法。在实验中我们观察到,不同说话人的GMMtoken分布模式是不同的,而同一个说话人相同内容的语句的GMMtoken分布模式趋于一致,根据这一点我们提出了一种基于GMMtoken配比相似度校正得分的说话人识别方法。该方法根据测试语句GMMtoken配比和模型训练语句的GMMtoken配比相似度对测试得分进行校正,有效降低测试语句中部分impostor测试语句的测试得分,从而有效提升系统EE

6、R性能。MASC@CCNT上实验表明,系统等错误率EER相对基准有0.87个百分点的提升。第三,基于GMMtoken的短语识别。由于语音的GMMtoken序列刻划。T语音中音素内容的变化过程,所以被广泛的应用于语种识别和方言识别。而语音的万方数据浙江大学硕士学位论文摘要GMMtoken配比向量则刻划了语音中音素内容的组成信息,根据这一点我们提出一种基于GMMtoken配比相似度的短语识别方法,在7个人(5名男性,2名女性)的“前左右”指令集上准确率为100%,而MASC@CCNV库上准确率为88.8%。另外,通过观察不同短语的语图进一步发现,不同短语发音的

7、起始部分的各个频带的能量分布差别很大,因此我们进一步提出基于起始语音片段的短语识别方法,该方法只需要短语的起始部分的语音而不需要完整的语音内容。当只取“前左右”指令前100毫秒时,平均指令识别时间由原来的235.6毫秒缩短为l12.8毫秒,而准确率为94.8%,只下降了5.2%。所以基于GMMtoken的短语识别可适用于实时性要求较高的场合。本文工作得到以下项目资助:自然科学基金NSFC60970080,973项目2013CB329504,863项目2006AA012136关键词:高斯混合模型,说话人识别,UBM数据选择,GMMtoken,GMMtoken

8、配比,短语识别万方数据浙江大学硕士学位论文AbstractWith

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。