基于若干声纹信息空间说话人识别技术的研究

基于若干声纹信息空间说话人识别技术的研究

ID:33371951

大小:10.40 MB

页数:106页

时间:2019-02-25

基于若干声纹信息空间说话人识别技术的研究_第1页
基于若干声纹信息空间说话人识别技术的研究_第2页
基于若干声纹信息空间说话人识别技术的研究_第3页
基于若干声纹信息空间说话人识别技术的研究_第4页
基于若干声纹信息空间说话人识别技术的研究_第5页
资源描述:

《基于若干声纹信息空间说话人识别技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、UniversityofScienceandTechnologyofChinaAdissertationfordoctor’SdegreeResearchonSpeakerRecognitionTechnologyBasedonVoiceprintInformationSpaceAuthor’SName:EryuWangSpeciality:SignalandInformationProcessingSupervisor:Prof.LirongDaiFinishedtime:May1虬,2012中国科学技术大学学位

2、论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文宁作了明确的说明。作者签名:掘签字目期:垫隆&:垒中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》

3、等有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。母公开作者签名:互王翮繇盈绥圣强!翮繇猩±垒刍重签字日期:2受】21垒!曼签字日期:勿f乙.石.舌摘要随着说话人识别技术的日臻成熟,研究人员开始专注于实际应用中面临的各种闽题,提出合理的解决方案,以不断的提升系统性能,将说话人识别技术真正地推向实用化。而在研究和应用当中,如何获取体现说话人身份的声纹信息,以及如何应用这些信息进行辨识都是当前的热点研究问题。声

4、纹信息是一种超音段信息,承载这种信息的载体分布于对应说话人所说的全部语音数据当中,但是不同的声纹信息载体反映说话人信息的能力并不相同。本文将承载说话人身份信息的某种载体所能表征的所有相关声纹信息,称为声纹信息空间。于是在语音数据中,就存在若干个能够用于说话人识别技术的声纹信息空间。本文将从音素空间,时域空间,频率空间,深层特征空间这四个层面的声纹信息空间入手,展开深入的研究,以求在相应的声纹空间中获得合适的特征表述,确定合适的建模方法。本论文主要的工作如下:1.基于音素空间的说话人识别技术音素片段当中不仅包含文本信

5、息,同时也包含有说话人身份的信息,因此音素片段是一种声纹信息的载体。可以通过这个载体表征的所有声纹信息,被称之为音素空间。本文目的在于,在这个独特的声纹信息空间当中,提取并应用反映说话人身份特性的信息。首先本文借助音素级别的谱包络模版集合,来揭示不同说话人之间的身份差异。进一步的,为了消除单一谱包络模版集合表征的音素空间不完备,造成的声纹信息遗漏的问题,因此本文引进了多组谱包络模版集合来刻画声纹信息。使用音素模版集合刻画声纹信息,类似于在音素空间中进行声纹信息的编码过程,因此我们称这种方法为多语言编码的说话人识别系

6、统。为了量化音素模版代表的说话人信息,本文同时使用最大似然线性回归准则估计出来的映射矩阵和偏移向量来体现这些声纹信息。最后,为了获取多个音素空间中谱包络模版集合之间的信息互补能力,本文尝试了多种合理的信息融合策略。实验表明,在音素空间中,本文提出的方法获得了系统性能上的提升,达到了本文的预期目的。2.基于时域空间的说话人识别技术相同说话人在不同的通信环境下,以及不同的自身状态下,产生的语音数据在表达形式上差异很大。而体现说话人特性的声纹信息,却蕴藏在这些产生在不同时间点的表达形式当中。本文把蕴藏在来自不同时间段语音

7、内部的声纹信息,称为时域空间。常用的说话人识别系统在这种变化的环境下,识别性能会遭受较大的衰减。传统的方法使用因子分析或者扰动属性映射来消除这些不利的影响,而本文试图用非监督自适应模型的方法来解决时域空间中的这一问摘要题。非监督自适应的方法,在模型训练的过程中,不停地使用采集自不同时间段的语音数据来更新模型,这有效的利用了分布在不同时间段上的声纹信息。本文首先回顾了非监督自适应方法在模型域上的实现,介绍了硬判决和软判决这两种更新策略。然后提出了非监督自适应在得分域上的改进算法。通过定义得分先验分布,以及得分置信度,

8、最终得到针对得分规整的~种非监督算法。这种时域空间上说话人识别技术,避免了模型域更新带来的大规模的计算复杂度,同时也可以获得不错的识别性能。3.基于频域空间的说话人识别技术语音信号频谱上的各个频带之间存在着一定的相关特性,这种相关特性不仅揭示了语音的文本信息,同时也反映着说话人身份的信息。这种说话人信息载体所体现的所有声纹信息被称为频域空间。为了揭示频域空间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。