基于噪声环境下的说话人识别系统的研究

基于噪声环境下的说话人识别系统的研究

ID:9130165

大小:62.79 KB

页数:10页

时间:2018-04-18

基于噪声环境下的说话人识别系统的研究_第1页
基于噪声环境下的说话人识别系统的研究_第2页
基于噪声环境下的说话人识别系统的研究_第3页
基于噪声环境下的说话人识别系统的研究_第4页
基于噪声环境下的说话人识别系统的研究_第5页
资源描述:

《基于噪声环境下的说话人识别系统的研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于噪声环境下的说话人识别系统的研究对带噪声的语音信号采用消噪算法处理,并提取特征参数Mel倒谱系数来建立说话人的特征参数的混合高斯模型,构建了一个基于噪声环境的文本无关的说话人识别系统。本文详细阐述了梅尔倒谱系数这一主流语音特征及高斯混合通用背景模型来建立说话人识别系统。实验表明,增加混合高斯模型的维数可以增加系统的识别率。版权和著作权归原作者所右,如存不愿意被的情况,己的信息,关键词:说话人识别;梅尔倒谱系数:高斯混合-通用背景模型TP391.42A1674-6708(2011)53-0182-03AStudyontheText-independentSpeakerRe

2、cognitionSystemunderNoisyConditionLINXiu,FANMao-zhiSchoolofSoftwareEngineering,TongjiUniversity,Shanghai2018040引言说话人识别指在提取代表个人身份的特征信息,最终识别出说话人。作为身份鉴定的一种方法,说话人识别具有使用简单、获取方便、使用者的接受程度高等优点,但也存在许多值得研究的问题,如训练条件与测试条件不匹配。说话人识别系统在训练条件与测试条件匹配的情况下,识别系统具有很好的性能。rti于人体声道特征,语音信道及通话环境等因素的干扰,使得说话人识别系统的准确性显

3、著降低。在说话人识别系统中,有两方面重要的影响因素:一方面,所选取的语音特征参数应尽量突出说话人的个性特征,使得不同说话人可以在特征空间上尽量分离。另一方面,降低环境噪声对说话人识别系统的干扰,是使训练条件与测试条件匹配的最好办法。通常提高系统抗噪性能的方法有3种:1)前端处理,如自适应噪声抵消技术等[1];2)提取具有鲁棒性的特征参数[2];3)后端处理,如归一化补偿变换[3]。本系统的基本思路如下:首先,采用消噪算法对带噪声的语音信号进行消噪。其次,提取说话人特征信息。提取梅尔倒谱系数作为说话人的特征信息,巾这些特征信息来刻画说话人特征矢量的超空间。最后,建立高斯混合-

4、通用背景模型。通用背景模型的训练,自适应算法生成说话人模型,计算似然度进行得分测试及得分规整,完成辨认说话人1说话人识别算法框架说话人识别系统以待测说话人的语音波形作为输入,通过对波形的频谱及特征参数的计算和提取,可以得到说话人区别于其他说话人人的生理和行为特征的声学特征参数,来识别待测说话人身份。图1为说话人识别系统的整体框架。根据系统的整体框架,可以把系统分成由两个主要组成模块:基于Mel倒谱系数[5](Mel-FrequencyCepstrumCoefficients,MFCC)说话人特征参数的提取模块和基于背景模型[6](GaussianMixtureModel-U

5、niversalBackgroundModel,GMM-UBM)的S标说话人的判决模块。图1说话人识别系统1.1基于MFCC说话人特征的提取本模块的基本思路:首先,采用消噪算法对带噪声的语音信号进行处理,得到较为纯净的语音。采用消噪算法的目的在于提高语音质量,在消除背景噪音的同时使得语音信号更清晰准确,提高语音信号的可懂度。其次,对消除噪声之后的语音进行特征提取,得到可以代表说话人特征信息的梅尔到普系数,即说话人的特征参数。1.1.1消噪算法采用谱相减法对语音信号消除噪声影响,图2为谱相减法的结构图。图2谱相减法谱相减法的具体步骤如下所示:1)确定语音信号的每帧的帧长,将语

6、音信号进行分帧;2)计算各帧的能量值,确定噪音能量阈值。在能量小于阈值且能量等于阈值的时刻之前的时间段内的能量认为是该能量为噪音能量,该时间段的信号为噪音信号。从能景大于阈值的时刻起后面所有时间的信号认为是带噪声语音信号;3)对各帧语音信号进行傅立叶变换,得到语音信号的频谱信息;4)根据所确定的噪声信号信息,对带噪声语音信号进行相位和频谱能量的变换,得到增强后的语音频谱图:5)根据傅立叶逆变换,得到增强后到语音信号。1.1.2MFCC特征参数提取MFCC在人耳听觉结构和人类发声和接受声音等机理特性方面具有很好的鲁棒性,并且在频率域上可以较好的表达说话人的个性特征,具有较好的

7、识别性能和抗噪声能力。因为标准的MFCC仅仅表现了语音算数的静态特征,而语音的动态特性更能满足人耳对声音敏感的特性,故本文采用的特征提取算法是在MFCC的基础上再作一阶差分(MFCC),二阶差分(MFCC)这三部分构成了特征矢量。它对消除语音信号的帧之间的相关性具有很好的效果,并且可以很好的逼近语音的动态特性,对提高系统的识别率有很大的作用。MFCC特征参数的提取过程如图3所示:图3特征提取特征提取具体步骤如下:1)预加重,减少尖锐噪声的影响,提升高频信号,X(n)为原信号,y(n)为预加重后信号;2)加汉明窗,减

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。