资源描述:
《语音特征参数在说话人识别中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、语音特征参数在说话人识别中的应用第22卷第1期2006年3月金陵科技学院JOURNALOFJINLINGINSTITUTEOFTECHNOLOGYVo1.22.No.1Mar.,2006语音特征参数在说话人识别中的应用张银娟,张玲华,朱国洋(1.南京邮电大学通信与信息工程学院,江苏南京210003;2.中国电子商务职业经理认证管理办公室,江苏南京210003)摘要:在噪声环境下,用传统特征参数如LPCC,MFCC说话人识别往往达不到很好的识别效果.用加权,差分和组合的方法对原始特征参数进行二次处理,并对处理的结果进行PCANN变换,可得
2、到一种新的说话人特征参数.新特征实现了对原特征的降维和去冗余,丢弃了分布在高维的噪声信息,实验表明,新特征增强了说话人识别系统的鲁棒性,提高了系统的识别性能.关键词:说话人识别;特征提取;二次特征提取;主分量分析神经网络(PcANN)中图分类号:TP391.42文献标识码:A文章编号:1672—755X(2006)01—0031—04AStudyofFeatureExtractionMethodsinSpeakerRecognitionZHANGYinjuan,ZHANGLin—hua,ZHUGuyang(1.NanjingUniver
3、sityofPostsandTelecommunications,Naming210003,China;2.ChinaCenterforCertifiede.Manager,Nanjing210003,China)Abstract:Forspeakerrecognitioninnoisyenvironmentsperformsunsatisfactorilywithnormallea—tureslikeLPCCandMFCC.Thispaperdoesafurtherfeatureextractionoftheclassicalfeat
4、uresandproposedanewalgorithmoffeatureextractionbasedonprincipalcomponentanalysisneuralnetwork(PCANN).ThenewPCAparametersareeffectiveinreducingtheredundancyandweakeningthenoiseinfluence.Experimentresultsdemonstratethatthenewfeaturevectorsenhancedtherobustofthespeakerrecog
5、nitionsystem.Keywords:speakerrecognition;featureextraction;furtherfeatureextraction;principalcomponentanalysisneura1network(PCANN)说话人识别是根据从说话人所发语音中提取信息判断说话人身份的过程.语音信号中包含了话音特征和说话人个性特征,说话人识别的关键问题之一是提取反映说话人个性的语音特征参数.在说话人识别系统中常用的语音特征参数主要有LPC倒谱系数(LPCC),Mel频率倒谱系数(MFCC)等_1.2J.为
6、了提高特征的可识别性,往往会对特征进行二次处理,包括差分,组合等,这导致特征参数变得庞大,造成存储量和计算量的增加.主分量分析PCA(primarycomponentanalyze)是统计学中一种根据数据的统计分布特性,提取数据主要成分的数据处理方法.它是最小均方误差下的最优正交变换,对消除模式间的相关性,突出模式问差异性有最佳的效果,所以常被用于数据的压缩和模式识别的特征提取.由于它需要对原始数据的方差矩阵进行估值并求取其特征值和特征向量,计算量异常巨大,而基于神经网络的主分量分析算法不必进行矩阵求逆运算,并且神经网络具收稿日期:20
7、06—01—16作者简介:张银娟(1982一),女,江苏泗阳人,硕士研究生,研究方向:语音识别和说话人识别.32金陵科技学院第22卷有并行运算能力,这将降低PCA计算量,提高PCA的实用性[,.对语音特征进行主分量分析可以减小特征之间的冗余度,削弱噪声的影响.1语音基本特征及其二次特征语音的特征提取(图1)本质上是起到了降维作用,用较少的维数表现了时域上的语音信号,预处理过程包括采样量化,预加重和加窗.在特征提取前首先根据语音信号的时域与频域特性,选择适合于表征语音的特征向量.………….丝理…………一i图1语音特征提取过程1.1主流特征
8、1.1.1LPCC参数LPCC系数是一种非常重要的特征参数.它的主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道相应,而且往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,因此在识别