欢迎来到天天文库
浏览记录
ID:52210876
大小:340.85 KB
页数:5页
时间:2020-03-25
《基于离散小波变换和RBF神经网络的说话人识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、368西安理工大学学报JournalofXi’allUniversityofTechnology(2011)Vo1.27No.3文章编号:10064710(2011)03-0368-05基于离散小波变换和RBF神经网络的说话人识别杨凯峰,牟莉,许亮(1.西安理工大学计算机科学与工程学院,陕西西安710048;2.西安工程大学计算机科学学院,陕西西安710048;3.西安交通大学电子与信息工程学院,陕西西安710049)摘要:为提高说话人识别系统的性能,结合离散小波变换与RBF神经网络提出一种说话人识别新方法
2、。把小波变换与美尔频率倒谱系数提取相结合,使用离散小波变换代替美尔频率倒谱系数中的离散余弦变换,提取变换谱振幅作为特征参数。使用逼近能力、分类能力和学习速度均更优的RBF神经网络取代常用的BP网络,采用与输入样本相关的方法优化RBF网络初始权值选取。不同语音长度和信噪比的实验表明,系统识别率和鲁棒性均得到了提高。关键词:说话人识别;MFWC;RBF神经网络;初始权值中图分类号:TN912。34文献标志码:ASpeakerRecognitionBasedonDiscreteWaveletTransforman
3、dRBFNeuralNetworksYANGKaifeng,MOULi,XULiang(1.FacultyofComputerScienceandEngineering,Xi’anUniversityofTechnology,Xi’an710048,China;2.SchoolofComputerScience,Xi’anPolytechnicUniversity,Xi’an710048,China;3.SchoolofElectronic&InformationEngineering,Xi’anJiaot
4、ongUniversity,Xi’an710049,China)Abstract:Thispaperpresentsanovelmethodofthespeakerrecognitionincombiningthediscretewave-lettransformwithRBFneuralnetworkSOastoimprovethespeakerrecognitionsystemperformances.ThewavelettransformandMelFrequencyCepstrumCoefficie
5、ntextractionarecombined.Afterdisplacingthediscretecosinetransformwiththewavelettransform,theamplitudesoftransformedspectrumareextractedasthefeatureparameters.TheBPnetworksaredisplacedbytheRBFneuralnetworks,withsuperiorstudyingspeed,approachingandcharacteri
6、zingability.TheinitialweightschoosingoftheRBFnetworksareoptimizedbyusinganapproachcorrelatingwiththeinputsamples.DifferentspeechlengthandSNRexperimentsshowthatthesystemrecognitionrateandrobustnessareallimproved.Key.words:speakerrecognition;MFWC;RBFNN;initi
7、alweight在说话人识别研究中,特征参数以及识别方法能随信号的变化动态调整时频分辨率,它仅对语音的优劣直接影响说话人识别的准确率¨。在以往的静态特征进行描述,忽略了语音的动态特征。在的研究中,主要利用基频轮廓(PitchContour,识别方法上,常用方法有矢量量化(VectorQuantiza-PC)、线性预测倒谱系数(LinearPredictionCeps-tion,VQ)¨、混合高斯模型(GaussianMixturetrumCoefficient,LPCC)。、美尔频率倒谱系数Model,GM
8、M)和人工神经网络(ArtificialNeu.(MelFrequencyCepstralCoeficients,MFCC)等tralNetworks,ANN)’。7j等。由于人工神经网络特征参数来进行说话人识别。这些特征参数都是基具有自适应、自组织和自学习等优点,近年来在说话于短时平稳的假设条件,但语音信号是一种典型非人识别中得到了广泛应用。但网络模型一般采用平稳信号,其频谱特性随时问而改变。短时分析不BP网络
此文档下载收益归作者所有