资源描述:
《基于lpmcc特征和小波rbf网络的语音识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2008年9月西安邮电学院学报Sep.2008第13卷第5期JOURNALOFXIANUNIVERSITYOFPOSTANDTELECOMMUNICATIONSVol13No5基于LPMCC特征和小波RBF网络的语音识别侯雪梅(西安邮电学院信息与控制系,陕西西安710121)摘要:小波神经网络是结合小波变换理论与人工神经网络思想而构造出来的一种新型的神经网络模型!,融合了小波变换良好的时频局域化性质及神经网络的自学习功能。它通常可看作RBF网络的推广。本文构建了一个以Morlet母小波作为小波基,代
2、替RBF网络中的激活函数的小波神经网络结构,并采用线性预测美尔倒谱(LPMCC)作为特征参数,进行了孤立词语音识别。实验结果表明此种方法抗噪性能好,识别效率高。关键词:语音识别;RBF神经网络;小波神经网络中图分类号:TP3文献标识码:A文章编号:1007-3264(2008)05-0096-03际频率尺度的倒谱系数,而人耳所听到的声音的频引言率与实际频率并不成线性正比关系。通过实验研究发现,基于人耳的听觉模型提取的特征参数更具有识别网络的选取是语音识别系统中的关键步优于其它参数的鲁棒性。Mel频带划分是
3、对人耳听骤,其性能的优劣决定了识别率的高低。常用的识觉特性的一种工程化模拟,人的听觉感知除了音调别方法有隐马尔可夫模型(HMM)和神经网络等。高低的感知外,还有对响度的感知,人对声音响度的其中RBF神经网络除了具有一般神经网络的优点,感知与声音的频宽有关。Mel频率尺度是将声音的如多维非线性映射能力泛化能力,并行信息处理能频率非线性映射(或称弯折)到一个新的频率尺度,力等,还具有很强的聚类分析能力,它能将语音的动可较充分地反映人耳对频率及幅度的非线性感知特[1]静态特性和听觉感知特性融合到网络特性之中。性,以及人耳在听到复杂
4、声音时所表现的频率分析但是RBF网络中的激活函数不具有时频局部特性,和谱合成特性。根据人类听觉系统对频率及幅度的这使得网络在训练时由于出现冗余而降低收敛速感知实验结果,在此尺度下提取语音特征,更符合人[2]度,而小波分析对非平稳随机信号具有良好的时域耳的听觉特性。因此将常规的LPC进一步按符局部特性和变焦能力。本文将小波函数代替RBF合人耳听觉特性的Mel尺度进行非线性变换,得到[3]网络中的激活函数,使用改进的LP倒谱特征LPMel倒谱系数(LPCMCC)作为特征参数。既(LPMCC)提取方法,构建了一个非特定人的孤立词考
5、虑了声道激励,又兼顾人耳听觉,具有更强的抗噪语音识别系统,在不同SNR下进行识别,得到了较性。好的识别效果。2小波神经网络模型的设计1LPMCC特征提取2.1网络结构LP倒谱系数(LinearPredictiveCepstralCoeffi小波神经网络是结合小波变换理论与人工神经cients,LPCC)是最常用的特征参数。LPCC是按实网络思想而构造出来的一种新型的神经网络模收稿日期:2008-04-14基金项目:西安邮电学院中青年教师项目科研基金(110-0417)作者简介:侯雪梅(1976-),女,陕西咸阳人,西
6、安邮电学院信息与控制系讲师。第5期侯雪梅:基于LPMCC特征和小波RBF网络的语音识别&97&型!,融合了小波变换良好的时频局域化性质及神经适当选择a0>0,b0>0,当具有如下性质时网络的自学习功能。它通常可看作RBF网络的推Af2%∀f,22,l,k%Bfl,k广。本文构建了一个用小波基代替RBF网络中激07、4)i,k其中:Cl,k(f)为待定的展开系数。从框架中选取有限个函数,作为小波基函数,得f(x)=∀Ci,k(f)i,k(x)(5)i,kZ.Daubechies已证明:存在使(5)式以任意精度图1多输入多输出的小波神经网络结构逼近f(x)的小波基族。由此得小波神经网络结构,输出函数S(t)可用小波基函数进行如下拟合其中[4]i,k(x)便是隐层神经元激活函数。kt-ak由于Morlet母小波构成的小波基族满足Z.S(t)=∀wkh(),式中bk为尺度参数,ak为k=1bkDaubechies框架理论。因为该小波是余
8、弦调制的高平移参数,k为基函数个数。该网络中的ak,bk是不斯波,它的时频域同时分辨率高,并且在许多实际问固定的,仅k作为隐层与输出层之间的权值,题中已经得到过很好的应用。小波变换的实质是一t-bkh()可看作输入节点的输出值。我们可以看种不同参数空间之间通过小波基进行的积分变换。ak小