一种基于gammatone滤波和frft的抗噪语音识别方法

一种基于gammatone滤波和frft的抗噪语音识别方法

ID:5333409

大小:299.93 KB

页数:5页

时间:2017-12-08

一种基于gammatone滤波和frft的抗噪语音识别方法_第1页
一种基于gammatone滤波和frft的抗噪语音识别方法_第2页
一种基于gammatone滤波和frft的抗噪语音识别方法_第3页
一种基于gammatone滤波和frft的抗噪语音识别方法_第4页
一种基于gammatone滤波和frft的抗噪语音识别方法_第5页
资源描述:

《一种基于gammatone滤波和frft的抗噪语音识别方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、NCMMSC’2009,8月14-16日,新疆乌鲁木齐*一种基于Gammatone滤波和FrFT的抗噪语音识别方法尹辉,谢湘,匡镜明北京理工大学信息科学技术学院电子工程系,北京100081文摘:人耳听觉系统在噪声条件下具有自动语音识别(ASR)系统无法比拟的优良性能,将代表人耳时频处理特性的听觉模型应用到ASR系统中有望提高系统性能。语音信号是一种非平稳信号,而分数阶Fourier变换(FrFT)在处理调频信号方面有着独特的优势。本文采用Gammatone滤波器组对语音进行前端时域滤波,之后将每个子带信号依chirp假设应用FrFT来提取声学特征,Fr

2、FT的变换阶数由模糊函数自适应地计算得到。在干净与混噪的汉语孤立数字库上进行的识别实验结果表明,所提特征性能比MFCC有大幅度的提高。关键词:语音识别,Gammatone滤波,分数阶Fourier变换,模糊函数中图分类号:TN912人耳听觉系统是一个具有高度复杂性的系统,的聚焦性。研究其结构和功能具有重要的意义。众所周知,在本文基于一种听觉模型—Gammatone滤波器恶劣条件下,比如噪声条件或是传输信道变化的情组和FrFT提出了一种新的声学特征,并在汉语孤况下,人耳听觉系统的性能要比任何自动语音识别立数字库上做了识别实验验证了其性能。语音是一(ASR

3、)系统可靠的多。因此,将人耳听觉处理特性类非常复杂的信号,将语音分解为子带信号后,每即听觉模型融入到ASR系统中可能极大提升系统个子带的信号会比整帧复杂的语音更贴近chirp假性能。设,从而可以使FrFT发挥更大的优势。传统语音分析方法都是将语音视为短时平稳1Gammatone滤波器组信号,但在实际中,由于音调等的影响,语音信号的频率是持续变化的。从声音的产生方面看,传统Gammatone函数最早由Johannesma提出[3]。在的线性源/滤波器理论对于研究语音的精细结构[4]中,Gammatone滤波器被用来描述由猫的听觉神(一个基音周期内)是无能

4、为力的。从声音的感知经响应测量值经反向相关得到的数据。该滤波器的方面看,根据神经生理学的研究,人类的听觉系统时域脉冲响应可以表示为:对频率调制信号(FM,即chirp信号)非常敏感,n−1ht()=ktexp(2−+πBt)cos(2πftφ)(1)纯音并不是引起皮层神经响应的主要激励。这个研c究结果正与人耳对于基音变化的非平稳声音信号其中k表示输出增益,B表示滤波器的带宽,n是的听觉灵敏性(如警笛声或救护车声)相符合[1]。滤波器的阶数并决定了边缘处的斜度,f是滤波器c因此,传统的将语音信号建模为短时平稳信号的方的中心频率,φ是相位。当n=3,4,5

5、时,Gammatone法忽视了人耳的这种敏感特性,将语音信号分解为滤波器可以给出人耳听觉滤波器的很好的近似。chirp信号不但更符合语音本身的特性,也符合听除了可以精确模拟人耳的听觉响应,觉系统对声音的感知。Gammatone函数还有另一个优点,即可以很容易地分数阶Fourier变换(FrFT)[2]是Fourier变采用IIR滤波器实现。在本文工作中,采用的换的一种广义形式,FrFT可以解释为信号在时频平Gammatone滤波器为4阶线性滤波器,它基于冲激面内坐标轴绕原点逆时针旋转任意角度后构成的响应不变法的全极点设计,输出为复值的解析信号分数阶Fo

6、urier域上的表示方法,它融合了信号在时[5][6]。将若干个该类型的滤波器在等价矩形带宽域和频域的信息。FrFT是信号在一组正交的chirp(EquivalentRectangularBandwidth,ERB)尺度上均基上的展开,一个chirp信号的某一阶次的FrFT也匀放置形成本文采用的听觉滤波器组[7]。ERB与临是一个δ函数,因此,FrFT对chirp信号具有很好界带宽紧密相关,但是不是基于传统掩蔽实验得*基金项目:国家自然科学基金项目(60605015)作者简介:尹辉(1982-),女(汉),河北省清河县人,博士生,hchhuihui@g

7、mail.com。通讯联系人:谢湘,副教授,E-mail:xiexiang@bit.edu.cn62出,因此不易被信号和掩蔽信号之间的互调所影3FrFT自适应变换阶数的选取响,而且它比bark尺度表现更平滑。ERB尺度由某个频率下的ERB数目确定,与以赫兹为单位的线性本文中利用模糊函数来对每一帧语音自适应频率关系为:地搜索变换阶数。相比于其它的阶数搜索算法,如f=21.4log(0.00437f+1)(2)步进法,基于WVD的方法等,它的计算量较低。ERB10信号的模糊函数定义为:每一个ERB通带的带宽可以定义为中心频率∞τ∗τfc的函数,为Az(,)

8、τν=+−−∫zt()(zt)exp(j2πνtdt)(9)−∞22ERBf()=+24.70

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。