欢迎来到天天文库
浏览记录
ID:34480595
大小:126.39 KB
页数:3页
时间:2019-03-06
《汉语数码语音识别中一种新的抗噪声特征参数new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、维普资讯http://www.cqvip.com第26卷第3期河南科技大学学报(自然科学版)、1.26No.32005年6月JournalofHenanUniversityofScienceandTechnology(NaturalScience)Jun.20o5文章编号:1672—6871(2005)03—0046—03汉语数码语音识别中一种新的抗噪声特征参数张涛,郜彦华(河南科技大学电子信息工程学院,河南洛阳471003)摘要:为了提高中小词汇量语音识别系统在噪声环境下的识别性能,以1O个汉语数码语音为对象,利用汉语数码语音信号区别于噪声信号的准周期特性,提出了一种汉语数码语音
2、频谱包络峰值特性的提取方法,首先用基频对语音频谱采样得到由谐波值构成的包络以提高信噪比,然后再对所得包络进行峰值提取得到汉语数码语音的峰值特征。实验结果表明,在信噪比大于5dB时,用该方法得到的峰值特征具有一定的抗噪性。关键词:汉语语音识别;特征提取;抗噪语音特征中图分类号:TP274文献标识码:A【^)-刖J-●再_一语音识别特征参数的选取是语音识别研究领域非常重要的内容⋯。选取合适的语音识别特征参数,不仅可以有效地提高语音识别系统的识别性能,而且可以提高系统的稳健性和抗噪声性能,对于语音识别系统的实用化具有重要的意义。目前比较有效的语音识别参数为Mel频率倒谱系数(Me1.Fr
3、equencyCepstral(~oeficients,MFCC)和线性预测倒谱系数(LinearPrediction,LP)。在安静的环境下,这两种语音识别参数的性能相差不多,但在有噪声的环境下,二者性能均有很大下降。为了提高系统的稳健性和抗噪声性,可以将语音信号的动态特征与静态特征相结合作为语音识别特征参数,但是,其运算量和复杂性都增加很多。对于很多中小词汇量语音识别系统而言,这是得不偿失的。为了提高中小词汇量语音识别系统在噪声环境下的识别性能,本文以l0个汉语数码语音作为研究对象,根据人的听觉感知机理,提出了一种汉语数码语音频谱包络峰值特征的提取方法。实验证明利用该方法提取的
4、汉语数码语音峰值特征具有一定的有效性。1理论基础生理学研究表明,人的听觉系统对声音信号具有频率选择性,表现为对周期信号敏感,对噪声不敏感。对于混有加性噪声的语音信号,由于语音信号具有准周期性,神经发放脉冲的时间间隔受这些频率成分所支配;而加性噪声的频率分布一般不具有周期性,因此听觉系统对其不敏感J。由实验语音学可知,汉语中的数码都是单音节字,每个音节又可分为清音和浊音。从频域上看,清音和噪声的频谱非常类似,难以区分;而浊音的频谱具有明显的谐波结构,谐波的间隔正是基波频率。所以在噪声的背景下,我们可以由浊音和噪声的区别特征把语音特征找出来L3.4J。从语音信号流中利用加窗的方法取出其
5、中的一个短段,对其进行傅立叶变换,就可以得到该段语音的频谱。浊音的频谱有两个特点:(1)有明显的周期起伏结构;(2)频谱中具有明显的几个凸起点,称为“共振峰”,其频率为共振峰频率。一般浊音中可以辨别的共振峰有5个,共振峰的位置、幅度及随时间的移动决定了人的听觉感知。实验表明,其中前3个(尤其是前2个)共振峰对听觉感知起主要作用,称为“有效峰值”。浊音频谱中的“有效峰值”对于区别不同语音是至关重要的J。当语音信号中混有加性噪声时,加性噪声的频谱会使语音信号的频谱变得趋于平坦,特别是在频谱信噪比低的区域。当噪声的强度增加时,较弱的和能量较低的信号特征将逐渐淹没在噪声中,而浊音频基金项目
6、:河南科技大学科研基金资助项目(2003QN12)作者简介:张涛(1969一),男,河南洛阳人,讲师,硕士.收稿日期.~2004—10—20维普资讯http://www.cqvip.com第3期张涛等:汉语数码语音识别中一种新的抗噪声特征参数·47·谱中的共振峰由于信噪比高,受噪声的影响小,具有较好的抗噪声性。因此,在汉语数码语音识别中,利用不同发音的浊音频谱中共振峰的语音特征不同,同时又具有较好的抗噪声性这一特点,可以将语音频谱中的包络峰值(共振峰值)特征提取出来作为声学模型中的语音识别特征参数。2噪声环境下包络峰值特征提取整个包络峰值特征参数提取算法的实现过程为:语音信号经过滤
7、波、预加重及分帧等预处理后,通过傅立叶变换得到每帧的频谱,计算出基频频率,然后以基频对帧频率采样得到谱包络,找到谱包络几个大峰的位置,确定能量集中的区域,计算此区域内包络中心位置及幅度,最后得到识别特征参数【6]。2.1预处理过程【7.1(1)预滤波:语音信号首先通过一个高通滤波器,滤除50Hz的低频干扰。(2)预加重:语音信号平均功率谱在高端大约从800Hz以上按6dB/倍频程跌落,为此要进行预加重以提升高频部分,通常用具有6dB/'f:g~频程的预加重数字滤波器实
此文档下载收益归作者所有