低信噪比条件下的语音端点检测与增强

低信噪比条件下的语音端点检测与增强

ID:16101877

大小:518.00 KB

页数:6页

时间:2018-08-07

低信噪比条件下的语音端点检测与增强_第1页
低信噪比条件下的语音端点检测与增强_第2页
低信噪比条件下的语音端点检测与增强_第3页
低信噪比条件下的语音端点检测与增强_第4页
低信噪比条件下的语音端点检测与增强_第5页
资源描述:

《低信噪比条件下的语音端点检测与增强》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、低信噪比条件下的语音端点检测与增强1引言语音作为语言的声学表现,是听觉器官对外界声音传播介质机械振动的感知,是人类信息传递和情感交流的重要载体。目前,语音处理技术要求语音输入在安静的环境下进行,当周围环境有噪声时,系统性能会急剧下降。然而,语音通信过程不可避免地受到来自周围环境、传播介质等噪声的影响。语音增强是解决噪声污染的一种有效方法,是语音处理领域的重要组成部分,广泛应用于语音识别和语音编码等数字语音系统中。由于几乎不可能从带噪语音信号中提取纯净语音,语音增强主要是改善语音质量,消除背景噪声,提高清晰度和可懂度,使人乐于接受[1]。针对加性宽带噪声研究,当

2、前国内外语音增强的主要算法有频谱相减法、自相关法、谐波增强法、自适应噪声对消法、小波变换法、听觉掩蔽法、基于语音生成模型增强算法以及基于短时谱幅度估计算法,其中广泛使用的主要是谱减法及其变体。谱减法简单,运算量小,实时性强,增强效果较好;缺点为仅从信噪比角度改善语音质量,另外引入了音乐噪声[2]。小波分解法和听觉掩蔽法是人们研究的热点,听觉掩蔽法尚处于研究的初级阶段。人耳能掩蔽语音信号中能量较小的噪声,使得部分噪声不为人们感知[3]。结合人耳听觉掩蔽效应,笔者提出了改进型的谱减法,对语音增强算法中相关参数进行动态调整,有效抑制了音乐噪声,提高了语音质量。语音端

3、点检测将采集的语音信号分为纯噪声段和带噪语音段,判断各语音片段的起止点,是语音增强算法和语音编码的重要组成部分之一。在语音识别过程中,正确确定语音段的起止端点,可减少计算量和语音识别误判率。目前,普遍采用的语音端点检测方法,如利用频域短时能量检测方法,在低信噪比条件下,结果令人难以接受。笔者提出的采用混沌振子模型有效解决了低信噪比环境下语音端点检测问题。2预备知识2.1混沌理论1963年,美国气象学家E.Lorenz在《大气科学》杂志上发文指出,在气候不能精确重演与长期天气预报无能为力之间存在一种必然联系,还认为一连串事件可能有一个临界点,在这一点上,小的变化

4、可产生大的变化。因此,天气预报和气象学的研究开辟了混沌科学。随后,T.S.Kuhn,李天岩,J.Yorke,R.May等对混沌进行了大量研究与开发。混沌是确定性系统的内在随机性,其本质是对初始条件的敏感依赖性。20世纪90年代后,混沌科学广泛应用于信息科学、数学、物理、生物、经济、气象等领域[4]。物理学中Holmes型Duffing振子其中,c为阻尼系数;Fcosωt为圆频率ω周期激励(参考信号),其状态方程为研究发现,当不断改变周期幅度F时,Duffing系统的相图在周期和混沌问进行转换。经分析可知,系统变化的决定性因素是F/c的大小。当F/c逐渐增大时,

5、系统变化过程为:规则运动一混沌运动一规则运动。故可推断规则和混沌之间必存在2个临界状态。因此,取F略小于临界值,将待测信号作为周期激励Fcosωt的微小摄动,利用周期激励和待测信号的矢量和与临界值的关系,通过相轨迹的变化来检测待测信号。基于Duffing系统的检测方法有2种:(1)利用Duffing系统的基本混沌特性,把待测信号的频率取为周期策动力的频率,利用二者幅度和来实现周期运动与混沌运动的转变,缺点为测量频率单一;(2)利用Duffing系统的间歇混沌特性检测待测信号,优点为测量频率范围较宽。笔者采用后者检测语音端点。2.2汉语语音的特点语音主要由清音和

6、浊音组成。浊音在频域有共振峰,能量大部分集中在低频阶段,在时域呈现周期性;清音没有明显的时域和频域特性。语音是非遍历、非平稳的随机过程,但人的发音系统的生理结构在一段时间(10~30ms)变化有一定限度,故语音的短时谱具有相对稳定性。语音短时谱幅度统计是时变的,只有当分析帧长趋于无穷大时,近似认为高斯分布。2.3人耳的感知特点语音增强效果取决于人耳的主观感受,人耳对背景噪声有很强的抑制作用。感知机理涉及生理学、心理学、语音学和声学等领域,有待进一步研究。不过,目前已有些研究结论:人耳对语音的感知是通过语音信号频谱幅度获得的,对相位不敏感;具有听觉掩蔽效应,即强

7、信号对弱信号有抑制作用,掩蔽程度是声音强度和频率的二元函数,对频率临近分量的掩蔽程度比频差较大分量严重得多,高频对低频的掩蔽弱于低频对高频的掩蔽;短时谱共振峰对语音感知很重要,第三个共振峰后,波峰能量迅速减少,故对语音信号进行适度高通滤波影响不大。2.4噪声特点噪声分为加性和非加性噪声。加性噪声通常分为冲击噪声、周期性噪声和宽带噪声等。有些非加性噪声可通过适当的处理转换成加性噪声,比如,乘性噪声可通过同态变换转换为加性噪声;有些与信号相关的量化噪声可通过伪随机噪声扰动变成信号独立的加性噪声。噪声改变了语音信号原有的声学特征和模型。宽带噪声来源广泛,包括一般随机

8、噪声源,因其与语音在时域和频域完全重叠

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。