欢迎来到天天文库
浏览记录
ID:5347365
大小:276.09 KB
页数:0页
时间:2017-12-08
《基于matlab的谱相减语音增强算法的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、http://www.paper.edu.cn基于MATLAB的谱相减语音增强算法的设计与实现汤维维(武汉理工大学,信息工程学院,湖北武汉430070)摘要:谱减法是消除噪声的经典算法,它是处理宽带噪声的最通用技术,即从带噪语音估值中减去噪声频谱估值,而得到纯净语音的频谱。本文基于MATLAB对谱减法算法进行设计和实现,并对传统谱减法和改进形式的谱减法进行比较。仿真表明,改进形式的谱减法可以有效地降低背景噪声,提高信噪比。关键词:语音增强;传统谱减法;改进形式的谱减法;MATLAB声。它的来源很多,包括风、呼吸噪声和1引言一般随机噪声源。量化噪声通
2、常作为白噪人们在语音通信过程中不可避免地会声来处理,也可以视为宽带噪声。由于宽受到来自周围环境、传输媒介引入的噪声、带噪声与语音信号在时域和频域上完全重通信设备内部电噪声、乃至其它讲话者的干叠,因而消除它最为困难。由于人耳对语扰。这些干扰最终将使接收者接收到的语音音频谱分量的相位不敏感,所以谱减法主[1]已非纯净的原始语音信号,而是受噪声污染要针对短时幅度谱。的带噪语音信号。MATLAB是一种既可交互使用又能语音增强是解决噪声污染的一种有效解释执行的计算机编程语言,是解决工程方法,它的一个主要目标是从带噪语音信号技术问题的计算平台。通过MATLAB
3、编中提取尽可能纯净的原始语音。语音增强目程执行谱减法算法进行仿真,我们可以直前已发展成为语音信号数字处理的一个重观地看到算法思想以及算法的执行效果,要分支。它的应用范围是降低听觉噪声、识有利于进一步工程的开展。别系统的预处理和线性预测编码的预处理。2语音增强算法这种技术对语音识别和说话人识别是十分重要的,可使识别装置在通常环境中的含噪2.1传统谱减法语音下进行工作。然而,由于干扰通常都是假定语音为平稳信号,而噪声和语音为随机的,从带噪语音中提取完全纯净的语音加性信号且彼此不相关。此时带噪语音信号几乎不可能。在这种情况下,语音增强的目可表示为的主要有
4、两个:一是改进语音质量,消除背()()()yn=+sndn01≤≤nN−(1)景噪声,使听者乐于接受,不感觉疲劳,这式中,sn()为纯净语音信号,dn()为平稳是一种主观度量;二是提高语音可懂度,这加性高斯噪声。实际上,为避免分帧时的截是一种客观度量。这两个目的往往不能兼得。断效应,应对yn()加窗。为了书写方便,语音增强不但与语音信号数字处理理这里用yn()代表加窗后的带噪信号。设论有关,而且涉及到人的听觉感知和语音yn()的傅里叶系数为YY=expjθ,kkk学。再则,噪声来源众多,随应用场合而异,它们的特性也各不相同,因此针对不sn()的傅里
5、叶系数为SSkk=expjαk,同的噪声,我们将采取不同的语音增强对dn()的傅里叶系数为Nk,由(1)式,则有策。语音增强中的谱减法是处理宽带噪声YS=+N。而语音增强的任务就是利用kkk的最通用技术,即从带噪语音估值中减去已知的噪声功率谱信息,从Y中估计出S。kk噪声频谱估值,而得到纯净语音的频谱。由于人耳对相位不敏感,所以只要估计出宽带噪声通常可以假定为高斯噪声和白噪S,然后借用带噪语音相位,进行反傅里k-1-http://www.paper.edu.cn叶变换后就可得到增强的语音。2γkk=Y/λ(k),则式(5)可以改写为yn()经FFT
6、后,有YSkk=+Nk,由此1/2Gk=−(11/γk)(7)可得222**由式(7)可以清楚地看出谱相减的物Y=+SN+SN+SN(2)kkkkkkk理意义:它相当于对带噪语音的每一个频谱式中,*表示复共轭。因为假定噪声为不相分量乘以一个系数G。当信噪比高时,含k关的,即sn()与dn()独立,不会出现信号语音的可能性很大,衰减小。反之,则认为和噪声的乘积项,则互谱的统计均值为0。含有语音的可能性小,衰减则增大。而N为零均值的高斯分布,所以有k2.2改进的谱减法222EY⎡⎤=+E⎡S⎤E⎡N⎤(3)⎣⎦kk⎣⎦⎣k⎦式(5)中的λ(k)是以无声
7、期间的统22只要从Y中减去N便可恢复计平均的噪声方差代替当前分析帧的噪声kk频谱,而实际上噪声频谱服从高斯分布2S。之所以能这样是基于人耳对语音相位k1−−()xm2/2σ2px()=e(8)不敏感(相聋)这一特点。因为噪声是局部2πσ平稳的,故可以认为语音前的噪声与发语音其中,m为x的均值,σ为标准偏差。噪声的期间的噪声功率谱相同,因而可以利用发语帧功率谱随机变化范围很宽,在频域中的最音前(或后)的“寂静帧”来估计噪声。对大、最小值之比往往达到几个数量级,而最于一个分析帧内的短时平稳过程,有大值与均值之比也达6~8倍。因而,在减去22YSkk=+
8、λ(k)(4)噪声谱后,会有些较大的功率谱分量的剩余2部分,在频谱上呈现出随机出现的尖峰,在其中,λ(k)为无语音时N的统
此文档下载收益归作者所有