资源描述:
《利用平均幅度差函数法进行基音周期估计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、SpeechPitchPeriodEstimationBasedonAMDFAbstract:Pitchperiodisakeyparameterinspeechcompression,synthesisandrecognition.Thewell-knownAMDFisoftenusedtodeterminethisparameter.Butitiseasytomaketheestimatedpitchdoubled.Accordingtotheconventionalspeech-generatingmodeAMDF,thepaperreferst
2、oanewspeechpitchdeterminationalgor-ithmwhichbasesonAMDF.Thenewmethodcanresolveboththeerrorbysearching"thefirsttrough"andthereduplicationbysearching"theminimaltrough".Itcanwinmoreaccurateresultsbyforecastingtherangeoftheroughvalue,makingandlinear-transformation.Thealgorithmnotonl
3、ysimplifiesthepitchdetection,butalsoefficie-ntlydecreasestheestimationerrorsandimprovestheprecisionofestimatedvalues.Keywords:averagemagnitudedifferencefunction(AMDF);pitchperiodestimation1引言基音是指发浊音时声带振动起的周期性,而基音周期是指声带振动频率的倒数。基音周期检测是语音信号处理中的重要工作之一。然而基音周期的精确检测实际上是比较困难的。这是因为声门激励信号
4、并不是一个完全的周期序列,在语音开头和结尾部分不具有声带振动那样的周期性,清音和有些浊音的过渡帧很难判断有没有周期性;同时语音的共振峰会严重影响激励信号的谐波结构,因为语音信号本身是有音调变化的;另外人的基音周期变化范围比较大,从50Hz到500Hz。(a)简化的语音生成数学模型与自相关法相比,AMDF方法具有运算量小、精度高等优点,在军用语音编码中得到广泛应用。但是在AMDF方法中,经常发生基音估计结果为实际基音周期的2倍,这不仅与语音信号波形复杂有关,还与短时AMDF函数的特性有关.短时AMDF函数随着滞后时间的增加,峰值幅度逐渐下降,这使得谷值点
5、检测以及谷值点的清晰度检查比较困难,针对该问题,相关文献提出了不少改进方法。本文提出了一种改进的AMDF方法,它通过简单的预设谷值范围、线性变换等步骤实现了较精确的基音检测。92传统的AMDF函数与加权AMDF函数比较传统的平均幅度差函数(AverageMagnitudeDifferenceFunction,AMDF)是Ross等人于1974年提出的,其定义为:(1)其中s(n)为离散化的语音采样序列,当采用短时处理技术加方窗时,式(1)变为:(2)从式(2)可以看出计算的差值项是不同的,,随着k的增加,求和的差值项数将逐渐减少,结果导致峰值幅度随着滞
6、后时间k的增加而逐渐下降,为了有效地改正这一缺点提出了加权的平均幅度差函数(W-AMDF):(3)(b)时域波形和及对应的传统AMDF(c)时域波形和及对应的加权AMDF3实验设计91)首先对装载后的原始语音信号进行分帧,在参数选择上使得帧长等于帧移,而且帧长控制在比较小的范围内。编写一个判断每帧语音信号短时能量的函数,统计分帧后的语音信号每帧的平均能量,由于静音帧和清音帧的能量较浊音帧的能量小,那么可以根据实验结果选择合适的平均能量阈值,当某帧的能量小于该阈值时可以认为这帧不含有基音周期信息,把该帧的帧号记录在一个数组中。(d)原始语音信号与去清音和
7、静音后信号的比较2)对每帧信号经过短时能量判断后,根据数组记录的帧号对对应帧的内容作置零处理,然后把非零内容的帧组成一个新的语音,这时候可以认为新的语音信号中含有丰富的基音周期信息。(e)重新组成的语音信号3)然后对新生成的语音信号进行分帧,然后编写一个平均幅度差函数,语音信号的短时线性加权平均幅度差函法定义为:4)根据平均幅度差函数法原理,判断每帧信号的中的局部极小值,由于人的语音频率为50~500Hz,那么对应的极小值局部搜索范围为Fs/500~Fs/50(Fs是语音信号的取样频率)个取样点,那么三倍以及三倍以上周期的情况都已经被排除,如果是二倍周
8、期,可以使当前帧的基音频率所对应的取样点与前一帧真确的基音频率所对应的取样点相减,得到当前帧的