资源描述:
《语音信号端点检测方法与展望》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、信息技术2005年第7期InformationTechnology中图分类号:TP20611文献标识码:B文章编号:1009-2552(2005)07-0005-04语音信号端点检测方法与展望杨胜跃,周宴宇,黄深喜(中南大学信息科学与工程学院,长沙410075)摘要:对语音信号端点检测的主要方法,如基于短时能量的方法、基于HMM的方法、基于自相关相似距离的方法等进行了深入研究。分析了这些方法的原理、优点与不足,并进行了比较。针对各种检测方法在应用中,尤其是应用于噪声环境中的局限性,指出了语音信号端点检测领域进一步研究的方向。关键词:语音信号;端点检测;噪声Asu
2、rveyofendpointdetectionmethodsforspeechsignalYANGSheng2yue,ZHOUYan2yu,HUANGShen2xi(SchoolofInformationScience&Engineering,CenterSouthUniversity,Changsha410075,China)Abstract:Themainspeechsignalendpointdetectionmethods,suchasshorttimeenergybasedscheme,HMMbasedscheme,relatedalikescheme
3、andsoonareinvestigateddeeply.Theanalysisabouttheprincipleofthesemethods,theiradvantagesanddisadvantages,andthecomparisonbetweenthesemethodsaregiven.Accordingtotheirlimitations,especiallywhenappliedinnoisyenvironment,theresearchdirectionaboutspeechsignalendpointdetectionispointedout.K
4、eywords:speechsignal;endpointdetection;noise0引言1语音端点检测主要方法语音是人类最自然的信息载体,理应成为未来在很长一段时间里,语音端点检测算法主要是[2~3]人机交互的主要方式。而语音端点检测是语音分依据语音信号的时域特性。其采用的主要参数析、语音合成和语音识别中的一个重要环节。在实有短时能量、短时平均过零率等,即通常说的基于能际运用中,通常要求首先对系统的输入信号进行判量的端点检测方法。这些算法在实验室环境下具有断,准确地找出语音信号的起始点和终止点。这样良好的性能,但在噪声环境下,则无法达到其应有的才能采集真正
5、的语音数据,减少数据量和运算量,并效果。近年来,随着通信业的迅猛发展,在各行业对减少处理时间。通信系统语音质量的客观评价以及语音识别方法等在语音识别中,通常是先根据一定的端点检测技术实用化的强烈需求下,又出现了很多的语音端算法,对语音信号中的有声片段和无声片段进行分点检测算法。它们主要是通过采用各种新的特征参割,而后在针对有声片段,依据语音的某些特征进行数,以提高算法的抗噪声性能。如基于1994年由[1][4~5]识别。研究表明,即使在安静的环境中,语音识别JunquaJ-C提出的TF参数的语音端点检测,还[6~7][8]系统一半以上的识别错误来自端点检测器。因
6、此,有诸如倒谱系数、短时频带方差、自相关相似[9][10~11]作为语音识别系统的第一步,端点检测的关键性不距离、信息熵等也逐渐的被应用到端点检测容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进收稿日期:2005-04-29基金项目:国家自然科学基金资助项目(69975003)行。可以说,语音信号的端点检测至今天为止仍是作者简介:杨胜跃(1969-),男,博士,主要研究方向为控制理论、信有待进一步深入的研究课题。号处理等。—5—2中。有时,还通过将信号的几种特征组合成为一个当s(n)是零均值,且方差为σ的高斯白噪声时,易
7、得:新的特征参数来进行端点检测。对语音端点的判决14D[Rw(l)]=σ(4)方式也由原来的单一门限[12]、双门限[13]发展到基于N-l[14]上式表明模糊理论的判决方式。:当lFN时,方差较小;l→N时,方差较1.1基于短时能量或短时平均幅度的检测方法大。假设两个平稳随机过程s0(n)和s(n),其短时语音和噪声的区别主要是在它们的能量上,语自相关函数分别为R0(l)和Rw(l),则定义:音段的能量比噪声段的大,语音段的能量是噪声段2∑[Rw(l)-αR0(l)]能量叠加语音声波能量之和。传统的检测方法认λ=minl(5)α2为,如果环境噪声和系统输入噪声
8、比较高,以至能够∑R(l