欢迎来到天天文库
浏览记录
ID:36626552
大小:264.00 KB
页数:13页
时间:2019-05-13
《基于周期分量对非周期分量比的噪声鲁棒语音激活检测的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于周期分量对非周期分量比的噪声鲁棒语音激活检测的研究健太郎石冢和智谷日本NTT通讯科学实验室,日本NTT公司2-4光岱,京阪奈科学城,日本京都619-0237(石冢,洛渊)@cslab.kecl.ntt.co.jp摘要这篇论文描述了利用周期分量对非周期分量比(PAR)的噪声鲁棒语音激活检测(VAD)的研究。尽管在真实世界里环境噪声在不断地改变,基于VAD的传统噪声鲁棒特性,它有收益变化的信噪比,并有时需要进行先验噪声功率的估计,对非平稳性的噪声是非常敏感的。为了解决这个问题,我们采用PAR作为基于对非平稳噪声敏感的VAD的声学特征。听力的研究也
2、提出在人类听觉系统中的周期和非周期分量的分解扮演了一个重要的角色。这个被提出的方法首先在频域中估计有着观察信号的谐波滤波器的PAR。然后检测基于和PAR有关的语音激活概率的目标速率信号的存在。利用模拟和实际的噪声语音数据来检验这个被提出的VAD算法的性能。比较确认在有不稳定的噪声情况下的被提出的VAD算法优于传统的VAD算法。1.绪论在语音信号处理技术中语音激活检测(VAD)扮演了一个关键的角色。实际上,VAD在“现实世界”中,例如在车里,在街上,在火车站的环境下,它是重要的语音处理技术,例如:语音增强【1】、语音编码【2】、和自动语音识别【3】
3、。由于这些技术强烈的取决VAD的准确性,或有时假想的VAD方案,严重的精确性不足将影响他们的实际性能。因此发展更多的鲁棒VAD【4】是非常必要的。一般,VAD由两部分组成:一个‘声学特征提取’部分,和一个‘判决机制’部分。前者提取声学特征,可以适当说明概率目标语音信号中的观察信号,其中也包括环境声学信号。根据这些声学特征,后者是最终是否针对语音信号中存在的观察信号的使用,例如,很好调制的阈值【5】,似然比【6】,和隐马尔科夫模型【7】。每一部分的性能严重的影响了VAD的性能。短期的信号能量和过零率长期来一直被当作简单的声学特性VAD方案。然而他们
4、很容易因环境噪声而降低,和环境噪声也拥有一个相似的能量和语音信号的过零率。为了解决这个问题,基于VAD的各种各样的鲁棒声学特征被提出了。作为语音信号固有特性的声学特征,例如:基于特征的自相关函数【9】-【11】,利用基于调和性的频谱特征【12】【13】,特征程度【14】,带限区域的功率【5】【15】【16】,mel频谱倒谱系数【11】,三角洲线谱频率【15】,和特征基于高阶统计【17】也被提出了。另一方面,一些方法采用噪声特性的模型【18】,或增强语音谱产生,从维纳滤波的基础上估计噪声统计【6】【16】。大多数的上述方法假设了在一定时间长度内的平
5、稳噪声,因此他们对观察信号和非平稳噪声的信噪比的改变是敏感的。然而,实际上,环境噪声不是不变的和它的功率在短的时间内动态的变化。这种敏感性使它很难在现实世界里被运用决定最佳阈值来阻止VAD的方法。因此,需要有一个VAD算法,它是对非平稳噪声不敏感。现在让我们转向声学的表征。声学信号可以被分解为它们的周期和非周期的分量。例如,语音信号的组成不仅包括周期信号,如元音和浊辅音的稳定部分,而且包括非周期信号,如起伏现象包含元音,浊辅音,停止,摩擦声和擦破声。关于心理学,结果来自并行元音识别试验表明,人的听觉系统能抑制谐波干扰和感知剩余目标信号。这一发现表
6、明,人类听觉系统可以处理调和(周期的)分量和剩余的在取消调和(非周期)分量,它脱离了周期性的优势。这样一个双重代表性的关于语音/音乐合成【20】【21】的声音已经在被研究,因为非周期分量将会影响语音/音乐的品质。另外,根据语音自动识别,在噪声环境下的发音精度可以被改良,靠用观察信号【23】【24】的周期和非周期分量。以上指明了这样的一个声学信号的表示是有效地。然而,尽管仅用VAD的语音信号的周期特征的方法被研究了很长时间【9】—【14】,但是没有一个方法,它明确的利用了VAD的周期和非周期分量。在本篇论文里,我们提出了一个VAD算法,它对非平稳噪
7、声是不敏感的,而且它利用了一个声学特征来表现观察信号的周期和非周期分量的噪声功率。这个特征被称为周期分量对分周期分量的比(PAR)。用这种方法,存在的与PARs分量有关的目标速率信号的似然率是可以计算的。第二部分给出了我们提出的方法的详细证明。第三部分做了初步的实验来说明与传统方法比较,此种方法的好处。第四部分对我们的研究进行了总结和对未来工作的展望。1.方法让我们先定义这个问题,目前的方法旨在解决问题,记录单耳的观察信号和仅有一个优势的声音,目标语音放在有背景噪声的环境里,它的频谱广泛的分布在全频域中。假定没有平稳的噪声功率,因此噪声功率的变化
8、是动态的。另外,没有背景噪声的先验知识。为了解决这个问题。我们的办法是首先将观察信号分解为周期和非周期分量。虽然传统的分解方法【20】【
此文档下载收益归作者所有