说的技巧-顾客更在乎你怎么说

说的技巧-顾客更在乎你怎么说

ID:22318201

大小:1.12 MB

页数:36页

时间:2018-10-20

说的技巧-顾客更在乎你怎么说_第1页
说的技巧-顾客更在乎你怎么说_第2页
说的技巧-顾客更在乎你怎么说_第3页
说的技巧-顾客更在乎你怎么说_第4页
说的技巧-顾客更在乎你怎么说_第5页
资源描述:

《说的技巧-顾客更在乎你怎么说》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、语音端点检测的方法演讲者:刘德体语音端点检测的目的和意义基于短时能量和短时平均过零率的端点检测基于倒谱特征的端点检测基于熵的端点检测基于复杂性的端点检测(KC复杂性和C0复杂性)不同语音端点检测方法的实验结果对比语音端点检测的目的和意义目的语音信号端点检测技术其目的就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。意义有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和

2、静音段的比特率,提高编码效率。基于短时能量和短时平均过零率的端点检测短时能量语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。这是仅基于短时能量的端点检测方法。信号{x(n)}的短时能量定义为:语音信号的短时平均幅度定义为:其中w(n)为窗函数。短时平均过零率短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域

3、波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。过零率就是样本改变符号次数。信号{x(n)}的短时平均过零率定义为:式中,sgn为符号函数,即:过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发计算过零率容易受低频干扰,特别是50Hz交流干扰的影响。解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限T,将过零率的含义修改为跨过正负门限。于是,有定义:检测方法利用过零率检测清音,用短

4、时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个变量表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果过渡段中两个参数中的任一个

5、超过高门限,即被认为进入语音段。处于语音段时,如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音,继续扫描以后的语音数据,否则标一记结束端点。20004000600080001000012000140001600018000-101Speech2040608010012014016018020022002040Energy204060801001201401601802002200102030ZCR数字“4”的短时能量与平均过零率基于倒谱特征的端点检测概念信号倒谱的一种定义是信号的能量谱密度函数S(ω)的对数

6、的傅里叶反变换,或者可以将信号s(n)的倒谱c(n)看成是logS(ω)的傅里叶级数展开,即:式中Cn=C-n为实数,通常称为倒谱系数,且对于一对谱密度函数S(w)与S’(w),利用Parseval定理,其对数谱的均方距离可用倒谱距离表示:式中,Cn与C’n分别代表谱密度函数S(w)与S’(w)的倒谱系数。方法:倒谱距离的测量法步骤类似于基于能量的端点检测,只是将倒谱距离代替短时能量来作为特征参数。首先,假定前几帧信号是背景噪声,计算这些帧的倒谱系数,利用前几帧倒谱系数的平均值可估计背景噪声的倒谱系数,噪声倒谱系数的近似值可按下述规则

7、进行更新,即当前帧被认为是非语音帧:式中为噪声倒谱系数的近似值,为当前测试帧的倒谱系数,p为调节参数。倒谱距离可用下式近似计算:式中对应于的噪声倒谱系数,计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹类似于基于能量的端点检测过程利用倒谱距离轨迹可检测语音的端点。基于熵的端点检测基于信息熵的检测方法对于离散型信源,当它由若干随机事件所组成时,随机事件出现的不确定度用其出现的概率来描述。事件出现的可能性愈小,概率就愈小,·而所含信息量却愈大;相反,事件出现可能性愈大,概率就愈大,而所含信息量却愈小。则信源提供的平均信息量为:这里

8、所定义的H(x)就是信息熵。由于语音信号的幅度相对于背景噪声而言其幅度的动态范围大。因此可以认为语音信号在范围(一M,M)中的随机事件大,也就是熵值大,而无声状态(信号中只含噪声)的幅度小、分布相对集中,因而熵值小。按照

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。