汉语数码语音识别分析毕业设计第二章

汉语数码语音识别分析毕业设计第二章

ID:864907

大小:365.53 KB

页数:21页

时间:2017-09-21

汉语数码语音识别分析毕业设计第二章_第1页
汉语数码语音识别分析毕业设计第二章_第2页
汉语数码语音识别分析毕业设计第二章_第3页
汉语数码语音识别分析毕业设计第二章_第4页
汉语数码语音识别分析毕业设计第二章_第5页
资源描述:

《汉语数码语音识别分析毕业设计第二章》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第二章汉语数码语音的特征提取及端点检测方法分析§2.1语音特征参数提取2.1.1语音特征参数:LPCC和MFCC在语音识别系统中,模拟的语音信号在完成A/D转换后成为数字信号,但时域上的语音信号很难直接用于识别,因此我们需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征,另一方面也起到数据压缩的作用。目前通用的特征提取方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。例如采用的语音库采样率为11kHz,因此我们采用的帧长为220个采样点(即20ms),帧步长(即每一

2、帧语音与上一帧语音不重迭的长度)为110个采样点(即10ms)。现有语音识别系统采用的最主要的两种语音特征包括:²线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。²Mel频标倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)。该特征考虑了人耳的

3、听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC参数具有识别性能和抗噪能力。本文采用MFCC参数为语音特征参数。2.1.2MFCC参数的优点与LPCC参数相比,MFCC参数具有以下优点:1.语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰。MFCC参数将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰。LPCC参数是基于线性频标的,所以没有这一特点。2.MFCC参数无任何

4、前提假设,在各种情况下均可使用。而LPCC参数假定所处理的信号为AR信号,对于动态特性较强的辅音,这个假设并不严格成立,而汉语数码语音识别需要对辅音有较强的分辨能力,如“6”和“9”,“1”和“6”等,所以MFCC参数在汉语数码语音识别中优于LPCC参数。另外,当噪声存在时,AR信号会变为ARMA信号:(2.1)其中H()为受噪声污染的信号功率谱,1/A()为AR信号功率谱,为噪声功率。这会给LPC分析的结果带来较大误差。因此,MFCC参数的抗噪声能力也优于LPCC参数。3.MFCC参数提取过程中需

5、要FFT变换,我们可以由此顺便获得语音信号频域上的全部信息。而以后将要介绍的端点检测、语音分段、鼻音特征提取等算法都要利用到语音的频域信息,因此MFCC参数的提取可以节省掉以上算法FFT的计算量。2.1.3MFCC参数提取的具体步骤1.假定已有一帧采样语音,N为帧长。为方便后面所需的FFT,我们取N=256。对加Hamming窗后作N点FFT,将时域信号转化为频域分量。2.将线性频标转化为Mel频标。转化方法是将频域信号通过24个三角滤波器,其中中心频率在1000Hz以上和以下的各12个。滤波器的中

6、心频率间隔特点是在1000Hz以下为线性分布,1000Hz以上为等比数列分布。三角滤波器的输出则为:,i=1,2,....,24(2.2)其中为频谱上第k个频谱点的能量,为第i个滤波器的输出,为第i个滤波器的中心频率。3.用离散余弦变换(DiscreteCosineTransformation,DCT)将滤波器输出变换到倒谱域:k=1,2,...,P(2.3)其中P为MFCC参数的阶数,我们取P=12。即为所求的MFCC参数。求出MFCC参数后,我们按式(2.3)对其进行加权,并按式(2.4)计算差

7、分MFCC参数。(2.4)(2.5)其中下标l与l-k表示第l与l-k帧。故最后提取的特征参数为24维的特征矢量,包括12维MFCC参数和12维差分MFCC参数。§2.2共振峰轨迹提取2.2.1共振峰提取方法共振峰是区分语音的本质特征。由于易混语音对“2”和“8”的区别特征表现在第二共振峰和第三共振峰的上升或下降上,即“8”中塞音过渡段第二、第三共振峰的上升和“2”中儿化音第三共振峰的下降,所以我们可以提取共振峰轨迹以提高“2”和“8”的辨识率。目前常用的共振峰提取方法大致可以分为三类:1.基于LP

8、C分析的峰值选取法(Peak-picking),其主要方法是利用LPC分析获得声道频响曲线,然后选取其峰值点为共振峰频率估计值。2.求根法,利用LPC分析求出声道转移函数1/A(z),用Newton迭代法解方程1/A(z)=0,求其极点作为共振峰频率估计值。3.基于动态规划的方法,即事先假设有K个共振峰,即K个全极点滤波器。然后用动态规划的方法确定K个滤波器的最优位置,使得其频响特性与实际频响特性最为一致,而上述K个滤波器的最优位置即为共振峰频率。以上三种算法各有优缺

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。