欢迎来到天天文库
浏览记录
ID:12510986
大小:26.93 KB
页数:13页
时间:2018-07-17
《语音信号特征参数提取方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、语音信号特征参数提取方法阮雄飞微电子学与固体电子学1引言语音信号是一种短时平稳信号,即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础[1]。特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。上世纪40年代,potter等人提出了“visiblespeech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特
2、征来进行语音识别[2]。后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。语音信号特征参数是分帧提取的,每帧特征参数一般构成一个矢量,所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧,每帧大小大约是20-30ms。帧太大就不能得到语音信号随时间变化的特性,帧太小就不能提取出语音信号的特征,每帧语音信号中包
3、含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大,帧之间就要有重叠,帧叠往往是帧长的1/2或1/3。帧叠大,相应的计算量也大[3]。随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。于是频域参数开始作为语音信号的特征比如频谱共振峰等。经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。对语音信号的大量分析表明,语音信号中包含着持续的准谐波成分和瞬变的
4、迁越成分[4],即语音信号是一种多分量、非线性、非平稳信号。诸如声门、声道以及辐射等影响因素很多,使得语音信号特征参数的准确提取和修正较为困难。这就需要一种精确的时频表示方法[5,6],来准确表现语音信号的各种特征。传统的语音信号处理都是基于语音信号的两个基本假设[7],即人的发声系统是线性的及语音信号是短时平稳的。这两个假定导出了各种“短时”处理方法,如:短时傅里叶变换、倒谱分析和线性预测分析等。这些“短时”处理方法虽然引入了时频局部化思想,但它们的“短时窗口”大小是固定不变的[8],不能敏感地
5、反映信号的突变,从而忽略了语音信号的时变特征,所以提取出来的参数往往不够精确。随着小波分析理论[9]的发展,小波分析也逐渐应用于语音信号的分析和处理。虽然小波分析具有可调的时频窗口,但是也存在一定的局限性,主要表现在以下几个方面[9,10]:⑴难以选择的小波基。在小波分析中,可以根据不同的要求构造不同的小波基。但是对某一信号,依据什么原则、用什么判据选择小波基在理论上和实际应用中还是一个难点。⑵固定的基函数。小波基一旦选定就不能再更改,而小波基的选择往往是根据特定的语音信号特征,所以它不具有自适应
6、性。⑶恒定的多分辨率。小波变换的多尺度特性使小波具有“数学显微镜”的特性和多分辨率分析功能。然而,一旦选择了小波基函数和变换尺度,分辨率的大小也就确定了,并不会随信号的改变而改变,因此小波变换可以实现多分辨率分析,但其分辨率是恒定的。LPCC是基于声道模型,它是目前应用最多的一种倒谱特征提取方法。线性预测系数LPC用线性预测法分析语音信号相邻样值之间的关系,得到一组相关的参数。由此语音特派生的声学特征还有线谱对LSP、PARCOR系数(反射系数)、对数面积比系数等。LPCC为LPC的倒谱参数,它的
7、原理和计算都较为简单,容易实现。算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC作为特征提取方法的。基于人类听觉模型的MFCC,它所采用的mel频率是人耳听到声音的高低和实际频率的非线性映射得到的一个频率尺度。MFCC是继LPCC之后语音识别领域中又一大创新理论,计算过程如图1。相比于LPCC它的识别性能有明显的改进,只是算量大于LPCC,用C语言在算机上做模拟时其运算时间是LPCC的近十倍。由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下,仍具有较高的识别精度,
8、特别是对噪声情况下的识别具有定的鲁棒性。更随着DSP技术的发展以及它对FFT算的支持,使得MFCC的参数提取速度也很快。结合LPC与MFC的后来提出的一种特征提取的方法PLP(感知线性预测参数),用durbin法计算LPC参数,而在算自相关时用类似MFC的方法。PLP性能类似MFCC,甚至在某些特征提取结果上要好于MFCC[11]。王彪[12]提出了一种改进的语音信号特征参数提取算法,即在MFCC参数的基础上加入了语音信号的短时能量和短时平均过零率信息,结果如表1,说明此改进的MF
此文档下载收益归作者所有