基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究

基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究

ID:26836783

大小:52.50 KB

页数:7页

时间:2018-11-29

基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究_第1页
基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究_第2页
基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究_第3页
基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究_第4页
基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究_第5页
资源描述:

《基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于改进的时间动态规整算法的多特征组合的说话人辨认方法研究摘要通过分析当今说话人识别系统中常用的语音特征和基本的说话人识别方法,本文采用多门限多判决的动态时间规整算法作为识别方法,并提取出美尔频率倒谱及其差分、线性预测倒谱及其差分、基音周期、短时谱的临界带特征矢量和子带能量倒谱等多种语音特征进行互相组合,找出了相应于该识别方法的最优特征组合。关键词说话人识别;动态时间规整;特征组合1引言说话人识别是语音识别的一个分支,在公安侦察、声控系统、医疗诊断、电子金融业务等方面有着广泛的应用前景。它和语音识别的区别在于,它

2、并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的信息特征。从这点上说,说话人识别是企求挖掘出包含在语音信号中的个性因素。而语音识别是企求从不同人的语音信号中寻找共同因素。通过分析前人对说话人识别的工作总结,为了进一步提高识别率,本文采用了多门限多判决的改进的动态规整(dynamictimeFCC及其差分系数△MFCC、12维的线性预测倒谱参数(LPCC)及其差分系数△LPCC、12维的美尔线性预测差分倒谱系数[1](LPCMCC)、基音周期P及其差分△P、18维的短时谱的临界带特征矢量[1](本文用

3、GL表示)和子带能量倒谱[6](Sub-bandMFCC,本文用SBC表示)系数及其差分(△SBC)。其中,本文是采用自相关方法提取的基音周期,并运用了二次平滑算法[1]去除了基音轨迹中的“野点”。在提取子带能量倒谱时,本文是将语音信号按照Mel刻度在树结构中的多级子带分解为11个子带信号进行计算的。3说话人识别方法3.1动态时间规整算法动态时间规整匹配是基于动态规划的思想,解决了发音长短不一的匹配问题,把时间规整和距离测度计算结合起来的一种非线性规正技术,是语音识别中出现较早、较为经典的一种算法。设测试语音参数

4、共有I帧矢量,则测试语音模板的特征矢量序列为X=(X1、X2、…、XI),参考语音参数共有J帧,则参考模板的特征矢量序列为Y=(Y1、Y2、…、YJ)。且I≠J,则动态时间规整就是要找到一个时间规整函数j=w(i),将测试矢量的时间轴i非线性地映射到参考模板的时间轴j上,并使该函数w满足下式:(3.1)其中,是第i帧测试矢量Xi和第j帧模板矢量Yj之间的距离测度,一般这个距离测度采用欧氏距离的平方,如(3.2)式所示。D则是处于最优时间规整情况下两矢量的距离。(3.2)其中Xi=(xi1,xi2,xi3,…,xi

5、N),Yj=(yj1,yj2,yj3,…,yjN),N是特征矢量维数。实际应用中,DTW一般采用动态规划技术(DP)来实现[1]。动态规划是一种最优化算法,其原理如图1所示。将测试模板的各帧i=1,2,......,I作为二维直角坐标系的横轴,参考模板的各帧号j=1,2,......,J作为纵轴。通常规整函数w(i)被限制在一个平行四边形内,如图1,它的一条边的斜率为2,另一条边的斜率为1/2。规整函数的起始点为(1,1),终止点为(I,J),即W(1)=1,W(I)=J。的斜率为0、1或2;否则就为1或2。这是

6、一种简单的局部路径限制。求最佳路径问题可以归结为满足局部路径约束条件,使得沿路径的累积距离最小。搜索该路径的方法:从(1,1)点出发,可以展开若干条满足局部路径约束条件的路径。假设可以计算每条路径达到(I,J)点时的总的累积距离,具有最小累积距离者即为最佳路径。这个最小累积距离即为测试语音模板与参考模板语音之间的距离。则与测试模板距离最小的参考模板对应的说话人即判为识别结果。3.2改进的多门限多判决的动态时间规整方法很显然,在模板库中总的词条数目不变时,增加模板的数量会提高识别率,但是模板数目的增加也会带来系统响

7、应速度变慢的问题。因此,本文在说话人辨认系统中采取了多门限多次判决方法[2],系统参考模板库中共存有四套模板。输入语音构成的测试模板先跟第一套模板进行匹配,求出与每个模板的最佳匹配距离,距离最小者作为候选输出。设定一个拒绝门限,若最小匹配距离也大于该门限,则表明该输入语音不在语音库范围内,停止下一步匹配,结果判该输入语音对应的说话人为库外人员。另外再设一个接受门限,若匹配距离小于该门限,则候选输出为正式的输出;否则,再进行第二轮匹配,即与第二套模板进行匹配.这样一直到第四套模板,如果此时还没有得到理想的输出,则可

8、综合评价四次匹配结果,得出最后的输出结果。此外,为了减少多轮匹配的计算量,定义一个差别阈值[2],在每轮匹配结束后,计算最小匹配距离与其他模板匹配距离的差别,若所有的差别均大于差别阈值,则表明输入模板与候选输出模板较其他模板有很大的相似性,可以作为正式的输出。若仍有模板的差别小于差别阈值,则表明这些模板与候选输出模板之间还可能存在混淆,需待下一轮匹配进行澄清。因此在下一轮

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。