欢迎来到天天文库
浏览记录
ID:10940356
大小:111.50 KB
页数:10页
时间:2018-07-09
《基于gmm的算法在语音检出系统中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于GMM的算法在语音检出系统中的应用研究-电气论文基于GMM的算法在语音检出系统中的应用研究乔立升,赵永忠,吴韬,沈军(中国人民解放军78020部队,云南昆明650221)摘要:高斯混合模型(GMM)由于通过改变高斯的混合度,能够逼近任意概率分布,所以在语音识别领域应用广泛。对高斯混合模型的训练,常见的训练方法是最大似然估计(MLE),这种训练方法能最大程度拟合所有样本的分布,但没有考虑模型之间的相互影响,导致识别过程会出现混淆情况;区分性模型训练算法,适合应用于大数据量复杂组合类别的区分问题。这里提出采用的区分性模型训练方法,其原则是最小化分类错误风险,通过更精确细致地刻画不同模
2、型之间的分类面,提升识别的效果。实验结果表明,该训练方法比最大似然估计的训练方法在多类别语音检出任务中具有更好的识别效果。关键词:高斯混合模型;最大似然估计;区分性模型训练;语音检出中图分类号:TN912.3?34文献标识码:A文章编号:1004?373X(2015)13?0059?03收稿日期:2015?01?160引言语音识别技术飞速发展,各种语音检出算法的提出如雨后春笋,但都是基于语音信号特征,或基于语音信号统计特性,或是基于信号特征与统计特性相结合的方法,各种算法各有优劣,适用对象不同。综合文献[1?5]可知,基于短时能量和过零率的算法,适用于信噪比较高的场合,但难以区分清音
3、和噪声;基于自相关相似距离算法,总的来说与HMM算法的效果大致相同,但是对于结尾的判断却优于HMM模型,这是因为语音大多以浊音结尾,此时自相关法的判断精度较高,但对于清音开头的语音,尤其是[s],[ks],[n]等音节,自相关算法的检测精度就不高;基于高斯混合模型(GaussianMixtureModel,GMM)的算法,分类较细,提供了完整的基于数据的识别框架,具有良好的推广性和扩展性。在GMM框架里,主要的问题是如何根据有限的数据产生对应的GMM模型,目前常见的训练方法是采用最大似然估计(MaximumLikelihoodEstimation,MLE),该方法基于MLE规则,最大
4、程度拟合所有样本的分布,模型参数不断更新,直到观察序列的概率提高到某些极限点。实际上,由于其没有考虑声学模型之间的相互影响,在训练语料量比较大时,识别过程中会出现混淆情况。区分性的模型训练算法,适合应用于大数据量复杂类别组合的区分问题[6]。本文提出采用的区分性模型训练方法,其原则是最小化分类错误风险,将有限的模型描述能力更多用于容易错的边界样本的区分,参数估计时不仅使得属于该类别的训练数据概率最大,同时还要使得不属于该类别的训练数据概率最小,通过更精确细致地刻画不同模型之间的分类面,达到提升识别效果的目的。实验结果表明,基于该算法的训练方法比最大似然估计的训练方法在多类别语音检出任
5、务中具有更好的识别效果。1高斯混合模型描述GMM用于语音检出[7],它直接对语音中各类数据特征的统计分布进行拟合。GMM可以看作是单状态的HMM,GMM模型并不关注语音的时序过程,它只描述语音特征参数的静态分布,不同类别语音特征的静态分布不同,因此通过比较不同类数据的GMM模型,就可以区分不同的语音类别。在实际应用中,GMM高斯混合度要求比较高,一般要32个高斯函数或以上,甚至达到2048个高斯函数。一个高斯混合模型的概率密度函数由多个高斯概率密度函数加权求和得到,如式(1)所示:式中:μi为均值矢量;Σi为协方差矩阵。至此,整个高斯混合模型λ可由{ωi,μi,Σi}来描述。其中GM
6、M的协方差矩阵Σi可以有多种形式,可以是每个高斯概率密度函数都有一个经过训练得到的协方差矩阵,也可以是某一类别语音的GMM模型的所有高斯概率密度函数共用同一个协方差矩阵,还可以是所有语音类别的GMM模型都共用同一个协方差矩阵。同时,协方差矩阵既可以是满阵也可以是对角阵,但考虑到在模型的训练过程中需要用到协方差矩阵的逆,而矩阵求逆往往是一个非常耗时的过程,所以协方差矩阵一般采用对角阵的形式。采用GMM作为语音声学模型的原因如下:(1)一个语音类别的声学特征参数在特征空间的分布由该类别语音不同音的特征矢量的分布组成。对于语音检出,可以认为GMM的各个高斯成分模拟了同一类别语音不同的未知音
7、素的声学特征,每个高斯成分描述了不同的音素分布。(2)统计理论表明,用多个高斯概率密度函数的线性组合可以逼近任意分布,因此,GMM可以对任意的语音特征分布进行精确的描述。实际上,将GMM模型应用于语音检出任务,用每个类别语音数据单独训练一个GMM模型,在测试时测试语音对所有的GMM模型求对数似然度函数,得分高的模型就判断为目标类别。同时,由于每个类别的数据可以积累较多,数据量可以得到保证,高斯数目一般较大,如128,由于这种特性,在语音检出任务中这种方法的
此文档下载收益归作者所有