资源描述:
《基于K均值混合高斯模型的声调识别系统性能研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于K均值混合高斯模型的声调识别系统性能研究陈蕾基于K均值混合高斯模型的声调识别系统性能研究陈蕾(甘肃农业大学信息与科学技术学院甘肃兰州,730070)摘要:声调识别系统的核心是识别模型,模型性能的好坏决定着整个系统的识别能力。混合高斯模型能够很好地逼近每个声调,拟合该声调所满足的函数形式,模型常采用EM迭代算法作为模型参数的训练算法。该算法的缺点是其估计精度过分依赖于对初始值的选择。针对这一问题,文章采用K均值算法代替EM算法作为混合高斯模型的训练算法,实验表明,该算法能够有效提高系统的识别率,并具有
2、较好的收敛性。关键词:K均值算法;混合高斯模型;声调;识别模型中图分类号:TP391.4文献标识码:ADOI编码:10.14016/j.cnki.1001-9227.2017.02.048Abstract:Therecognitionmodelisthecoreofthetonerecognitionsystem,themodelperformancedecidedtheidentificationcapabilityofthewholesystem.Gaussianmixturemodelisagoo
3、dapproximationofeachtone,andbuildingfunctionofthetone.EMiterationalgorithmisoneofpopularalgorithmsforparameterstrainingofGaussianmixtureprobabilitydensitymodel.However,themethoddependsonthechoiceofinitialvalueshighly.Inordertosolvethisproblem,K-meansalgo
4、rithmisusedtotraintheparametersofGaussianmixturemodeltonerecognitionmodelinthispaper.Thesimulationresultsindicatethatthisalgorithmiseffectivetoimprovetherecognitionrateofthetonerecognitionmodel,andithasagoodconvergence.Keywords:K-meansalgorithm;gaussianm
5、ixturemodel;tone;recognitionmodelk作为参数,把n个对象分成k个簇,分配时要保证簇内0引言具有较高的相似度,而簇间的相似度则较低(相似度的计声调识别模型是汉语声调分析与识别的关键,性能良算是根据一个簇中对象的平均值来计算的)。好的汉语声调模型可以保证声调识别和分析结果准确性,K均值算法的具体步骤如下:可以有效地提高汉语声调识别的准确率。目前主要使用(1)在一个有n对象的数据集中,随机选择或按照一的识别方法:利用实验所观察的结果制定的规则进行识别定的规则选择k个对象作为初始
6、的k个聚类的聚类中心;[1][2]的基于规则的方法;模糊识别法;神经网络识别方(2)利用式1的欧式距离公式计算每一个数据对象[3-4][5]法;基于隐马尔科夫模型的方法和高斯混合模型与各聚类中心之间的距离,并根据计算结果将各数据分配法。隐马尔科夫模型是近几年语音识别技术的主导方到与其距离最近的类中;[5]法,它能够有效地提取语音中的时序特征,但存在参数d(x,x)=(x-x)T(x-x)(1)ijijji训练计算量大、非线性分类能力不足等缺点。高斯混合模(3)更新聚类中心:利用步骤2中得到的新类分别计型
7、(Gaussianmixturemodel)是一种具有混合高斯密度函数算每个类中数据的算数平均值,具体计算方法如式2所[6]的隐马尔科夫模型,简称GMM。文献[6]中对汉语声调示,并以此作为新的聚类中心的基频分布特性进行了分析,发现汉语中的每种声调均满1cj=∑x(2)足亚高斯分布,这说明汉语声调基频的总体分布具有一致Njx∈ωj性和高斯性,因此可以采用具有高混合数的高斯混合模型(4)重复执行步骤2和3,直到准则函数收敛,函数如对汉语声调基频进行逼近,形成相对应的函数形式。式(3)所示。综上所述,高斯混
8、合模型能够更好地描述汉语声调的knjE=∑∑d(xj,ci)(3)基频,得到符合汉语中每种声调的函数形式,因此,本文采i=1j=1用高斯混合模型作为汉语声调的识别模型,并采用K均2声调识别系统值聚类算法代替传统的、对初始值选择较为敏感的EM算法,作为识别模型参数的训练算法。实验表明,该算法具声音的四个要素是音质、音长、音强和基频,其中基频有较好的收敛效果,能够有效地提高识别系统的识别率。是目前声调系统中最普遍、最重要的区别因素,是区分汉语[