资源描述:
《基于fvq和hmm模糊训练的语音识别方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、.,.第24卷第2期中国科学技术大学学报Vol24No2.1994年6月JOURNALOFCHINAUNIVERSITYOFSCIENCEANDTECHNOLOGYJun1994基于FVQ和HMM模糊训练的语音识别方法‘戴蓓蓓郁正庆张劲松王长富(电子技术部)摘要本文提出了一种塞于模糊夫量童化(FvQ)和隐马尔柯夫模型(HMM)模糊训练的语音识别新方法.利用模糊夫童量化替代了传统方法中的夫量童化,语音特征参数序列经过模糊夫童量化后得到模糊观察并号序列.在此塞础上提取出一个反映训练样本总休随机变化特性的模糊观察符号序列,然HMM后用它对该音节的进行.,u一e
2、l一次性全局训练训练算法经传统的Bamwch茸法改进得到经十个汉语数字的,,对比实验表明该训练算法大大提高了来统的训练速度模糊夫量量化与传统的夫量,,,童化相比不仅提高了隐马尔柯夫模型的普棒性进而提高了系统的识别率而且在语音训练数据不充足的情况下,也能得到很好的识别性能.,,,,关键词模糊夫量量化隐马尔可夫模型模栩观察符号序列语音识别模糊训练中图法分类号TN912·34l引言,,近年来隐马尔柯夫模型(HMM)在语音识别中得到了广泛的应用人们提出了基于HMM.的许多语音识别方法最为典型的是基于矢量量化(vQ)的离散HMM语音识别方法、连续密,度HMM语音识
3、别方法以及介于两者之间取折衷考虑的半连续HMM语音识别方法等这些方卜.法〔3〕在语音识别中均取得了较大的成功基于vQ的离散HMM语音识别系统(称为vQ/HMM系统)通过矢量量化将语音特征参数,序列量化为可观察离散符号序列然后用语音训练数据的离散符号序列去训练隐马尔柯夫模型.由于矢量量化极大地压缩了语音数据量,因而vQ/HMM系统具有计算量小的特点.然,,而在矢量量化过程中也损失了较多的语音信息因此vQ/HMM系统需要足够多的语音训练数据才能得到较好的HMM,进而取得较高的识别率,这是这种识别系统的不足之处.连续密度HMM语音识别系统并不通过矢量量化将输入
4、语音特征矢量量化到特征空间中,有限的点上去形成有限集上的观察符号而是将特征矢量转化为以连续密度分布于特征空间中的观察矢量.这样避免了由于矢量量化误差所产生的语音信息丢失,因而在语音训练数据1993年7月30日收到.*国家自然科学基金资助课题.162中国科学技末大学学报第24卷量不足的情况下,仍能得到一个有效的模型,取得很好的识别性能.但是,它的模型训练计算量和耗费的时间是惊人的.,鉴于vQ/HM毛人方法和连续密度HMM方法的优缺点我们提出一种基于模糊矢量量化和,HMM模糊训练的语音识别方法(称为FvQ/HMM方法)我们采用模糊矢量量化替代了传统方法中的矢
5、量量化,减小了矢量量化误差.输入语音特征参数序列经过FvQ转化为一个模糊,,的观察符号序列能更好地体现语音信号的随机特征在语音训练数据不足的情况下也能较好地抓住语音的随机特征,从而改善了系统的鲁棒性.这种方法的计算量同vQ/HMM系统方法大致相当,所以也具有计算量小、存储量小的特点..,HM在HMM的训练方法上我们引入了全局训练的思想传统的M训练采取对各个训练,.,每训练一个样本这种训练方法的缺点是:(1)系统数据轮流训练的方式修正一下模型参数,;(2)每次训练修正参数的步长对最终形成的受当前数据的影响最大HMM影响很大不易控.:;;制(3)训练计算量大
6、(4)最后得到的HMM是局部最优的我们改进的训练方法为从语音训,练数据中提取出一个反映语音总体随机变化特征的模糊观察序列用该序列对HMM进行一次性训练.所以这种训练方法得到的模型是全局最优的.实验表明,这种训练方法不仅提高了HMM的鲁棒性,而且极大地提高了训练速度,降低了训练计算量.2模糊矢量量化,、、矢量量化通过聚类达到了有效压缩数据的目的在语音图象通讯等领域得到了广泛的应用.在语音识别中,通过vQ,把语音特征空间量化为有限的点集,从而极大地降低了计算,,量矢量量化作为HMM的前端处理使得系统识别时的计算量和存储量同在此之前非常流行的动态时间弯折w)匹
7、配算法相比,,5〕.(DT大为降低从而为词汇量的扩大创造了条件[4.,,vQ的主要工作是聚类即在特征空间中合理地拟定一组点(称为码本)于是特征空间中的任一点均可按最小距离准则,用码本之一来代表.,,Z,,:,‘;设输入的语音特征矢量序列为X~(XX⋯X)每一个矢量X都是K维的设码本,,,,,,,,库为Y一弋y]~1⋯M}M为码本尺寸每一个矢量Y也都是K维的相应的标号集为c-,,,.{c,,j1cjy,iX‘~⋯M}其中对应于码本矢量则输入语音第个特征矢量与码本库中第jY,个码矢的失真距离测度为·,‘j。2(‘、)一(X‘,责客一(1).,如果量化后的标号
8、为0则‘arn,o=smiD(云,)(2){cj)这:样就可以得到整个输入语音特