资源描述:
《基于话者分类和hmm的话者自适应语音识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、262.,.第卷第期中国科学技术大学学报Vol26No2.1996年6月JOURNALOFCHINAUNIVERSITYOFSCIENCEANDTECHNOLOGYJun1996基于话者分类和HMM的话者自适应语音识别‘戴蓓倩郁正庆戴任飞张劲松王长富司虎(电子技术部),摘要本文提出了一种基于话者分类和HM五d的话者自适应语音识别方法采用对、,,参考话者聚类并按话者类分别建立HMM模板的策略对于新注册的用户来统只,,需利用其极少量的语音便可将与之最相近的一类模板指派给新用户再采用基于语空间映射的两级自适应方法,使系统自适应到用户的模式下工作.这种方法既提高了识
2、别性能,又降低了自适应的难度,还有利于HMM的建立.讨论了话者分类数和,自适应语音数据对话者自适应效果及识别性能的影响提出了一种在自适应语音数,据不足情况下仍具有较好自适应效果的基于FvQ的码本自适应改进葬法该算法还具有对自适应字表不敏感的特点.关键词话者自适应,话者聚类,语音识别,隐马尔可夫模型,谱空间映射中图法分类号TNglZ·34l引言,、、、、近年来语音识别系统的研究逐渐从限定人孤立字小字表向非限定人大字表连续语音方面发展,逐渐走向实用化.在很多语音识别系统中都采用了隐马尔可夫模型(HMM)技,H,,术这是由于MM是一种有效和精确的随机模型当训练用的
3、语音样本数据量足够大时它.,、能很好地反映语音的变化特性和描述语声的产生过程然而一个大字表基于HMM的限定,,,人语音识别系统的建立需要大量的训练语音样本而且当更换一个新的使用者时还需要大,量(几十分钟以上)的语音样本数据对系统重新进行训练从而给系统的使用带来了麻烦和时耗.不认人的语音识别系统可以为新用户提供一个立即可使用的系统,而不需要收集新用户的语音样本数据去重新训练系统,这对于许多应用场合无疑是十分需要的.但是.这种系统的建立需要收集各种类型的大量参考话者的更大量的语音样本数据,才能包含不同话者之间瞬时和动态谱差所造成的语音变化,使系统的建立非常复杂和
4、费时.尽管如此,不同话者的不,同发音类型的谱特征空间的交迭和混淆仍不可避免地存在致使不认人语音识别系统的识别2995年9月13日收到.*国家自然科学基金资助课题.148中国科学技术大学学报第26卷率远低于限定人语音识别系统.话者自适应语音识别方法是利用新用户的少量训练语音样本去改进原始的参考识别系统,,的性能如果原始参考识别系统中已含有了较好的模型则系统能很快地自适应到新用户的模式下工作,因而系统具有很好的识别性能.我们可以认为,话者自适应语音识别是介于限定人,语音识别和不认人语音识别之间的一种合乎逻辑的折衷因为它是从不认人的原始参考识别系统出发,然后自适应
5、到某个个别用户.(限定人)这种方法对于语音识别走向实用化具有重要意义,从而受到了极大的重视.,、实现基于HMM的话者自适应语音识别系统有两个关键其一是建立一个合理有效的原始参考识别系统,其二是HMM的自适应技术.一个好的原始参考识别系统的建立不仅可以解,决不同话者的不同发音类型谱特征空间的交迭和混淆问题而且有利于声学HM五左的建立和自适应.鉴于采用大量语音数据集中训练所得到的HMM模型,不能解决话者之间谱特征空间,,,的混迭问题使系统识别性能较差且HMM的自适应难度也较大所以本文采用了对参考话,,,者聚类并按话者类分别建立HMM模板的策略对于一个新注册用户系
6、统只要利用其极少,量的训练语音即可将系统中与其最相近的一类模板指派给新用户再采用适当的自适应技术便可使系统修正到新用户的模式下工作.这种根据话者类建模的方法,由于把一个交迭很宽,,的众多话者的特征空间划分为若干个交迭较少甚至不交迭的语音特征空间所以大大提高了,,,、系统的识别性能降低了自适应难度还有利于HMM的建立故成为实现大字表非限定人语音识别的一种极有前途的方法.,本文采用基于谱空间映射的两级自适应方法进行HMM的话者自适应在vQ码本自适应级,利用新话者的少量自适应训练语音数据去修正原始码本,以减少新话者在谱空间中的总的,,,量化误差;在HMM参数自适应
7、级则利用新旧码本间的映射关系修正原始HMM参数使之转变为新话者的模板.在这种自适应方法中,如何从少量自适应训练语音数据中获得较为准确的话者特征空间之间的映射关系,将直接影响到自适应的效果.我们认为,自适应训练语音,数据的选择应能较充分地体现新话者的特征以及新话者与参考话者间的差异性并需考虑到汉语语言知识的特点以及系统字表的使用范围.针对码本自适应在自适应语音数据较少时效,,,果较差的缺点本文提出了一种基于FVQ的码本自适应改进算法实验证明改进算法具有较好的自适应效果,而且有对自适应字表内容不敏感的特点.2基于话者分类的话者自适应语音识别系统,图1为实现基于话
8、者分类的话者自适应语音识别系统的结构框图首先是建立一