资源描述:
《说话人自适应训练方法在连续语音识别中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文信息学报第18卷第3期JOURNALOFCHINESEINFORMATIONPROCESSINGVol118No13文章编号:1003-0077(2004)03-0061-05*说话人自适应训练方法在连续语音识别中的应用罗骏,欧智坚,王作英(清华大学电子工程系语音识别实验室,北京100084)摘要:自适应技术在近年来得到越来越多的重视,其中应用广泛的包括MAP、MLLR,该技术利用少量特定人数据就可以调整码本,快速地提升识别性能,它要求原始的码本有很好的说话人无关性。本文介绍了结合MLLR自适应的说话人自适应训练(SpeakerAdaptiveTrai
2、ning,以下简称SAT)算法,这种方法将每个说话人码本视为说话人无关码本经过线性变换的结果,在此基础上训练的说话人无关码本更有效剔除了说话人相关信息,因此在说话人自适应中时能根据特定数据调整更好地逼近说话人特性,从而有更好的性能表现。关键词:计算机应用;中文信息处理;自适应;MLLR;SAT中图分类号:TP391文献标识码:ASpeakerAdaptiveTraininginContinuousSpeechRecognitionLUOJun,OUZh-ijian,WANGZuo-ying(DepartmentofElectronicEngineering
3、TsinghuaUniversity,Beijing100084,China)Abstract:Moreandmoreattentionshavebeenpaidonspeakeradaptationinrecentspeechrecognitionresearch,especiallyonwidelyusedMAPandMLLR.Thesetechniquesapplytofastcodebookadjustmentwhenonlylimitedamountoftrainingdataisavailable,andtheydemandoriginalmo
4、deltobespeakerindependent.ThisarticleintroducesMLLRintegratedSpeakerAdaptiveTraining(SAT)method,whichregardseveryindividual.scodebookastheresultoflineartransformationofspeakerindependentcodebookandtrainsspeakerindependentcodebookbasedonsuchconcept.Sincespeaker-relatedinformationis
5、extractedbythismeans,thetrainedcodebookismore-speakerindependent.,soitwouldperformbetterinspeakeradaptation.Keywords:computerapplication;Chineseinformationprocessing;adaptation;MLLR;SAT1引言[1,2]说话人自适应技术在近年来得到越来越多的重视,这项技术利用特定说话人数据对说话人无关(SpeakerIndependent,以下简称SI)码本进行改造,其目的是得到说话人自适应(
6、SpeakerAdapted,以下简称SA)码本以提升识别性能。在某个说话人训练数据足够多的情况下,针对当前说话人数据采用传统的训练方法可以得到说话人相关(SpeakerDependent,以下简称SD)码本,由于SD码本很好地反映了当前说话人的特征,因此通常有很好的性能表现;可是在某些情况下,说话人的数据不足以训练一个稳健的SD模型,此时就需要利用自适应以避免欠训练的情况出现,相比SD码本需要大量的数据进行训练,说话人自适应只需要很少的数据*收稿日期:2003-06-30基金项目:国家/8630高技术项目(863-306-ZD03-01-2)作者简介:罗
7、骏(1978)),男,博士研究生,研究方向为语音识别.61量就得到比较大的性能提高。说话人自适应的实质是利用自适应数据调整SI码本以符合当前说话人特性,由于传统训练方法得到的SI码本不可避免地受训练集特性的影响,在训练集和自适应数据失配时这会导致自适应效果变得不明显,原始码本越具有说话人无关性,在自适应时就越能迅速地趋近当前说话人的特征。与自适应相结合的码本训练对SI码本、训练集内每个说话人特性分别建立模型,因此可以得到更具说话人无关性的SI码本。本文主要介绍将[3,4]MLLR(MaximumLikelihoodLinearRegression)自适应应
8、用到训练的说话人自适应训练(SAT,[5,6]SpeakerAda