资源描述:
《采用遗传算法的vq码本设计及说话人识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、采用遗传算法的VQ码本设计及说话人识别第2l卷第3期2005年6月信号处理SIGNALPRoCESSINGVl01.21.No_3Jun.2005采用遗传算法的VQ码本设计及说话人识别芮贤义俞一彪(苏州大学电子信息学院,苏州215021)摘要:矢量量化(vQ)方法是文本无关说话人识别中广泛应用的建模方法之一.在矢量量化过程中,经典的LBG算法收敛速度快,但极易收敛于局部最优点,无法保证根据有限样本数据得到最优码本,并最终影响系统识别性能.考虑到遗传算法(GA)是一种具有全局化寻优搜索能力的算法,本文提出了遗传算法和K均值算法相结合的综合分析方法GA—K进行码本设计,改善了码本的质量.讨论了具体
2、的算法实现,分析了在不同的特征参数LPCC及MFCC,不同测试语音长度下的说话人识别性能.实验结果显示,GA—K方法优于传统的LBG算法,可以很好地协调收敛性和识别率之间的关系.关键词:说话人识别;GA.K;矢量量化;遗传算法ANewCodebookDesignMethodBasedonGeneticAlgorithmforText-independentSpeakerIdentificationRuiXianyiYuYibiao(SchoolofElectronics&InformationTechnology,SoochowUniversity,Suzhou215021Abstra
3、ct:VectorQuantizationisoneofpopularcodebookdesignmethodsfortext—independentspeakeridentificationatcurrent.IntheprocessofVectorQuantization,traditionalLBGalgorithmownstheadvantageoffastconvergence,butitiseasytogetthelocaloptimalresult,SOthecodebookdesignedbyLBGisnotsureofoptimalandrecognitionperforma
4、ncewillbeinfluenced.AccordingtotheunderstandingthatGeneticAlgorithmhasthecapabilityofgettingtheglobaloptimalresult,thispaperproposedahybridclusteringmethodGA-KbasedonGeneticAlgorithmandK—meansAlgorithmtoimprovethecodebookquality.SomefeatureparameterssuchasLPCCandMFCCwereanalyzedwithGA—Kinidentificat
5、ionexperimentsviatestvoiceutterancelength.TheexperimentsshowtheproposedGA-KmethodiseffectiveandimprovedtheperformanceoftraditionalLBGalgorithm.Keywords:speakeridentification,GA—K,vectorquantization,geneticalgorithm1引言说话人识别是指通过对说话人语音信号的个性特征进行分析,从而达到对说话人身份进行识别的目的,在公安司法领域,军事领域,电子银行,信息服务等领域具有广泛的应用价值.说话人
6、识别可分为说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification).不管是辨认还是确认,根据系统对测试语音的要求,都可分为基于文本(Text.Dependent)和文本无关(Text.Independent)~种方式.基于文本的方式要求说话人按规定的文本发音或按提示发收稿日期:2004年1月l3日;修回日期:2004年3月26日音,文本无关则无此要求.矢量量化(VQ:VectorQuantization)方法和高斯混合模型GMM是目前说话人识别的两大方法ll0】.其中,VQ方法对每个说话人建立一个特征矢量码本,用语音短时特征矢量的聚类中心集
7、合(码本)表示说话人模型,在识别时依据测试语音对各说话人码本的似然度来判别说话人的身份.在说话人识别中,这一方法存在的两个问题是:(1)训练一个说话人的码本需要多少语音数据,码本长度多少较合适?(2)训练码本的K.均值方法或LBG方法在聚类过程中会收敛于局部最佳点,不能保证设计出的码本在一定的距离测290信号处理第2l卷度或似然度准则下是全局最优的.对前一个问题,作者提出了说话人识别的全特征矢量集