欢迎来到天天文库
浏览记录
ID:53575440
大小:263.78 KB
页数:4页
时间:2020-04-19
《基于SVM的语音特征提取及识别模型研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第38卷第2期武汉理工大学学报(交通科学与工程版)Vo1.38No.22014年4月JournalofWuhanUniversityofTechnologyApr.2014(TransportationScience&Engineering)基于SVM的语音特征提取及识别模型研究*吴皓莹”程晶D范凯。(武汉理工大学信息工程学院”武汉430070)(湖北工业大学信息技术中心武汉430068)摘要:针对非特定文本的说话人识别,研究了特征提取方法及SVM核函数和参数选取对识别结果的影响,分析了现有的语音特征提取算法及各自的优缺点,以及不
2、同核函数、核参数及惩罚参数对识别性能的影响.采用改进的网格寻优方法,进一步提高语音信息的识别时间.关键词:支持向量机(SVM);特征参数;核函数;识别模型;网格寻优算法中图法分类号:TN912.34doi:10.3963/j.issn.2095—3844.2014.02.0170引言从而提高识别的精度和系统的性能.另外支持向量机是建立在统计学习理论的结构风险最小化原理基础上,比起传统的分类器,它可以很好地解决语音识别技术广泛应用于信息论、人工智能、模型选择与过学习问题,解决小样本、非线性和高数字信号处理、语言声学、模式识别、生物学
3、、心理维数以及局部极小点等问题[1].本文以智能推车学和认知科学等学科.其中语音特征提取是语音识别的关键技术,研究特征提取对提高语音识别系统中人机交互和智能控制的应用为背景,主要研究了语音信息的不同特征参数组合,支持向量系统的识别率的正确率起着十分关键的作用,特征提取的目的是为了找出反映语音本质特征的参机(SVM)中的不同模型的选取对语音识别率的数,其基本思想是对经过预处理后的语音信号,提影响,从而提高智能推车的人机交互性能.基于SVM的语音识别系统的整体框图见图1.取出具有代表意义且稳定可靠的参数序列,滤除无关的冗余信息,为后面
4、的训练和预测提供数据,图1语音识别整体框图可以用若干个它过去的取样值的加权线性组合来1特征参数逼近.各加权系数应使实际语音采样值与线性预测采样值之间的差值的平方和达到最小,即进行最小均方误差的逼近[5].在线性组合中的加权系1.1线性预测倒谱系数(1inearpredictiveceps-数称为预测器系数,即线性预测系数LPC.trumcoefficient,LPCC)>s。()一一>:rz(,z)一>:口.z(—i)、‘(1)线性预测分析是在语音产生的数字模型基础、m上建立的,其基本思想是:每个语音信号采样值都式中:z()为实际
5、采样值;s()为实际采样值与线收稿日期:2014—01-03吴皓莹(1974一):博士,副教授。主要研究领域为光纤传感技术及信号处理、模式识别国家自然科学基金项目资助(批准号:51211130307)第2期吴皓莹,等:基于SVM的语音特征提取及识别模型研究·317·性预测值之间的差值;口为加权系数,即LPC参参数将线性频率转化为非线性的Mel下的频率,数.在使式(1)最小的条件下求解突出要识别的信息,强调语音的低频信息,能够有l4阶的线性预测信号语言信号的对比见图效的屏蔽噪声的干扰.MFCC充分考虑了人耳的2,图中横轴为1帧信号(
6、30ms)的不同采样点(采听觉特性,因此具有良好的识别性能和抗噪能样频率为8kHz,采样点数为240个).力一.2支持向量机模型选取及参数优化在SVM中,核函数选择、核参数选择、惩罚参数的选择统称为模型选择.SVM学习性能的好采样点价a)原始语音帧和预测后语音帧坏与核函数类型及其参数选择有着直接的关系,选择恰当的SVM模型可以获得更好的分类性能和泛化能力(推广能力).核函数类型及核参数确定了映射空间的数据分布.核参数的变化会改变样本特征子空间分布的复杂程度.对于使用不同采样点/个b)误差的核函数类型及核参数得到的子空间中数据分布图
7、2原始信号波形与预测信号波形对比不同,其经验风险随VC维的变化不同,将导致在由LPC推导LPCC,其中Cl。。(n)为第个不同子空间得到的最优SVM不同,因此需要对LPCC系数。()为第/'/个LPC系数.SVM核参数和误差惩罚参数同时进行优化.即除1T了在同一子空间中优化惩罚参数C以获得最优cIpc()一clpc()+∑×SVM外,还要优化核参数以获得全局最优SVMcl(—k)clp(愚)(2)模型.使用线性预测倒谱可以提升参数的稳定性,目前,对SVM的参数进行优化并没有公认主要反映声道响应,计算量小,易于实现,但由于的最好的方
8、法[8].现在使用较普遍的是网格搜索LPCC参数是通过线性逼近得到的,只是反映了法.网格搜索法是一种最基本的参数优化算法.其说话人的声道特征而没有充分利用人耳的听觉特基本过程是在一定的空间范围内按照规定的步长性因此并不能很好的反映出人耳听觉特性.对
此文档下载收益归作者所有