资源描述:
《基于支持向量回归的唇动参数预测1.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1基于支持向量回归的唇动参数预测王志明蔡莲红艾海舟(清华大学计算机系,北京,100084)摘要支持向量机学习方法以结构风险最小化原则取代传统机器学习方法中的经验风险最小化原则,在有限样本的机器学习中显示出优异的性能。本文将这一新的统计学习方法应用到多媒体交互作用的研究中,用支持向量回归的方法由语音预测唇动参数。通过对语音的线性预测系数进行主分量分析,有效地压缩了声学特征参数的维数。结合交叉校验和最速下降优化方法,选择最佳的支持向量回归学习参数。本文在汉语0~9的任意数字串上对唇高参数的预测实验结果达到了均方误差0.0096,平均幅度
2、误差7.2%及相关系数0.8的效果。这一结果优于一个本文优化过的人工神经网络所达到的性能,说明这一方法很有潜力。关键词支持向量机,支持向量回归,线性预测系数,主分量分析,人工神经网络中图分类号:TP391MouthMovementPredictionBasedonSupportVectorRegressionWANGZhi-Ming,CAILian-Hong,AIHai-zhou(Dept.ofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)Abstract
3、UnliketraditionalmachinelearningwhichisbasedonEmpiricalRiskMinimizationprinciple,SupportVectorMachine(SVM)learningisbasedonStructuralRiskMinimizationprinciple.SVMhasshownpowerfulabilityinlearningwithlimitedsamples.Thispaperappliesthisnewmethodinthestudyofmultimediainte
4、raction,andpredictingthemouthmovementbyspeechbasedonSupportVectorRegression(SVR).TheaudioparametersdimensionisreducedbyPrincipleComponentsAnalysis(PCA),andtheoptimalSVRlearningparametersareselectedbasedoncross-validationandsteepestdescentalgorithmoptimization.Withtheex
5、perimentonarbitraryChinesedigitalnumbersfrom0to9,thepredictionresultsreach0.0096inMeanSquareError,7.2%inAbsoluteMagnitudeError,and0.8inLinearCorrelationCoefficient.ItgivesbetterresultsthanthatwithoptimizedArtificialNeuralNetwork,whichshowsthattheproposedmethodisquitepr
6、omising.KeywordSupportVectorMachine(SVM),SupportVectorRegression(SVR),LinearPredictiveCoding(LPC),PrincipalComponentsAnalysis(PCA),ArtificialNeuralNetwork(ANN)会议等场合下的视频流丢帧插补、多模态的身份验1引言证,等等。随着多媒体技术的飞速发展,多种媒体之间的如果依靠语音识别来识别出相应的文本,再合交互作用正越来越受到人们的普遍关注。语音和图成人脸动画,存在较大的问题。首先,语
7、音识别需像是人们日常交流中最常用的传输媒体,挖掘二者要较长的时延,识别系统往往要等到人们说完一句之间的内在联系如语音与唇动之间的关系有着广话才能得出识别结果;其次,现在语音识别系统对泛的应用前景。如在网络传输多媒体数据时往往会任意文本、连续语流的识别率较差;第三,从语音受到网络带宽的限制,无法同时提供语音信号与视到文本的过程会丢失语音中许多有用的信息,如音频信号。如果我们可以从音频数据中预测出相应的量的大小,说话者的情感色彩等等。而直接从语音唇动参数,则可以利用计算机动画的方法合成人脸预测唇动参数则可以有效地保留这些信息,且时延动画
8、,改善人机交互界面并增强人们对语音的理很小(与预测时考虑的前向语音帧数有关)。解;利用语音与唇动之间的相关性,还可实现视频在由语音预测唇动参数的研究中,AT&TBELL1本文受到高等学校博士学科点专项科研基金资助(2001000304