欢迎来到天天文库
浏览记录
ID:56168578
大小:649.69 KB
页数:5页
时间:2020-06-04
《基于状态异步DBN的语音驱动面部动画合成.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第40卷第2期计算机工程2014年2月V_o1.40NO.2ComputerEngineeringFebruary2014-人工智能及识别技术-文章编号:1o0.3428(2014)02—l80—m4文南t标识码:A中国分类号:TP18基于状态异步DBN的语音驱动面部动画合成赵勇,蒋冬梅,SahliHichem(1.西北工业大学计算机学院,西安710072;2.布鲁塞尔自由大学电子与信息工程系,比利时布鲁塞尔1050)摘要:提出一种基于状态异步动态贝叶斯网络模型(SA—DBN)的语音驱动面部动画合成方法。提取音视频语音数据库中音频的感知线性预测特征和面部图像的主动外观
2、模型(AAM)特征来训练模型参数,对于给定的输入语音,基于极大似然估计原理学习得到对应的最优AAM特征序列,并由此合成面部图像序列和面部动画。对合成面部动画的主观评测结果表明,与听视觉状态同步的DBN模型相比,通过限制听觉语音状态和视觉语音状态间的最大异步程度,SA—DBN可以得到清晰自然并且嘴部运动与输入语音高度一致的面部动画。关键词:面部动画合成;状态异步动态贝叶斯网络模型;异步约束;主动外观模型;感知线性预测;极大似然估计SpeechDrivenFacialAnimationSynthesisBased0nStateAsynchronousDBNZHAOYong
3、,JIANGDong-mei,SahliHichem‘(1.SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710072,China2.ETRODepartment,VrijeUniversiteitBmssel,Brussels1050,Belgium)[Abstract]AnaudiovisualDynamicBayesianNetworkmodelwithStateAsynchrony(SA—DBN)transformingacousticspeechtophotorealisti
4、cfacialanimationisproposed.PerceptualLinearPrediction(PLP)featuresfromaudiospeech,aswellasActiveAppearanceModeI(AAM)featuresfromfaceimagesofanaudiovisualspeechdatabase,areadoptedtotrainthemodelparametersoftheproposedSA—DBN.BasedontheSADBNmodel,aninputaudiostreamisgiven,theoptimalAAMvisu
5、alfeaturesarelearnedbytheMaximumLikelihoodEstimation(MLE)criterion,whichareusedtoconstructfacialimagesfortheanimation.SubjectiveevaluationispresentedtocomparetheproposedconstrainedstateasynchronyDBNwithastatesynchronousaudiovisualDBNmode1.ExperimentalresultsshowthatwiththeSA—DBNmodel,hi
6、ghqualityfacialanimationscanbeobtainedwithmouthmovementsmatchingtheinputspeech.[Keywords]facialanimationsynthesis;DynamicBayesianNetworkmodelwithStateAsynchrony(SA—DBN);asynchronyconstraint;ActiveAppearanceModel(A_AM);PerceptualLinearPrediction(PLP);MaximumLikelihoodEstimation(MLE)D0h1O
7、.3969/j.issn.1000-3428.2014.02.039择合适的三音素嘴部图像序列,并将其拼接起来,最终合1概述成与输入文本相匹配的语音及面部动画。虽然单元选择与在人机交互领域,实现嘴部运动与发音内容一致的说拼接方法能够获得真实清晰的二维面部动画,但其需要有话人面部动画是一个热门研究课题。目前的面部动画合成一个完备的音视频语音数据库,以覆盖所有可能出现的三方法包括基于2D图像的渲染方法和基于3D模型的方法。音素和双视素单元。还有些研究者采用机器学习策略,将文献【1】使用2D图像作为数据库,构建了一个中文视觉语音可视语音合成看作一个语音到视
此文档下载收益归作者所有