基于状态异步DBN的语音驱动面部动画合成.pdf

基于状态异步DBN的语音驱动面部动画合成.pdf

ID:56168578

大小:649.69 KB

页数:5页

时间:2020-06-04

基于状态异步DBN的语音驱动面部动画合成.pdf_第1页
基于状态异步DBN的语音驱动面部动画合成.pdf_第2页
基于状态异步DBN的语音驱动面部动画合成.pdf_第3页
基于状态异步DBN的语音驱动面部动画合成.pdf_第4页
基于状态异步DBN的语音驱动面部动画合成.pdf_第5页
资源描述:

《基于状态异步DBN的语音驱动面部动画合成.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第40卷第2期计算机工程2014年2月V_o1.40NO.2ComputerEngineeringFebruary2014-人工智能及识别技术-文章编号:1o0.3428(2014)02—l80—m4文南t标识码:A中国分类号:TP18基于状态异步DBN的语音驱动面部动画合成赵勇,蒋冬梅,SahliHichem(1.西北工业大学计算机学院,西安710072;2.布鲁塞尔自由大学电子与信息工程系,比利时布鲁塞尔1050)摘要:提出一种基于状态异步动态贝叶斯网络模型(SA—DBN)的语音驱动面部动画合成方法。提取音视频语音数据库中音频的感知线性预测特征和面部图像的主动外观

2、模型(AAM)特征来训练模型参数,对于给定的输入语音,基于极大似然估计原理学习得到对应的最优AAM特征序列,并由此合成面部图像序列和面部动画。对合成面部动画的主观评测结果表明,与听视觉状态同步的DBN模型相比,通过限制听觉语音状态和视觉语音状态间的最大异步程度,SA—DBN可以得到清晰自然并且嘴部运动与输入语音高度一致的面部动画。关键词:面部动画合成;状态异步动态贝叶斯网络模型;异步约束;主动外观模型;感知线性预测;极大似然估计SpeechDrivenFacialAnimationSynthesisBased0nStateAsynchronousDBNZHAOYong

3、,JIANGDong-mei,SahliHichem‘(1.SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710072,China2.ETRODepartment,VrijeUniversiteitBmssel,Brussels1050,Belgium)[Abstract]AnaudiovisualDynamicBayesianNetworkmodelwithStateAsynchrony(SA—DBN)transformingacousticspeechtophotorealisti

4、cfacialanimationisproposed.PerceptualLinearPrediction(PLP)featuresfromaudiospeech,aswellasActiveAppearanceModeI(AAM)featuresfromfaceimagesofanaudiovisualspeechdatabase,areadoptedtotrainthemodelparametersoftheproposedSA—DBN.BasedontheSADBNmodel,aninputaudiostreamisgiven,theoptimalAAMvisu

5、alfeaturesarelearnedbytheMaximumLikelihoodEstimation(MLE)criterion,whichareusedtoconstructfacialimagesfortheanimation.SubjectiveevaluationispresentedtocomparetheproposedconstrainedstateasynchronyDBNwithastatesynchronousaudiovisualDBNmode1.ExperimentalresultsshowthatwiththeSA—DBNmodel,hi

6、ghqualityfacialanimationscanbeobtainedwithmouthmovementsmatchingtheinputspeech.[Keywords]facialanimationsynthesis;DynamicBayesianNetworkmodelwithStateAsynchrony(SA—DBN);asynchronyconstraint;ActiveAppearanceModel(A_AM);PerceptualLinearPrediction(PLP);MaximumLikelihoodEstimation(MLE)D0h1O

7、.3969/j.issn.1000-3428.2014.02.039择合适的三音素嘴部图像序列,并将其拼接起来,最终合1概述成与输入文本相匹配的语音及面部动画。虽然单元选择与在人机交互领域,实现嘴部运动与发音内容一致的说拼接方法能够获得真实清晰的二维面部动画,但其需要有话人面部动画是一个热门研究课题。目前的面部动画合成一个完备的音视频语音数据库,以覆盖所有可能出现的三方法包括基于2D图像的渲染方法和基于3D模型的方法。音素和双视素单元。还有些研究者采用机器学习策略,将文献【1】使用2D图像作为数据库,构建了一个中文视觉语音可视语音合成看作一个语音到视

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。