欢迎来到天天文库
浏览记录
ID:34491401
大小:2.44 MB
页数:76页
时间:2019-03-06
《真实感可视语音合成算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、北京工业大学硕士学位论文真实感可视语音合成算法研究姓名:刘文韬申请学位级别:硕士专业:计算机应用技术指导教师:尹宝才20040501摘要可视语音的合成是近年来多媒体信号处理中的~个研究焦点和难点。随着智能人机交互应用的兴起,人们需要在交流过程中融合多种表达方式,多种行为模态以增加信息的含量,提高信息描述的准确性。同时,在娱乐应用中需要提供一个声色兼备的界面以吸引用户,实现人性化的交互目的。本文在可视语音合成这个研究背景下,将工作重点放在可视语音合成中的真实感研究方面。首先,本文在音素层可视语音合成中采用关键帧核心技术,通过引
2、入连读模型来提高关键帧口形合成中的真实感。通过引入渐变控制率使元音与辅音(V.C)关键帧之间的唇动更趋向于自然的唇动过程,该渐变控制率用非线性的幂函数来实现,幂函数所描述的变化过程与元音和辅音之间实际过渡相符。在引入渐变控制率的基础之上,通过对元音与辅音口形间相互影响的分级定量描述,针对汉语中连读影响最频繁最明显的元一辅一元(V—C.V)发音过程,本文提出了适用于关键帧技术的连读处理模型。由于该模型充分考虑了,光流对应在连读过程中的实际变化,因此该模型与图象关键帧变形技术相兼容。其次,本文在特征层可视语音合成中采用隐马尔可夫
3、模型(HMM)作为基本的同步映射模型,用以描述底层语音特征与视觉口形之间的关联,通过双层HMM的框架来提高映射的准确性,从而提高合成结果的真实感。在基本的映射模型中,充分考虑语音上下文信息,将当前帧前一时刻和后一时刻的语音信息都作为模型的观察值。考虑到音视频对应中一对多的特性,对同一视觉类中的语音观察值进行视觉类内再聚类,从而得到多个语音观察子类,这些子类各自代表同一视觉类下的同一语音分布群体,通过它们得到的第二层模型包含在第一层模型下面,本文通过两层HMM的映射机制来实现底层语音特妊与视觉口形之剧关联的描述。关键词:可视语
4、音关键帧变形连读模型音视频映射隐马尔可夫模型ABSTRACTRecently,Visualspeechsynthesisisfocusedbyroseatehesinmultimediasignalprocessing.Becauseoftheincreasingapplicationofintelligenthumancomputerinteraction(HCI),thecommunicationbetweenhumanandmachineisgettingcloserwithmultimodalinterface,wh
5、ichcomposesofseveralmodalitiessuchasvisionandauditory.Inanotherside,auserinterfacemakinguseofvisualandaudioinformationcouldbemoreattractivethancommoninterfaces.Inthispaper,attentionswerepaidmuchtoenhancetherealisminspeechanimationsynthesis.Firstly,viseme(visualphon
6、eme)morphingtechniquewasemployedinphonemicvisualspeechsynthesis,andaco—articulationmodelispresentedtOenhancetherealism.MorphingcontrolrateWaspresentedtoiDakethetransitionbetweenvowelsandconsonantsmorenatural.Themorphingcontrolratewasrealizedbyanonlinearpowerfunctio
7、n.Basedonthemorphingcontrolrateandthequantizationofinfluencepowerbetweenvowelsandconsonants,theCO—articulationmodelwasbuilt,andthemodelwascompatiblewiththevisememorphingframe..Secondly,hiddenmarkovmodel(HMM)wasemployedasamappingmechanisminfeaturelevelvisualspeechsy
8、nthesis.TheHMMwasusedtodescribethetemporalrelationbetweenaudiofeatureandlipshapehere.Thefundamentalmappingmodelcomprisedofaudiocontextinformation
此文档下载收益归作者所有