浅论真实感可视语音合成算法研究

ID：35152039

大小：2.38 MB

页数：75页

时间：2019-03-20

资源描述：

《浅论真实感可视语音合成算法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、北京工业大学硕士学位论文真实感可视语音合成算法研究姓名：刘文韬申请学位级别：硕士专业：计算机应用技术指导教师：尹宝才20040501摘要可视语音的合成是近年来多媒体信号处理中的～个研究焦点和难点。随着智能人机交互应用的兴起，人们需要在交流过程中融合多种表达方式，多种行为模态以增加信息的含量，提高信息描述的准确性。同时，在娱乐应用中需要提供一个声色兼备的界面以吸引用户，实现人性化的交互目的。本文在可视语音合成这个研究背景下，将工作重点放在可视语音合成中的真实感研究方面。首先，本文在音素层可视语音合成中采用关键帧核心技术，

2、通过引入连读模型来提高关键帧口形合成中的真实感。通过引入渐变控制率使元音与辅音(V．C)关键帧之间的唇动更趋向于自然的唇动过程，该渐变控制率用非线性的幂函数来实现，幂函数所描述的变化过程与元音和辅音之间实际过渡相符。在引入渐变控制率的基础之上，通过对元音与辅音口形间相互影响的分级定量描述，针对汉语中连读影响最频繁最明显的元一辅一元(V—C．V)发音过程，本文提出了适用于关键帧技术的连读处理模型。由于该模型充分考虑了，光流对应在连读过程中的实际变化，因此该模型与图象关键帧变形技术相兼容。其次，本文在特征层可视语音合成中采

3、用隐马尔可夫模型(HMM)作为基本的同步映射模型，用以描述底层语音特征与视觉口形之间的关联，通过双层HMM的框架来提高映射的准确性，从而提高合成结果的真实感。在基本的映射模型中，充分考虑语音上下文信息，将当前帧前一时刻和后一时刻的语音信息都作为模型的观察值。考虑到音视频对应中一对多的特性，对同一视觉类中的语音观察值进行视觉类内再聚类，从而得到多个语音观察子类，这些子类各自代表同一视觉类下的同一语音分布群体，通过它们得到的第二层模型包含在第一层模型下面，本文通过两层HMM的映射机制来实现底层语音特妊与视觉口形之剧关联的描

4、述。关键词：可视语音关键帧变形连读模型音视频映射隐马尔可夫模型ABSTRACTRecently，Visualspeechsynthesisisfocusedbyroseatehesinmultimediasignalprocessing．Becauseoftheincreasingapplicationofintelligenthumancomputerinteraction(HCI)，thecommunicationbetweenhumanandmachineisgettingcloserwithmultimodal

5、interface，whichcomposesofseveralmodalitiessuchasvisionandauditory．Inanotherside，auserinterfacemakinguseofvisualandaudioinformationcouldbemoreattractivethancommoninterfaces．Inthispaper，attentionswerepaidmuchtoenhancetherealisminspeechanimationsynthesis．Firstly，vi

6、seme(visualphoneme)morphingtechniquewasemployedinphonemicvisualspeechsynthesis，andaco—articulationmodelispresentedtOenhancetherealism．MorphingcontrolrateWaspresentedtoiDakethetransitionbetweenvowelsandconsonantsmorenatural．Themorphingcontrolratewasrealizedbyanon

7、linearpowerfunction．Basedonthemorphingcontrolrateandthequantizationofinfluencepowerbetweenvowelsandconsonants，theCO—articulationmodelwasbuilt，andthemodelwascompatiblewiththevisememorphingframe．．Secondly，hiddenmarkovmodel(HMM)wasemployedasamappingmechanisminfeatu

8、relevelvisualspeechsynthesis．TheHMMwasusedtodescribethetemporalrelationbetweenaudiofeatureandlipshapehere．Thefundamentalmappingmodelcomprisedofaudiocontextinformation

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 75



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

浅论真实感可视语音合成算法研究

浅论真实感可视语音合成算法研究

相关文章

相关标签