欢迎来到天天文库
浏览记录
ID:37356032
大小:4.92 MB
页数:121页
时间:2019-05-22
《语音驱动的说话口形预测与合成技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京工业大学博士学位论文语音驱动的说话口形预测与合成技术研究姓名:贾熹滨申请学位级别:博士专业:计算机应用技术指导教师:尹宝才20070301北京工业大学工学博士学位论文视语音亦同类的假设。基于该假设,研究了样本统计方法在建立粗耦合的语音类,口形类映射模型的应用,并对提高基于语音聚类后所得的映射口形图像类聚类特性的方法作了相关研究。(4)以声视频映射模型为基础的合成方法的研究:研究以租耦合的语音类,口形类映射模型为基础,实现语音到同步的口形图像转换方法。在合成过程中将Viterbi算法应用于语音
2、同步的口形序列预测中,并针对评价函数的设计做了相应的研究。通过对以上几个研究点所展开的研究,本文确定了采用合成真实感较强的基于图像的合成方案,并将基于样本学习的研究方法应用在整个研究过程中,围绕语音到说话口形的转换目标,对上述相关问题提出了相应的解决方案,主要研究成果和创新如下所述。(1)提出了基于几何和颜色矩的说话口形图像表示法。确定了反映口形形状的几何特征,同时针对单纯基于几何特征无法描述牙齿可见度的缺陷,提出了基于几何特征加颜色矩的联合数字视觉语音特征设计方案。几何特征以面向MPEG..4
3、所定义的唇部区域FDP特征点为基础生成。为获得有效的特征点,本文采用了由粗到细的特征点定位方法,同时改进了ASM方法中基于灰度的局部纹理模型,利用反映颜色信息的色调和饱和度分量描述局部纹理,通过统计沿特征点X、Y以及两坐标轴夹角450和1350方向的纹理分布规律建立局部纹理模型。实验结果表明,相对PeA特征和几何特征,基于几何和颜色矩的口形特征能更好地用于区分不同的说话口形.(2)基于遗传算法提取口形相关语音特征。通过对样本数据中典型语音特征(LPCC,MFCC)系数和口形图像之间的关系分析,提
4、出基于遗传算法提取口形相关的语音特征,确定了基于固定长度的二进制编码方案,以及基于映射口形类的类散布度评价函数为依据的适应度函数设计方案。实验结果表明基于最优个体生成的语音特征相对LPCC、MFCC以及两者的联合特征对说话口形具有更好的预测能力。(3)提出了粗耦合的语音类,说话口形类的声视频映射方案。按照语音同类可视语音亦同类的原则,实现了基于样本实例建立语音类,说话口形类的声视频映射方法,为语音到可视语音的转换提供了依据。通过建立两者粗耦合的关联Ⅱ摘要关系,绕过准确建模两者关系的困难,在类概念
5、的意义上,解决了语音与说话口形之间非一一对应关系的难以描述的问题。相对采用复杂模型来建模声视频关系,该方案简洁易实现。(4)提出了基于双层语音码本的说话口形图像预测合成方法。针对单纯基于语音聚类特性生成的El形图像类中存在着口形不完全一致问题,本文提出在每个口形图像类中根据图像相似性二次聚类,生成图像类子集,并反映射到语音特征空间,构建反映语音和口形聚类特性的双层语音码本。根据该码本,实现新输入语音到口形图像类的转换,在此基础上,本文利用搜索方法在候选图像中通过样本重组合成平滑的口形序列。实验结
6、果表明合成口形序列与原始口形序列具有很好的相似性。关键词可视语音合成;声视频映射;数字视觉语音;说话1:3形相关语音特征;口形特征ⅢAbstraetAbstractTosynthesizetherealisticspeeeh-synehroni硝ngvisualspeechisanimportantresearchfieldinhuman-computerinteractionat'ca..Itishelpfultoimprovethefrielldlinessandrealityoflauma
7、n-maelaineinteractionwithatalkingheadinthefieldsofeducation,broadeas魄eleelzoniecOll缸mel'Ceandere.Theresearchresultswillhave1)otentialapplicationinmanymultimediasystems.Theresearelainthepaperreferstoknowledgeofmachinelearning,imageprocessing,speechpro
8、cessing,digitalvisionandp种【elnclassification.Itisacombinedapplicationofthecorrespondingtheoriesinthevisualspeeelasyathesisdomain.Ithasthetheoryandprac-tiealsignifiean∞.Ithasthedifferentviewpointswhenthevisualspeechsynthesisresearchisusedinthedifferap
此文档下载收益归作者所有