基于神经网络由语音预测视位参数

基于神经网络由语音预测视位参数

ID:33546197

大小:218.33 KB

页数:5页

时间:2019-02-27

基于神经网络由语音预测视位参数_第1页
基于神经网络由语音预测视位参数_第2页
基于神经网络由语音预测视位参数_第3页
基于神经网络由语音预测视位参数_第4页
基于神经网络由语音预测视位参数_第5页
资源描述:

《基于神经网络由语音预测视位参数》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第26卷第6期小型微型计算机系统Vol126No.62005年6月MINI-MICROSYSTEMSJune2005基于神经网络由语音预测视位参数12王志明,蔡莲红1(北京科技大学计算机系,北京,100083)2(清华大学计算机系,北京,100084)E2mail:wangzhiming@tsinghua.org.cn摘 要:语音是由多个发音器官共同作用产生的,发音器官动作与语音之间有着内在的必然联系.研究了利用神经网络预测视位参数中的选择语音参数、确定输入语音时域范围、优化神经网络结构等因素.实验结果表明,线性预测参数加短时能量优于其他语音参数,前向协同发音较后向协同发音影响更大,反馈对前馈

2、神经网络的性能有所改善.考虑到实验采用的是任意连续语流,均方误差约为0.0114的实验结果还是很有吸引力的.关键词:前馈神经网络;视位;线性预测系数;线谱对系数;实倒谱系数;反射系数;Mel倒谱系数;均方误差中图分类号:TP18文献标识码:A文章编号:100021220(2005)0621083205PredictingVisemeParametersfromSpeechBasedonNeuralNetwork12WANGZhi2ming,CAILian2hong1(DepartmentofComputerScienceandTechnology,UniversityofScienceandT

3、echnology,Beijing100083,China)2(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Speechisproducedbyco2operationofallspeechorgans,andthereareinherentrelationsbetweenspeechandmovementofspeechorgans.Topredictvisemeparametersfromspeechusingneuralnetwork,inputspeec

4、hparametersselection,timedomainandstructureofneuralnetworkwerestudied.ExperimentresultsshowthatLPCcoefficientplusshorttimeenergyaresuperiortootherspeechparameters,forwardco2articulationismoreserverthanbackwardco2articulation,andadelayfeedbackcanimprovetheforwardneuralnetworkperformance.Consideringex

5、perimentswerebasedonunlimitedvocabularyandcontinuousspeech,the0.0114meansquareerror(MSE)isquitepromising.Keywords:feedforwardneuralnetwork;viseme;linearpredictivecoding(LPC);linespectralfrequency(LSF);realcepstrum(RCEP);reflectioncoefficient(RC);melfrequencycepstrumcoefficient(MFCC);meansquareerror(

6、MSE)1 引 言息.另外,在可视电话、电视会议等应用环境中,图像的主要变化正是集中在说话者的唇部,从语音预测出口形的变化,就可语音是由人的各个发音器官共同作用产生的,发音器官以利用音视频的交互信息来进行高效的音视频联合编码,从的动作与所处状态决定了语音的性质.人们的发音器官有的而大大提高多媒体数据的压缩率.是外界不可见的,如肺、气管、咽喉等部分;有些器官是外界可在音视频映射的研究中,AT&TBELL实验室的Chen,以看见的,如唇、下腭等,国际标准MPEG24将发音过程中这T.和Rao,R.R.等人作了长期的、大量的研究工作,尝试了些可视器官的所处状态定义为视位(Viseme).人们在交流过

7、各种预测方法,包括基于矢量量化分类的方法、基于神经网络程中,不仅用耳朵去听声音,而且用眼睛观察这些可视发音器的方法、基于混合高斯模型的方法、基于隐马尔克夫模型官的动作,以便获得更多的信息,尤其是在噪声较大的环境(HMM)的统计方法等等[2,3,4,5].Lavagetto,F.采用了时延神中.实验结果已经表明,在强噪声环境中,看见可视发音器官经网络(Time2DelayNeuralNetwork)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。