资源描述:
《基于神经网络由语音预测视位参数》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第26卷第6期小型微型计算机系统Vol126No.62005年6月MINI-MICROSYSTEMSJune2005基于神经网络由语音预测视位参数12王志明,蔡莲红1(北京科技大学计算机系,北京,100083)2(清华大学计算机系,北京,100084)E2mail:wangzhiming@tsinghua.org.cn摘 要:语音是由多个发音器官共同作用产生的,发音器官动作与语音之间有着内在的必然联系.研究了利用神经网络预测视位参数中的选择语音参数、确定输入语音时域范围、优化神经网络结构等因素.实验结果表明,线性预测参数加短时能量优于其他语音参数,前向协同发音较后向协同发音影响更大,反馈对前馈
2、神经网络的性能有所改善.考虑到实验采用的是任意连续语流,均方误差约为0.0114的实验结果还是很有吸引力的.关键词:前馈神经网络;视位;线性预测系数;线谱对系数;实倒谱系数;反射系数;Mel倒谱系数;均方误差中图分类号:TP18文献标识码:A文章编号:100021220(2005)0621083205PredictingVisemeParametersfromSpeechBasedonNeuralNetwork12WANGZhi2ming,CAILian2hong1(DepartmentofComputerScienceandTechnology,UniversityofScienceandT
3、echnology,Beijing100083,China)2(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China)Abstract:Speechisproducedbyco2operationofallspeechorgans,andthereareinherentrelationsbetweenspeechandmovementofspeechorgans.Topredictvisemeparametersfromspeechusingneuralnetwork,inputspeec
4、hparametersselection,timedomainandstructureofneuralnetworkwerestudied.ExperimentresultsshowthatLPCcoefficientplusshorttimeenergyaresuperiortootherspeechparameters,forwardco2articulationismoreserverthanbackwardco2articulation,andadelayfeedbackcanimprovetheforwardneuralnetworkperformance.Consideringex
5、perimentswerebasedonunlimitedvocabularyandcontinuousspeech,the0.0114meansquareerror(MSE)isquitepromising.Keywords:feedforwardneuralnetwork;viseme;linearpredictivecoding(LPC);linespectralfrequency(LSF);realcepstrum(RCEP);reflectioncoefficient(RC);melfrequencycepstrumcoefficient(MFCC);meansquareerror(
6、MSE)1 引 言息.另外,在可视电话、电视会议等应用环境中,图像的主要变化正是集中在说话者的唇部,从语音预测出口形的变化,就可语音是由人的各个发音器官共同作用产生的,发音器官以利用音视频的交互信息来进行高效的音视频联合编码,从的动作与所处状态决定了语音的性质.人们的发音器官有的而大大提高多媒体数据的压缩率.是外界不可见的,如肺、气管、咽喉等部分;有些器官是外界可在音视频映射的研究中,AT&TBELL实验室的Chen,以看见的,如唇、下腭等,国际标准MPEG24将发音过程中这T.和Rao,R.R.等人作了长期的、大量的研究工作,尝试了些可视器官的所处状态定义为视位(Viseme).人们在交流过
7、各种预测方法,包括基于矢量量化分类的方法、基于神经网络程中,不仅用耳朵去听声音,而且用眼睛观察这些可视发音器的方法、基于混合高斯模型的方法、基于隐马尔克夫模型官的动作,以便获得更多的信息,尤其是在噪声较大的环境(HMM)的统计方法等等[2,3,4,5].Lavagetto,F.采用了时延神中.实验结果已经表明,在强噪声环境中,看见可视发音器官经网络(Time2DelayNeuralNetwork)