欢迎来到天天文库
浏览记录
ID:40196880
大小:470.34 KB
页数:7页
时间:2019-07-25
《基于统计声学模型的单元挑选语音合成算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据第21卷第3朋2008年6月模式识别与人工智能PR&AIV01.21No.3June2008基于统计声学模型的单元挑选语音合成算法水凌震华王仁华(中国科学技术大学电子工程与信息科学系讯飞语音实验室合肥230027)摘要提出一种基于统计声学模型的单元挑选语音合成算法.在模型训练阶段,首先提取语料库中语音数据的频谱、基频等声学参数,结合语料库中的音段和韵律标注来估计各上下文相关音素对应的统计声学模型,使用的模型结构为隐马尔柯夫模型.在合成阶段,以使目标合成句对应的声学模型具有最大的似然值输出为准则,来进行最佳合成
2、单元的挑选,最后通过平滑连接各备选单元波形来生成合成语音.以此算法为基础,构建一个以声韵母为基本拼接单元的中文语音合成系统,并通过测听实验证明此算法相对传统算法在提高合成语音自然度上的有效性.关键词语音合成,单元挑选,统计声学模型,隐马尔柯夫模型(HMM),最大似然准则中图法分类号TN912.33StatisticalAcousticModelBasedUnitSelectionAlgorithmforSpeechSynthesisLINGZhen—Hua,WANGRen-Hua(iFtySpeechLaborato
3、ry,DepartmentofElectronicEngineeringandInformationScience,UniversityofScienceandTechnologyofChina,Hefei230027)ABSTRACTAstatisticalacousticmodelbasedunitselectionalgorithmforspeechsynthesisisproposed.Duringtrainingstage,theacousticmodelsforcontextualdependentpho
4、nemesarebuiltupbyusingacousticfeaturesextractedfromthetrainingdata,suchasspectralparameters,F0,andsegmentalandprosodiclabelsinthecorpus.ThehiddenMarkovmodel(HMM)isadoptedasthemodelstructure.Duringsynthesisstage,theoptimalphonemeunitsequenceissearchedinthespeech
5、corpusbymaximizingtheprobabilisticlikelihoodbetweenitsacousticfeaturesandthesentenceHMMconstructedwiththecontextualinformationofinputtext.Finally,thewaveformsoftheselectedcandidateunitsareconcatenatedandsmoothedtoproducethesynthesizedspeech.Based011theproposedm
6、ethod,aChinesespeechsynthesissystemusinginitialsandfinalsasthebasicconcatenationunitsisconstructed.Resultsoflisteningtestprovethattheproposedmethodcanachievebetternaturalnessofsynthesizedspeechcomparedtotheconventionalmethod.KeyWordsSpeechSynthesis,UnitSelectio
7、n,StatisticalAcousticModel,HiddenMarkovModel(HMM).MaximumLikelihoodCriterion木国家自然科学基金项目(No.60475015)、国家863计划项目(No.AA210006(05)资助收稿日期:2007—07—02;修回日期:2007—09一17作者简介凌震华,男,1979年生,博士研究生,主要研究方向为语音信号处理、语音合成.E-mail:zhling@uste.edu.王仁华,男,1943年生,教授,博士生导师,主要研究方向为数字信号处理、语
8、音合成、语音识别.万方数据3期凌震华等:基于统计声学模型的单元挑选语音合成算法2811引言基于大语料库的单元挑选与波形拼接是现今最为常见的一种语音合成方法¨。2J.其基本思想就是基于对输入的待合成语句的文本分析结果,从一个预先录制好的语料库中挑选合适的单元,将其波形拼接得到最终的合成语音.由于使用自然的语音波形,使得最终合成语音的音质得到保证.
此文档下载收益归作者所有