资源描述:
《基于语义的语音合成_语音合成技术的现状及展望》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第27卷第5期北京理工大学学报Vol.27No.52007年5月TransactionsofBeijingInstituteofTechnologyMay2007文章编号:100120645(2007)0520408205基于语义的语音合成———语音合成技术的现状及展望12朱维彬,吕士楠(11北京交通大学信息科学研究所,北京100044;21中国科学院声学研究所,北京100080)摘要:综述了语音合成技术的发展现状.指出并分析了目前系统存在的发音质量、韵律预测、表现能力等3个方面的问题.提出了将语义分析引入语音合成系统,使合成语音具有准确、生动的语义表现能力,并作为新一代语音合成
2、系统的目标.探讨了实现这一目标所涉及的理论基础、技术实现、基础资源等研究内容.关键词:语音合成;语义;韵律;表现能力中图分类号:TP391文献标识码:ASemantic2BasedSpeechSynthesis———SurveyandPerspectiveontheSpeechSynthesisTechnology··12ZHUWei2bin,LUShi2nan(11InstituteofInformationScience,BeijingJiaotongUniversity,Beijing100044,China;21InstituteofAcoustics,ChineseAc
3、ademyofSciences,Beijing100080,China)Abstract:Overviewsthestate2of2the2artofspeechsynthesistechnology.Problemssuchasspeechquality,prosodypredictionandexpressivenessexistingincurrentsystemswereanalyzed.Itisproposedtointegratesemantic2analysisintospeechsynthesissystems.Thus,thegoalofthenextgener
4、ationofsystemsoughttobetoconveythesemanticinformationperfectlyandvividlythroughsynthesizedspeech.Thefundamentalprinciplesmethodologies,andbasicresourcesrelevanttoachievethegoalsarediscussed.Keywords:speechsynthesis;semantics;prosody;expressiveness语音合成系统性能可分为3个层次:表音(清于解决目前系统普遍存在的注音及韵律结构预测等晰、自然
5、地合成出语音)、表意(准确地表达话语意方面的问题;另一方面,解决语义言语实现所涉及的图)、表情(生动地表现语意情感).近年来,由于基语义重音、功能语调、发音方式等方面的建模与预于数据库的单元挑选及数据驱动建模技术的普遍采测;在此基础之上,构建具有准确、生动表现能力的用,语音合成系统在可懂度、自然度等评价指标上有新一代语音合成系统.[1-4]了显著提高,但在本质上仍处于表音层次.为在考查了语音合成技术的发展现状之后,作者了使合成语音具备“表情达意”的能力,需使文本到基于对现有问题产生的原因进行了分析,指出了解语音的转换过程在语义层面上进行.将语义处理机决问题的关键在于语义分析及实现
6、,阐述了下一阶制引入语音合成,实现文本的语义分析,一方面有助段基于语义的语音合成技术在理论基础、技术实现收稿日期:2007-03-09基金项目:国家“八六三”计划项目(2006AA010104);北京交通大学校基金项目(2005RC014)作者简介:朱维彬(1966—),男,博士,讲师.E2mail:wbzhu@bjtu.edu.cn;吕士楠(1937—),男,研究员,E2mail:lu-shinan@163.com.©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://w
7、ww.cnki.net第5期朱维彬等:基于语义的语音合成———语音合成技术的现状及展望409以及资源建设等方面所涉及的研究内容.(worderrorrate,WER)反映合成样本的可懂度;设置了5分制的主观评价得分(meanopinionscore,1技术现状MOS)用以反映合成样本的自然度.在2005年的测由于波形拼接技术的普遍采用,语音合成研究试中,由专家构成的测评组测试的最佳系统结果为:的重点已由早期的音段(segment)层级的处理转到WER为1417%,MOS为3119