资源描述:
《基于voicexml语音业务平台设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
基于voice)【池的语音业务平台的设计与实现摘要随着互联网的飞速发展,语音业务在生活中的应用越来越广泛。但是原有的语音业务开发流程存在着开发速度慢,修改复杂等问题。2000年,W3C发布了VoicexML1.0标准,Voice)(1ⅥL是一种基于、Ⅳeb的标记语言,用来描述人与计算机进行语音对话的过程,同时该标记语言可以用来描述语音业务。通过解释执行VoicexML文档完成业务的使用成为开发语音业务的新思路,它不仅将程序员从繁重的开发任务中解脱出来,而且加快了新业务的开发速度。本文在分析了语音识别、语音合成等技术的基础上,完成了基于VoiceXML的语音业务平台的原型系统设计并对系统结构,设计思想进行了详细介绍。本系统分为硬件平台,VoicexML解释器和文档服务器三个部分同时集成了TTS服务器。语音识别部分由于资源有限,暂时由DTMF代替。在文章的最后分析了系统的不足,并指出了下一步改进的方向。关键词:VoiceⅪ订L、语音合成、语音识别、语音业务IIl ④北京邮电大学硕士论文基于voi∞xML的语音业务平台的设计与实现DESIGNANDIMPLEMENTATIoNoFVoICESERVICESPLATFol己MBASEDoNVoICEXMLABSTRACTwnhthequicUydeveIopHmntofIntem鸭Voiceservic髑wereusedwideIyinour喇fe.Blltthenare墨omeproblemswithvoi∞ser“cesdevelopment.Sucha摹skwdeveI叩speed,d蝴cuntochange,andsoon.2000'W3C弛Ieased恤eVoice)ⅢL1.0edition.Voic删Lisa脚rkupI蛆guagebasedontlIeweb'ndescribemeprocessofvoicedialoguebetweenpeopIeandcomputer.Meanwhi峙恤is啪rk叩l粕g.1agec粕beusedtodescribevoiceservic稍.There缸anew埘eatomⅡmevoiceservicesby旺plainandexecutethenleVantVoicexMLmes.nnotonIyc柚freeprogra籼ersfromtheheavyprogramming’butalsoquickthenewvoiceser1一cesdevelOp.Thisthesisimplementedaprotot)rpesystembasedon蛐alyzethekeytechnolo斟ofTextToSpeech(TTs)蛐dAutomatedSp∞chReco鲷i咖n(ASR).Inaddi廿on,恤ethesisdeepIyintroducedthestnIctIIreofthesystemandthedesigⅡMeoIo科.Thepmtotypesystemc粕be棚Videdintothr卵parIs:hardwanpla怕m,VoiceXMLinterpreteranddocum吼tserver.ThissystemhaveMaIizedtheTTSservice,butforIackofresourceASRserl一cewerenplacedbyDTMF.Atthe蛐dof恤epaper'some娃perien∞inthedevelopmentandtheupgradingplanningof恤esystemislodescribe.KEYWoRDS:VoiceXML、TTS、ASR、VoiceServic鹤Ⅳ @北京邮电大学硕上论文基于v研∞ⅪⅡL的语音业务平吾的设计与实现独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:逝王盈日期:丝』:!:!关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期问论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印,缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授本人签名:监士亚同期:导师签名:—_!午_?头_—一日期:Ⅱ 囝北京邮电大学硕士论文基于voi∞xML的语音业务平台的设计与实现1.1背景第一章绪论近年来,hnenlet取得了飞速的发展并越来越多地渗透到人类生产生活的各个方面。在极大地提高全社会运作效率的同时,其自身也在使用成本、可用性、易操作性等方面不断进步。目前,互联网为用户提供了丰富多彩的个性化服务、交互式服务,而电子商务的发展使企业与企业之间、企业与用户之间的沟通更为密切、更为深入。在信息获取手段上,电话、传真、计算机、PDA等各种多媒体信息终端竞相崭露头角,人们接受信息的方式已多种多样。然而,由于地区的差异和经济水平的限制,我国上网的企业和个人半数以上分布于沿海发达城市,对于大多数普通百姓而言,计算机应用水平仍然很低,主动使用计算机上网获取信息的意识还很薄弱,更有待加强。因此,让互联网给寻常百姓带来便利的信息服务就存在着各种各样的障碍。而公用电话网(PSTN)经过这些年的发展,电话终端的普及率已经达到了相当高的程度。鉴于上述原因,专家提出了将互联网与电话网融合起来,利用语音输入的便捷性,通过友好的语音交互方式直接获取信息和服务,使任何人可以在任何地点,通过电话用语言访问Intc订let的内容或进行电子商务活动。语音业务不仅方便了我们的生活,而且为开发商带来了可观的收益。传统的语音业务开发是将业务流程与具体操作联系在一起的,其开发过程如下:1.根据具体业务需求定义业务流程。2.根据流程的特点划分各个状态。3.定义各状态之间的事件驱动方式,形成完整的状态流程。4.根据具体的状态图进行程序编写,完成各个状态的底层操作。传统的语音业务开发方式存在着开发周期长,开发成本高,系统灵活性差的缺点。这是因为:1.从开发过程分析:业务流程实现与底层的资源控制没有分开,每个语音业务的开发都涉及到对大量底层资源的控制,因此,业务开发的程序量和开发难度都比较大。2.从业务修改角度分析:由于业务流程是固定的,业务流程的细微变化就必须对整个系统的状态机进行修改,程序改造升级非常繁琐,它越来越不能适应多变的实际需求。因此,如何实现业务流程的灵活配置和方便扩充就显得尤为重要。 IBM、Lucent、Motorola、AT&T四家公司于1999年提出了一种应用于语音浏览的标记语言Voi洲LⅣoiceEx僦lsibleMarkupLangIlage)规范。该规范建立在xML(Ext饥sibleMarkupLang眦ge)规范的基础之上。voiceXML的设计目的是实现类似于HmL的人机对话。HTML是通过图形浏览器并且使用显示终端、键盘、鼠标等设备来实现人机的交流,而vbic积ML则是通过语音浏览器,使用语音输出(计算机语音合成或播放预先录制的数字语音)和语音输入(人们的语音或DTM暇按键音)来实现更人性化的人机会话。从某种意义上说,它是一种语音数据交换标准。它可以与数据库、HTML、wML以及其他文档处理和发布系统进行无缝数据交换,从而突破性的实现互联网与电话网的融合。VoicexML的提出,也为语音业务的实现提供了新的思路,即将具体业务和资源控制分开,具体的语音业务用VoiceXML文档表示出来,资源控制则由统一的平台实现。通过对voiceⅪ“L文档的解释,根据解析结果操作资源控制平台就可完成语音业务。因此,一旦建立起VoiceⅪⅥL的执行平台,开发人员在编写新的语音业务时,只需设计出针对该业务的VoiceⅪ以L文档,执行平台负责处理底层的所有操作。这种开发模式将开发人员从最低级的编程和资源处理工作中解放出来。不仅加快了新业务的开发速度、降低了开发难度,而且使业务流程的修改变得更为简单。1.2国内外研究现状1.2.1voicex札标准的发展状况V,tiw3c接受vokexMLl糟糕准图卜lVoice脚L标准发展图图1.1表示了voiceⅪ“L标准的发展历程。1999年3月,Motorola、Lucem、AT&T和IBM四家公司联合发起成立了voiceXML论坛(蛳;垃酆丛!Qi££墨盥!:Q型),目的在于为电话和移动设备提供一种便捷的访问IIlt黜et网络,获取服务和信息的手段。2000年3月,voicexML论坛发布了2 @北京邮电大学硕士论文基于、,oi优xML的语音业务平台的设计与实现voicc)(MLl.0标准。5月,W3C接受了voiceXMLl.O。随后,W3C于2004年3月17日通过了VoicexML2.O标准。2005年12月7日,w3C表示,它将起草ⅦicexML3.O标准的草案。新的ⅦiceⅪvIL标准将包含针对说话者认证的标准。voi∞)。dL通常被用于通过语音而非键盘发出命令,许多企业都利用这一技术,通过将一些业务过程自动化、减少员工数量而增加利润。但是,用户和企业正在越来越担心这些过程的安全。%iceXML论坛主席里霍在一份声明中说,说话者认证和认别不仅仅是保护电话交易和通讯的最佳生物学检测技术,它还能够在VoiceⅪ“L中与语音识别和语音合成无缝整合。W3C语音浏览器工作组的联合主席表示,W3C已经完成了voiceⅪⅥL3.0的必要条件。除了voicexML3.O的说话者识别要求外,w3c还解决了将其“语音合成标记语言”(ssML)功能扩展到包括日语、朝鲜语在内的一些语言。目前,由于voiceⅪ讧L技术和语音技术的快速发展,国内外共有150多家公司支持voiceⅪ订L,Motorola、Lucent等公司已开发出了基于voicexML的产品。语音技术不但让那些由于环境或生理限制无法使用图形化浏览器的人得以访问W曲,也为所有的用户提供了更为便捷的W曲访问功能。1.2.2主要产品介绍IBM:mM主要开发了ⅥaⅦice和voi∞xML的服务区,以及voicexML的开发包,从而能与w曲sphere结合,实现计算机网络与电话的完美结合。但是该服务器只支持英语,法语和德语。Motor01a:Motorola也有自己的VoicexML网关和voiceⅪvIL的开发包,但是也不支持中文。NuaIlce:Nuance是一个专门开发语音的厂商。他有开发的框架和构架voic白ML的一整套工具。其中包括Voicew曲Serv盯,V-Bujlder(开发voic积ML的可视化工具),secureV舐fier。尤其是他对超过20种语言(包括中文和广东话)的支持及其优良的稳定性赢得了很多市场份额。1.3本文的主要工作本文的主要工作是在对语音识别、语音合成等关键技术进行分析的基础之上完成一个基于、,oicexML的语音业务平台系统,并且对其进行相关的测试和优化。本文的主要工作如下:1.熟悉ⅦiccⅪvIL标准,研究其应用的体系模型。2.研究语音识别、语音合成、文档解析等相关技术。 。北京邮电大学硕士论文基于voi∞xML的语音业务平台的设计与实现3.设计语音业务平台的系统结构,并对各个模块进行划分。4.选用相关硬件,进行具体模块的详细设计。5.完成编码工作,进行系统测试。1.4本文的组织本文首先介绍了语音业务的发展状态,分析了原有语音业务开发流程的缺点,并结合voiceⅪ“L的特点介绍了基于voicexML的语音业务开发平台。第二章介绍了voiccⅪ讧L的基本概念及相关应用模型。第三章分析了与voiceXML相关的关键技术,包括ASR和TTs等。第四章详细介绍了平台的实现方案、模块设计以及模块问的交互过程等。第五章详细介绍了平台的实现过程。第六章介绍了一个具体的语音业务在平台中的使用过程及测试。第七章进行了全文总结和展望。1.5本章小结本章主要介绍了原有的开发语音业务的方法,分析了其中的不足,并且引入了ⅦiccxML语言的介绍。在本章的第二小节介绍了关于VoiceXML标准发展历程和国内外研究状况以及相关的产品介绍。最后简要介绍了本文的组织结构。4 2.1Voicex札简介第二章VoiceXML介绍VoiccxML是一种应用于语音互联的标记语言,它建立于)(】ⅥL标记语言规范的基础之上,是交互语音应用的核心。VoicexML确定为通过话音和电话使用Int黜et内容的标准,用VoiceXML解释程序取代H1ML解释程序,以及用人的语音取代鼠标和键盘等。VoiccXML定义了一系列的语音应用概念,元素及其对应的操作。Voice)叫L以嘞l文档的形式在实际应用系统中存在,珊l文档由符合voiccxML规范的解析器来解析。解析器通过建立应用(Application)和会话(session),获取包含控制命令的文档,根据文档中的标志建立对话。从而解释各个对话,控制语音识别、语音合成引擎以及语音通道的触发、开启和关闭、挂起等,实现与用户的会话式的交互,并根据对用户反应的识别结果进行导向判断,进行文档之间的转移和应用之问的转移。2.'.1Voicex札的特点v-oic洲L的特点如下:1.voiceⅪ饵L通过每一文件里指定的多重的交互作用,最小化客户机/服务器之间的交互工作。2.实现应用开发者与低层的软件及系统平台上的软、硬件细节无关。3.将用户交互作用的代码从业务逻辑中分离出来。4.能跨越不同的执行平台,促进服务的可移植性。对于内容服务商、工具提供商和平台提供商来说,VoicexML是一个公共语言。5.非常容易用于简单的(人机)交互,要求所提供的语音界面能支持复杂的对话。2.1.2voicex札的优点’●灵活性基于、biccXML的应用有着空前的灵活性。在VoiceXML语音浏览器上开发语音应用,如同开发W曲应用一样轻松简单。只需要有对XML的知识,就可以开发VoiceⅪ“L应用。基于VoicexML的语音应用系统可以很好的和其它5 囝北京邮电大学硕士论文基于voi∞xML的语音业务平台的设计与实现已有的w曲应用系统或数据应用系统良好的结合。开发VoiceⅪ“L语音应用,无须复杂的c/C++等编程语言,无须专门的编程工具,基于Ⅺ订L脚本描述,和wEB应用开发一样简单;利用Javas谢pt、AsP、Perl等描述性语言与voiceⅪ“L的结合,可以建立功能强大的网络应用系统。●重用性现在的大企业一般都为用户提供了网站服务和呼叫中心服务,Voic积ML重用了Intemet基本结构和IvR系统的资源,是对原有系统的综合,使得原有的资源充分利用。基于voiceⅪ“L的应用与传统Intemct应用系统的轻松集成,语音网页取代了传统的cTI流程机制,跨越各种操作系统平台的应用开发。应用模块和语法模块可轻松定制和重用。●开放性VoiceⅪ“L是Voic积ML论坛提出的标准,现在已经被w3c组织接受,得到了众多企业的支持,所以只要是符合VoicexML规范的应用在不同企业的平台上都可以运行。2.1.3voi∞)呲的语法一个VoiceⅪ幢L文档(或一系列相关的文档)构成了一个有限的会话状态。用户一次只能在一个会话状态或Dialog中。每个Dialog都会确定要跳转的下一个Dialog。跳转通过uRI指定,uRI规定了下一个要用到的文档和Dialog。如果uRI没有指向一个文档,则认为它指向当前文档。如果uRI没有指向一个Dialog,则认为它指向那个文档的第一个Dialog。如果一个Dialog没有指定它的下一个DiaIog,或者它有一个明确地退出会话的元素,则执行中断。图2.1表示了、,oic测L规范的层次结构。6 图2.1voice舭规范的层次结构图●Session会话从用户与VoiceXML解释程序语境交互开始,持续进行文档的装载和处理,直到由用户、文档或解释程序环境发出终止请求才结束。●Application应用是由共享同一个应用根文档的~系列文档组成的。无论如何,只要用户在跟应用里的文档交互,它的根文档都会被加载。当用户在同一应用的其他文档中跳转时,应用根文档一直都被加载,直到用户跳转到一个不在这个应用里的文档。当应用根文档被加载的时候,它的变量就像这个应用的变量一样,对这个应用里所有的文档都是可用的,它的语法在这个应用的生命期内都是激活的。●Dialogs锄dSubdialogsVbiceXML中定义了两种类型的会话:表单(Fonll)和选单(M删)。Fo加定义了一个获取一组字段变量的值的交互过程。每一个字段可以指定一个文法,定义了该字段的允许的输入值。M锄u提供选项供用户选择,然后根据选择的结果转移到另一个会话。子会话像函数调用,它引起一个新的交互作用并且返回给上一层的Fornl。局部的数据、文法和状态信息被保存,当返回到调用文档时可以使用。例如,子会话可以用于创建一个在数据库查询时需要的确认序列;创建在单一请求中的多7 。北京邮电大学硕士论文基于、,0iccXML的语音业务平台的设计与实现个文档共享的一批组件;或创建一个在多个请求中共享的可重用的会话库。●(;I鼍nmlar每一个会话有一个或多个语音和(或)删F文法。在定向对话应用中,一个会话的文法只有在使用者与此会话交互时才起作用。在混合主动式对话中,机器和用户交替控制下一步的操作,一些会话被标记以使它们的文法即使当用户在同一文档的其他会话时也起作用。在这种情况下,如果用户进行的操作与另一个会话的有效文法匹配时,执行就会转移到另一个会话。混合主动式对话增加了语音应用的适应性和能力。●Ev∞tvoiceⅪ“L提供一种表单填充机制用来处理“正常”的用户输入。另外,voiccxML也定义了处理异常事件的机制。如用户在一定时间内没有作出应答,请求系统帮助等情况下平台会产生事件。如果解释器在VbiceXML文档中发现语义性错误时,也会产生事件。●Link链接支持混合主动式对话,当用户在链接的作用范围时它指定的文法就起作用。如果用户的输入与链接的文法匹配,控制就转移到链接的目的uRL。可以用来产生一个事件跳转到目的uRL“’。2.1.4voicex札的标记voiccxML是一种标记语言,它主要定义了43种标记,如表2.1所示:表2—1Voice舭元素‘1’元素作用给变量赋值。