欢迎来到天天文库
浏览记录
ID:21253625
大小:1.77 MB
页数:83页
时间:2018-10-20
《多类分类支持向量机在语音识别中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、太原理工大学硕士研究生学位论文北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。20世纪90年代后,许多国际大公司例如IBM、Apple,AT&T,Microsoft等都对语音识别系统的实用化研究投以巨资,语音识别技术实用化进程大大加速[5],并且逐步实现了商业化。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice,DragonSystem公司
2、的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司率先推出的ViaVoice标志着大词汇量、非特定人、连续语音识别技术正在趋于成熟。目前,语音识别技术在实验室研究中的精度已经达到了相当的高度。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机
3、制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。2003年,IBM又在康柏ipaq掌上电脑上实现了大词表的两级搜索语音识别系统[6]。由于汉语的一些特性(同音字较多等),汉语的语音识别技术难度更大一些。无限词汇的汉语听写机的研制首先由清华大学、中国科学院声学所于1988年取得突破,90年代初四达公司推出了首批汉语听写机产品。目前,国内语音行业的领军人物中科信利公司开发的嵌入式语音识别引擎,在200词的情况下识别率不小于95%,在2000词的情况下识别率不小于90%,并且能满足实时性[7]。还有安徽科大讯飞公司的
4、InterReco1.0,2.0系列产品,允许用户通过语音输入向动态语法增加命令或词表。智能语音识别系统Aitalk2.0,能够方便的应用在嵌入式设备上,解放用户的双手,通过语音命令操作设备、检索信息。目前这些技术都已经成功地应用在某些手机品牌中[8]。这种方式不仅能够有效地利用用户个性化的语音,提高系统的识别率,而且能够3太原理工大学硕士研究生学位论文提高用户输入词表的方便性和灵活性。语音识别技术现在正处于高速发展的阶段,随着硅芯片价格和寄存器成本的不断下降,语音识别算法更加复杂,微电子技术也取得了长足的进步,语音识别系统的应用前景是非常广泛的,它正逐步成为信息技术中人
5、机交互的关键技术,语音识别技术与语音合成技术结合使人们能摆脱键盘的束缚,通过语音指令进行操作。尤其是人们对语音控制汽车导航表现出日益强烈的需求,预示着语音识别市场化有更广阔的前景。1.3语音识别系统面临的问题虽然语音识别技术在实验室的研究中,其精度已经达到了相当的高度。但是在实验室中研究出来的语音识别系统,在鲁棒性、灵活性和自适应能力上远远不能满足实际的需要,技术上也显得力不从心。在实验室中能达到很高识别率的语音识别系统,在实际应用中还有许多问题:系统的识别速度、机器对说话者的依赖程度、词汇量的大小、语言的类型等很多方面都达不到实际的需要。目前语音识别系统要进入成熟可靠的
6、实际运用阶段还有一段艰难的道路要走,还必须在很多方面取得突破性进展[9]:(1)提高可靠性一方面,当环境中存在背景噪音时,语音识别率会受到影响。在公共场合,人们能够有意识地摒弃环境噪声并从中获取自己所需要的特定声音,但目前计算机还不可能做到这一点。来自四面八方的环境噪声和背景话音,极大地限制了语音识别技术的应用范围。目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗噪(NoiseCancellation)麦克风才能进行,但这对多数用户来说是不现实的。另一方面,当存在方言或口音时,语音识别率会受到影响。人们在日常生活中说话有较大的随意性(Spontaneous),常常不会经
7、过特殊准备,并带有明显的言语习惯,全世界有近百种官方语言,每种官方语言又有多达几十种方言。同种语言的不同方言在语音上相差很大。对于拥有八大方言区的中文来讲,应用的难度也非常大。相对于在讲话方式和讲话内容都经过特殊准备的符合语法规则的流畅的标准“朗读式语音”而言的,这种自然口语语音的识别要困难得多。(2)增加识别的词汇量4太原理工大学硕士研究生学位论文语音识别系统能够识别的词汇量是决定系统能够做哪一种事情的重要依据。如果语音识别系统使用的声学模型和语音模型太过于局限,当用户所讲的词汇超出系统已知的范围,必然不会得出满意的识别结果
此文档下载收益归作者所有