欢迎来到天天文库
浏览记录
ID:46828222
大小:64.51 KB
页数:5页
时间:2019-11-28
《语音识别的研究现状和应用前景》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、语音识别的研究现状和应用前景语音识别技术并不是一夜之间冒出来的神话,早在三四十年前,在美国的一些大学和研究单位,就已经有人开始从事这一方向的研究,并有一些相关论文发表;七十年代前后,研究的脉络日渐清晰,于是贝尔实验室和国际商用机器公司(IBM)等都先后建立了专门的研究机构。今天这两家公司在这一领域都已取得了显著的成果,并且在商业上应用成功,但贝尔实验室主要是偏重于电信方面应用的语音识别系统,如电话查询等;而IBM则偏重于商务应用,因而在连续语音识别上取得了不小的成功。不谈商业方面的应用,事实上,很多家公司都提供语音识别的引擎(Engine),并且都表示能支持
2、微软的SAPI。看一看SAPI4.0SUITE就不难发现,微软在这方面的研究并不逊于任何一家公司,只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎,如SpeechRecognition(语音识别)、Command&Control(发布指令并控制)、PhoneQuery(电话语音识别)、Texttospeech(文本语音转换)等。今天,许多用户已经能享受到语音技术的优势了,可以对计算机发送命令,或者要求计算机记录下用户所说的话,以及将文本转换成声音朗读出来。尽管如此,距离真正的人机自由交流的前景似乎还远。目前,计算机还需要对用户作大量训练才能识别用户
3、的语音。并且,识别率也并不总是尽如人意。换言之,语音识别技术还有一段路需要走,要做到真正成功的商业化,它还必须在很多方面取得突破性进展,这实际就是其技术的未来走向。就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资源的不断发展,一些核心算法如
4、特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。就自适应方面而言,语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进
5、。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一二个百分点识别率更重要。事实上,ViaVoice的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然这极
6、大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术必须有特殊的抗嗓(NoiseCancellation)麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音,如何让语音识别技术也能达成这一点呢?这的确是一个艰巨的任务。此外,带宽问题也可能影响语音的有效传送,在速率低于1000比特/秒的极低比特率下,语音编码的研究将大大有别于正常情况,比如要在某些带宽特别窄的信道上传输语音,以及水声通信、地下通信、战略及保密话音通信等,要在这些情况下实现有效的语音识别,就必须处理声音信号的特殊特征,
7、如因为带宽而延迟或减损等。语音识别技术要进一步应用,就必须在强健性方面有大的突破。多语言混合识别以及无限词汇识别方面目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如"信噪比"等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限于硬件资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模型的进一步改
8、进,以及以语义学为基础的语言模型的改进,也能帮助用户
此文档下载收益归作者所有