资源描述:
《文献翻译(1).doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、语音识别在计算机技术中,语音识别是指为了达到说话者发音而由计算机生成的功能,利用计算机识别人类语音的技术。(例如,抄录讲话的文本,数据项;经营电子和机械设备;电话的自动化处理),是通过所谓的自然语言处理的计算机语音技术的一个重要元素。通过计算机语音处理技术,来自语音发音系统的由人类创造的声音,包括肺,声带和舌头,通过接触,语音模式的变化在婴儿期、儿童学习认识有不同的模式,尽管由不同人的发音,例如,在音调,语气,强调,语调模式不同的发音相同的词或短语,大脑的认知能力,可以使人类实现这一非凡的能力。在撰写本文时(2008年)
2、,我们可以重现,语音识别技术不只表现在有限程度的电脑能力上,在其他许多方面也是有用的。语音识别技术的挑战古老的书写系统,要回溯到苏美尔人的六千年前。他们可以将模拟录音通过留声机进行语音播放,直到1877年。然而,由于与语音识别各种各样的问题,语音识别不得不等待着计算机的发展。首先,演讲不是简单的口语文本——同样的道理,戴维斯很难捕捉到一个note-for-note曲作为乐谱。人类所理解的词、短语或句子离散与清晰的边界实际上是将信号连续的流,而不是听起来:Iwenttothestoreyesterday昨天我去商店。单词也
3、可以混合,用Whaddayawa吗?这代表着你想要做什么。第二,没有一对一的声音和字母之间的相关性。在英语,有略多于5个元音字母——a,e,i,o,u,有时y和w。有超过二十多个不同的元音,虽然,精确统计可以取决于演讲者的口音而定。但相反的问题也会发生,在那里一个以上的信号能再现某一特定的声音。字母C可以有相同的字母K的声音,如蛋糕,或作为字母S,如柑橘。此外,说同一语言的人使用不相同的声音,即语言不同,他们的声音语音或模式的组织,有不同的口音。例如“水”这个词,wadder可以显著watter,woaderwattah
4、等等。每个人都有独特的音量——男人说话的时候,一般开的最低音,妇女和儿童具有更高的音高(虽然每个人都有广泛的变异和重叠)。发音可以被邻近的声音、说话者的速度和说话者的健康状况所影响,当一个人感冒的时候,就要考虑发音的变化。最后,考虑到不是所有的语音都是有意义的声音组成。通常语音自身是没有任何意义的,但有些用作分手话语以传达说话人的微妙感情或动机的信息:哦,就像,你知道,好的。也有一些听起来都不认为是字,这是一项词性的:呃,嗯,嗯。嗽、打喷嚏、谈笑风生、呜咽,甚至打嗝的可以成为上述的内容之一。在噪杂的地方与环境自身的噪声中
5、,即使语音识别也是困难的。语音识别的发展史尽管困难重重,语音识别技术却随着数字计算机的诞生一直被努力着。早在1952年,研究人员在贝尔实验室就已开发出了一种自动数字识别器,取名“奥黛丽”。如果说话的人是男性,并且发音者在词与词之间停顿350毫秒并把把词汇限制在1—9之间的数字,再加上“哦”,另外如果这台机器能够调整到适应说话者的语音习惯,奥黛丽的精确度将达到97℅—99℅,如果识别器不能够调整自己,那么精确度将低至60℅.奥黛丽通过识别音素或者两个截然不同的声音工作。这些因素与识别器经训练产生的参考音素是有关联的。在接下
6、来的20年里研究人员花了大量的时间和金钱来改善这个概念,但是少有成功。计算机硬件突飞猛进、语音合成技术稳步提高,乔姆斯基的生成语法理论认为语言可以被程序性地分析。然而,这些似乎并没有提高语音识别技术。乔姆斯基和哈里的语法生成工作也导致主流语言学放弃音素概念,转而选择将语言的声音模式分解成更小、更易离散的特征。1969年皮尔斯坦率地写了一封信给美国声学学会的会刊,大部分关于语音识别的研究成果都发表在上面。皮尔斯是卫星通信的先驱之一,并且是贝尔实验室的执行副主任,贝尔实验室在语音识别研究中处于领先地位。皮尔斯说所有参与研究的
7、人都是在浪费时间和金钱。如果你认为一个人之所以从事语音识别方面的研究是因为他能得到金钱,那就太草率了。这种吸引力也许类似于把水变成汽油、从海水中提取黄金、治愈癌症或者登月的诱惑。一个人不可能用削减肥皂成本10℅的方法简单地得到钱。如果想骗到人,他要用欺诈和诱惑。皮尔斯1969年的信标志着在贝尔实验室持续了十年的研究结束了。然而,国防研究机构ARPA选择了坚持下去。1971年他们资助了一项开发一种语音识别器的研究计划,这种语音识别器要能够处理至少1000个词并且能够理解相互连接的语音,即在语音中没有词语之间的明显停顿。这种
8、语音识别器能够假设一种存在轻微噪音背景的环境,并且它不需要在真正的时间中工作。到1976年,三个承包公司已经开发出六种系统。最成功的是由卡耐基麦隆大学开发的叫做“Harpy”的系统。“Harpy”比较慢,四秒钟的句子要花费五分多钟的时间来处理。并且它还要求发音者通过说句子来建立一种参考模型。然而,它确实识别出了100