欢迎来到天天文库
浏览记录
ID:28143576
大小:1.38 MB
页数:13页
时间:2018-12-08
《语音识别技术的发展历程,语音识别是如何工作的?语音识别资料概述.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、语音识别技术的发展历程,语音识别是如何工作的?语音识别资料概述 你一定不会怀疑自己电脑的麦克风正背着你偷偷摸摸做些什么,因为你已经很久没有用过它了。 但事实真的是这样吗? 难道谷歌真的在“监听”用户吗? 挨君想告诉你,这基本没可能。 谷歌浏览器的用户已经超过20亿了,要是监听每个用户每天说的话,这个数据量太过惊人。投入高昂的成本就为了实现广告精准投放,还冒着巨大的法律风险,这种事正常人是不会去做的。 对于视频中展现的“事实”,可能的操作是谷歌使用了一个语音关键词识别系统。 有商业价值的关键词总共就几百万个,为了简单,可以只做头部那些最赚钱的几十万个。这几十万个关键词也不需
2、要先跑语音识别再跑文本匹配,拿原始的语音文件来搞一个中等深度的神经网络甚至线性特征模型就可以,速度也非常快。 所以大家不用担心语音识别正在侵犯你的隐私。相反,作为人类与机器最自然的交互形式(绝对不是打字),在未来,当你不想用手或者像残障人士难以用手的时候,语音识别将会是操作一切最方便的钥匙。 语音识别发展史 说到语音识别,大家熟悉的可能是最近十年里才出现的微信语音转文字,或者语音实时记录和翻译。但其实语音识别的历史比互联网还早,现代计算机诞生的那一刻,就已经埋下了语音识别的种子。 1946年,现代计算机诞生。它的诞生让人们意识到,原来计算机能完成这么多工作,而且做得比人还好
3、; (冯诺依曼和第一台现代计算机) 1950年,图灵在《思想》杂志发表了一篇题为《计算机器和智能》的论文,来探讨计算机是否可以具备智能; 在图灵思想的启发下,人们想着既然计算机这么能干,干嘛不把它设计得和人类一样能看能说能听呢,这不就能帮人类做更多事了嘛!(果然,懒才是科学发展的源动力啊) 于是,第一代语音识别系统诞生,被称为机器的听觉系统。 1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的实验系统。也就是你说“yi”,计算机就知道这是“1”,能力跟婴儿差不多。 1960年,英国的Denes等人研制了第一个计算机语音识别系统。 但是因为识别量小,这些
4、系统根本达不到实际应用的要求,包括后续的20年间,都是在走弯路,没有什么研究成果。 直到1970年,统计语言学的出现才使得语音识别重获新生。 统计语言学带来的重生 推动这个技术路线转变的关键人物是德里克·贾里尼克(FrederickJelinek)和他领导的IBM华生实验室(T.J.Watson)。 统计语言学带来的结果是,让IBM当时的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词,这样语音识别就有了从实验室走向实际应用的可能。 人类的语言是非常复杂的。不同于音频识别,语音识别的难点在于把一段音频不仅转换成对应的字,还要是一段逻辑清晰、语
5、音明确的语句。 举个例子,我们对计算机念一句话,“周五一起吃饭吧”。计算机根据音频做出的识别可能结果是这样的:州午衣起痴范爸。 如果仅看读音和文字的一一对应,这个准确度可以说是很高了,因为如果念的口齿稍有不清更糟糕的结果可能是“邹五意起次换吧”。 但是无论哪种结果,在实际应用上都是不可行的,完全没法交流嘛。 那么统计语言学带来的变革是什么呢? 我们知道,虽然人类的语言很复杂,但仍有一定规律可循,无论是“州午衣起痴范爸”,还是“邹五意起次换吧”都不是一个正常人会说的话。统计语言学的作用就是找出人类说话的规律,这样就可以大大减少了语言识别产生的误差。这其中一个非常关键的概念就
6、是语素。 语素是语言中最小的音义结合体,一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素。语素又可以分成三类: 单音节语素:构词由一个字才有意思的词组成 双音节语素:构词由两个字才有意思的词组成 多音节语素:构词由两个字以上才有意思的词组成 啥意思呢?举个例子。 你、我、他,这三个字都是单音节语素,因为每个字都能自成一个含义。 你可能要说了,那不是废话吗,还有什么字是没有含义的吗? 当然有!比如挨君最喜欢吃的“馄饨”。 馄饨就是一个双音节语素。单独的馄或者饨都不具备任何含义,只有组合在一起的时候才有真正的意义。类似的还有“琵琶”、“霹雳”等等
7、。另外比如“沙发”这类词,一旦拆分开其含义就完全脱离原来语素的,也被称为双音节语素。 最后一种情况就是多音节语素,主要是专有名词还有拟声词,比如喜马拉雅,动次打次。 我们再看回刚才的例子,当机器知道语素之后,即便同音它也不会把“周五”识别成“州午”,因为后者没有任何意义,也不会把“吃饭”识别成“痴范”。 又有人要说了,现在很多网络用语把吃饭说成次饭,我也能看懂啊。 如果说“次饭”你能理解那当然普大喜奔啦,要是“邹五意起次换吧”你都能理解
此文档下载收益归作者所有