欢迎来到天天文库
浏览记录
ID:31374798
大小:111.50 KB
页数:9页
时间:2019-01-09
《磨砺以须,深挖语音数据宝藏》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、磨砺以须,深挖语音数据宝藏 文/高妍孙继文 时至今日,让机器“听话”,已经不是什么新鲜事了。在不少场景下,动口替代了动手。 用语音控制手机,可以完成编辑短信、打电话、查询交通、指挥导航等指令;对电视说话,电视就能完成开关机、转台、调节音量亮度,甚至发送弹幕等任务……类似的还有,在行驶中对汽车下命令:帮我打电话给XX;躺在床上对空调说:把温度调到26度;以及教会小朋友用语音控制手表学英语、查天气、定闹钟等等。 语音识别技术,帮我们实现了这些曾经只能出现在科幻片中的智能化应用。于是,人们开始有更高的期待:人与机器自由交流,是否也可以在不远的将来实现? 对此,清华大学电子工程系长聘副教授
2、吴及在接受本刊采访时表示,让机器“听话”,只是一个单向的过程,而人机交互则是双向的,甚至可以是多人参与。这需要机器不仅听到、识别语音,更重要的要理解语音及交互时所处的场景、所蕴含的背景知识和经验。从听见到听懂再到自由交流,并不像人们想象的那么简单。 吴及,清华大学电子工程系长聘副教授,长期从事语音识别技术研究、系统开发及产业化推广工作,在20余年的积累和坚守后,迎来了语音识别产业发展的春天。9 一项看上去简单的研究 语言是人类交流中最自然、最重要的方式。它的普遍易见,影响了人们的认知――说话那么简单,让机器学会说话肯定也不难。恰恰相反,吴及说,语音识别是一项看上去很简单,但实现起来很难
3、的技术。 早期的人工智能先驱也曾被误导。“每当出现一些新的进步,就会积累起学界、工业界和普通百姓的高期望,从而形成热潮,但当做出来的东西不能满足大家的要求时,期望就会变为失望,整个行业也会从顶峰滑落,形成低谷。”发端于上世纪50年代的语音识别技术,就曾在70年代和90年代形成热潮,但都很快滑落低谷。 吴及开始语音识别技术研究是在1995年,当时的语音识别技术研究正处于低谷,不温不火。 那一年,吴及完成了清华大学电子工程系的本科课程,因为“想做创新性更强、更有意思的工作,所以选择了语音识别作为研究生阶段的主攻方向”,从此成为清华大学电子工程系语音识别实验室的一员新兵。 吴及的起点很高。
4、这个由王作英教授创建于1987年的实验室,从孤立字、连接词到连续语音,一步步积累和发展,一直是国内语音识别领域最有影响的研究团队之一。 因为技术门槛高,进展缓慢,语音识别被誉为智能语音行业的“皇冠”。吴及介绍,语音识别研究的难点主要在两个层面,一是语音,二是语言。 “9从语音层面来讲,人对声音有很强的区分能力,能一下子分辨出是有意义的声音还是噪声;在很多人说话的时候,能准确聚焦自己所关心的人的声音。这些对人来说再自然不过的事情,要机器实现非常困难。”吴及解释,同时,人在用语音表达的时候,往往是碎片式的,存在很多不流利的现象,比如停顿、犹豫、重复等等;而且不同的人语速、口音差别可能会非常大
5、。这些都给语音识别带来了很高的技术难度。 而在语言层面,则更加困难。因为交流是相互的,不止要听见,还要听懂,理解,并作出正确的反馈。但是,“在很多情况下,人和人的交流是建立在共同理解的前提下,大家拥有共同生活经验、知识背景,甚至阅历。”所以,吴及强调,“理解语言,并不仅仅是理解直接表达出来的字句。从语音识别走向语言理解,我们还有很长的路要走。” 这一次是真正的变革 尽管技术门槛高,但近年,特别在2011年之后,语音识别技术却迎来新一轮的热潮,并取得了非常明显的进步。是真正的变革,还是又一轮泡沫? “我相信它是在峰顶,也不会再轻易掉到谷底。它会越来越平常,越来越多地进入老百姓的生活。”
6、吴及认为,近年语音识别技术的蓬勃并非虚幻的泡沫堆积,而是有实实在在的技术和产业支撑―― 首先,移动互联网的兴起,为语音识别技术的应用提供了前所未有的巨大空间。当智能手机成为人们使用最频繁的通讯工具和信息助手,人机交互的场景变得与以往不同。原来PC端的首选工具――键盘、输入法,在手机端显得很不方便,而在PC端仿佛锦上添花的语音识别,在手机端却成为雪中送炭。当需求非常迫切的时候,对差错也就有了更高的容忍度,因此还称不上完美的语音识别技术就得到了更大的应用空间。9 其次,云计算和互联网的发展,帮助语音识别的精度得到了极大提升。“云+端”的模式,使得对语音数据的识别可以在云端进行,然后把识别结果
7、传到终端上。这意味着,一方面由于云端拥有更强的计算能力,所以能够构建更复杂的模型,实现更好的识别性能;另一方面云端可以利用实际的海量数据不断更新和优化识别模型,形成正反馈,不断提升识别系统的性能。 再次,从2011年开始,深度神经网络越来越广泛地被应用在语音识别的技术研究和系统实现中。长期以来,为了获得更好的识别性能,高性能的语音识别系统的构建和模型训练流程越来越复杂,继续优化十分困难。深度神经网络不仅拥有
此文档下载收益归作者所有