欢迎来到天天文库
浏览记录
ID:28100377
大小:205.00 KB
页数:6页
时间:2018-12-08
《未来机器智能时代:如何让机器听懂世界.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、未来机器智能时代:如何让机器听懂世界 首先明确一个概念,让机器听懂世界,这里面其实蕴含了多个历程,包括听懂人类语言,进而听懂动物叫声,甚至听懂自然声音,亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。 所有这些都是极其复杂的过程,因为我们人类实际上也没有达到这种能力,但是我们期望机器能够延伸人类的能力,从而实现人类的梦想。所以语音智能事实上承载的是几千年来人类的伟大梦想。 那么,如何才能让机器听懂人类语言呢?这需要解决三个核心关键问题:听见、听准和听懂,从技术角度来看,就是拾音、识别和理解三个关键技术环节。 拾音是最为基础的环节,必须保证让机器听得见声音,这部分主要是声学问
2、题; 识别是将符合要求的声音转化成文字,这部分主要是语音识别的问题; 理解则是根据识别出来的文字,准确理解人类的指令甚或情感。 鉴于语音智能设备已经大量出现在我们生活场景之中,当前技术的核心关键就是声学问题和语义理解。02近场语音是机器听懂人类的率先尝试 近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术,这项技术利用距离巧妙回避了真实场景下复杂的声学问题,可以理解为一种实验室理想环境下的语音交互技术。 近场语音识别从上世纪五十年代就开始研究,但是长期没有实质性进展,直到苹果在2010年推出Siri的应用,这才引起了全球的关注。到现在为止,近场语音交互技术已经比较
3、成熟,平均识别率可以达到95%以上。 但是近场语音交互受到了真实场景的巨大制约,并没有展现出来语音交互可以解放双手的先进性,因此在很多场景中,事实上近场语音交互都是鸡肋一般的存在,并没有发挥出真正的威力。 直到远场语音交互技术的出现,成功解决了真实场景下的复杂声学问题以后,至少技术达到了用户认可的门槛,语音交互才真正出现了替代键盘鼠标和触摸屏的可能性。03远场语音将语音智能落地到真实场景 远场语音交互主要解决30厘米到5米范围内的语音交互问题,这个范围事实上就是人类之间沟通交流的最佳距离,距离太近容易触发自我保护意识,而距离太远则会增大交流难度。 注意语音交互并非只是语音问题
4、,人类的交互其实是一个综合的过程,包括了表情、眼神、肢体动作等等一系列影响因素。 远场语音交互的历史是比较短暂的,这项技术以前长期没有实质性突破,直到2016年末,全球才真正开始重视这项技术,并且短短一年时间,引领全球市场都进入了激烈博弈的阶段。 远场语音交互的代表产品自然就是智能音箱,盘点一下全球巨头在智能音箱的布局就可窥得一二。亚马逊的Echo发布四年已然影响深远,谷歌的Home剑走偏锋以技术做博弈,微软的Invoke则仍然坚持工程师定义产品的文化...... 注意,这里还是特别强调智能音箱只是远场语音交互的突破口,并非什么语音的唯一入口,因为未来的机器智能时代,比如电视、
5、冰箱、汽车都有可能成为重要入口。但是智能音箱又是非常重要的,因为不管产品形态怎样变化,其本质的核心其实还是智能音箱的技术架构。04听懂世界还有哪些必须解决的问题? 若让机器听懂世界,远场语音交互技术也仅是个尝试而已,事实上远场语音技术本身也只是刚刚起步,即便5米以内,其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。 但是技术一直在迭代发展,特别是当技术落地场景以后,源源不断的真实数据和客户需求将带动技术更加快速的发展。 从技术层面来看,让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识,很难一一枚举出来,但是若从应用场景来看,则相
6、对比较简单,让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。 让机器听懂世界的技术正在全球快速的演化,相信不久的将来,我们肯定能看到更加智能的机器。 因此,既不要抨击当前的人工智能技术,也不要盛赞现在的基础科技技术,保持一颗平静的心,正确给予科技界和产业界的支持才是对于未来最大的投资。
此文档下载收益归作者所有