谷歌推出电话AI系统Google Duplex.doc

谷歌推出电话AI系统Google Duplex.doc

ID:28144466

大小:181.50 KB

页数:8页

时间:2018-12-08

谷歌推出电话AI系统Google Duplex.doc_第1页
谷歌推出电话AI系统Google Duplex.doc_第2页
谷歌推出电话AI系统Google Duplex.doc_第3页
谷歌推出电话AI系统Google Duplex.doc_第4页
谷歌推出电话AI系统Google Duplex.doc_第5页
资源描述:

《谷歌推出电话AI系统Google Duplex.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、谷歌推出电话AI系统GoogleDuplex  深度学习在医疗领域的应用;  GoogleAssistant:看得见、听得到、会对话、会打电话的新一代谷歌个人助理;  TPU3.0:性能是TPU2.0的8倍;  AndroidP:智能化的手机操作系统,能利用机器学习节电、调节亮度,更大程度贴合用户使用习惯。  其中,GoogleAssistant电话功能背后的技术是GoogleDuplex,在大会上发布完毕后,GoogleAI(原GoogleResearch官博)就发表了Google工程副总裁兼首席工程师YanivLeviat

2、han的一篇介绍文章。    Gmail已成“精”  以下是论智对博客的编译。  人类与计算机互动的一个长期目标是使人们能与计算机自然对话,就像普通人之间的对话一样。近年来,特别是随着深度神经网络的广泛应用,我们目睹了计算机在理解、生成自然语言上的“革命性”能力提升。但尽管如此,即便是当今最先进的AI系统,它还是不能很好地理解自然语言。举个例子,如今自动电话客服系统所使用的技术还停留在努力识别简单的单词和命令上,它们不参与对话流程,如果听不懂客户说话内容,它们会强制要求对方调整表述,而不是进行自我调整。  所以今天,谷歌宣布推

3、出GoogleDuplex,一种能在电话中用自然语言完成“现实世界”任务的技术。它目前已经能完成一些特定任务,如安排某些类型的预约。这类工作要求系统能做到自然对话,就像人与人正常沟通一样,而无需强制对方适应机器。  GoogleDuplex的适用空间非常狭窄,这也使它能起作用的一大原因。研究人员提出的一个关键思路就是把它限制在一些狭窄的封闭域中,让AI进行有限地广泛探索。当Duplex深度某领域后,它才能学会自然对话,也就是说,它不能进行一般对话。  听起来都很自然,它们都是发生在计算机和真人店家之间的对话。  GoogleD

4、uplex技术的自然性可以让人们的对话体验更加舒适。考虑到谷歌向来很重视用户和企业对服务的良好体验,因此产品的透明度非常关键。这也是本文反复强调GoogleDuplex目前只适用于部分预约场景的原因。  进行自然对话  AI在自然对话方面有几个难点:一是自然语言难以理解,二是难以模仿自然行为,三是用户期待更快的回应,四则是用合适的语调生成自然的声音很困难。  当人们彼此交谈时,他们说出的话比人和计算机的对话要复杂得多。他们会经常在话说到一半的时候纠正表述,而且往往表达得啰嗦、语法不严谨、严重依赖上下文。他们还喜欢用宽泛的表述,

5、有时在一个句子里就能连用一大串:  所以……额……星期二到星期四,我们的开门时间是11点到14点,然后16点到19点。然后星期五、星期六、星期天,我们……星期五和星期六我们11点到21点开门,星期天我们13点到21点开门。  比起机器,人类在用自然语言对话时语速非常快,再加上口齿不清、错词率更高,因此常规的语音识别也会识别困难。在电话通话中,由于背景噪声大,音质不佳,这样的问题就更严重了。  而在较长的谈话中,相同的句子可以根据上下文具有非常不同的含义。例如在预约场景下,“Okfor4”可以同时表示时间(4点)和人数(4人)。

6、如果AI要理解这一点,它必须上溯几个句子找根据,但这一过程会因为电话通话高水平的字错误率而变得相当复杂。    决定要说什么是一个关于对话任务和对话状态的函数。此外,围绕自然对话,GoogleDuplex也参考了一些常见的做法——其中包括阐述(elaboration,“下周五。”“啥时候?”“下个礼拜五,18号!”)、同步(sync,“你听得清吗?”)、中断(interruption,“号码是212……”“你能再说一遍吗?”)、暂停(pause,“你能等一会儿吗?”[等待]“谢谢!”——等待1秒和等待2分钟含义不同)。  认识

7、Duplex  GoogleDuplex在对话上的自然表现主要归功于这4方面的进步:理解、交互、时机和交流。  它的核心是一个专用于解决自然对话问题的递归神经网络(RNN),在TensorFlowExtended(TFX)平台上完成构建,使用的训练数据来自匿名电话会话数据语料库。该网络有多个输入,包括原音频特征、把原音频输入Google自动语音识别(ASR)技术后的输出、上下文、对话的参数(例如预约的所需服务或当前时间)等,研究人员为每种任务分别训练了一些模型,但语料库是跨任务共享的。最后,他们又用TFX中的超参数优化进一步改

8、进了模型。    原音频经ASR系统处理后输入网络,网络最终的输出经TTS系统转为音频  Duplex处理“中断”、“阐述”以及对“同步”的回应:  听起来很自然  GoogleDuplex组合使用文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。