关于有屏设备的语音交互体验实验研究.doc

ID:27851352

大小:574.00 KB

页数:13页

时间:2018-12-06

关于有屏设备的语音交互体验实验研究.doc_第1页
关于有屏设备的语音交互体验实验研究.doc_第2页
关于有屏设备的语音交互体验实验研究.doc_第3页
关于有屏设备的语音交互体验实验研究.doc_第4页
关于有屏设备的语音交互体验实验研究.doc_第5页
资源描述:

《关于有屏设备的语音交互体验实验研究.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、关于有屏设备的语音交互体验实验研究  第二届百度AI开发者大会在北京举行,百度AI交互设计院在首次举办的AI设计分论坛上,分享了《AI时代的人因工程》主题演讲,他们认为:在AI时代,全新的设计将会重构我们身边的工具、生产力、生活甚至心理学。AI时代的人因工程,是关于人的能力、行为、限制的特点,也关于人的社会、文化、心理,是真正以人类为中心的系统工程。他们还将脑电、肌电和眼动等生理测量方法引入了人因工程研究中,将研究方法进行创新迭代,不断助力百度的AI产品进行“重构”。百度开发者大会刚刚结束,百度AI交互设计院又随即推出了最新的研究报告《多维对话——走向视听融合的语音交互新体验研

2、究》,进一步用扎实的研究彰显了他们在AI交互设计领域的专业实力。  过去四十年,人与机器的交互方式在不断进化,几乎每十年就会有一次重大革新。来到人工智能时代,生活中越来越多的设备开始支持语音交互,语音交互逐渐成为人们传达意图和与设备交流的优先选择(VoiceFirst)。与传统交互相比,语音交互解放了双手和双眼,人们可以低成本与设备互动;而且,语音是多维的,除了言语本身的信息,言语中还蕴含着丰富情感,允许人们与设备进行更充分的互动。  语音交互也有局限性。语音交互是非可视化的,容易增加人们的记忆负担,设想语音查询信息的场景,你可能需要集中精力听,如果不留神就容易错过一些内容。鉴

3、于此,正如人工智能专家吴恩达提到的,人与机器交流最高效的方式是语言,而机器与人最高效的交流方式是语言加上视觉,即需要在听觉基础上融入视觉信息弥补语音交互的不足。从语音向视觉延伸,在语音交互中融入可视化信息,已经是业界探索下一代语音交互范式的重要趋势。以智能音箱为例,除了无屏音箱以外,市场上开始出现带屏幕的音箱。    百度人工智能交互设计院本期以有屏智能设备为研究对象,聚焦语音交互反馈和内容输出环节的体验。考虑到屏幕尺寸差异可能对反馈和内容输出体验的影响,研究选择了两种不同屏幕尺寸的设备,分别是智能音箱(7英寸)和智能电视(55英寸)。本期的主要研究问题包括:  1)有屏设备的

4、指令上屏反馈体验,主要指用户输入语音指令后,文本指令上屏的延迟时间以及文本指令在屏幕上呈现的合理时间;  2)有屏设备内容输出的音量干扰体验,主要指用户在特定场景下(如听音乐/看视频),插入其它任务后(如查询百科),不同内容输出时的音量合理设置。    有屏设备的指令上屏体验研究  与无屏设备相比,显示屏的融入使语音交互过程有更丰富的反馈形式。以语音识别阶段为例,在无屏设备上,用户通常无法直接知道输入指令的识别结果。而有屏设备直接在屏幕上显示指令的识别结果,用户可以方便的查看识别结果的正确或错误情况,例如上屏后的指令”我要听周杰伦的青花瓷”。然而,目前很多设备在指令上屏时存在一

5、定程度的延迟现象,本实验对指令上屏合理的延迟时间和呈现时间进行研究。    1、指令上屏延迟时间实验  由于市场上的有屏设备多数采用实时上屏方式,即用户输入语音指令的同时就开始在屏幕上呈现识别结果,因此,本实验只研究实时上屏。在实验中我们使用实时逐字上屏的方式,并以控制首字上屏延迟时间为主要变量(注:首字上屏延迟时间指从用户开始说到第一个字上屏的时间间隔),我们设置了不同的首字延迟时间,以此获取用户对指令上屏速度的满意度评价(5点量表:1-非常不满意,2-比较不满意,3-一般,4-比较满意,5-非常满意)。在实验中,我们分别提供了3种不同长度的指令。  实验结果表明,首字延迟时

6、间越短,用户的满意度越高,不同屏幕尺寸设备的首字延迟时间满意度略有差异,我们将”4-比较满意”看做用户满意的得分下限,将”3-一般”看做用户可接受的得分下限,不同设备间用户满意和可接受的上屏时间如下:  1)对于有屏音箱,用户满意的首字延迟时间下限在500ms左右,可接受的首字延迟时间下限在1500-1600ms左右;  2)对于智能电视,用户满意的首字延迟时间下限在600-700ms左右,可接受的首字延迟时间下限在1100-1200ms左右;  结合对市场上其它设备的研究发现,部分设备的首字上屏时间明显比用户满意的时间下限长,少数甚至比可接受的下限还要长。关于指令上屏速度,产

7、品仍有改善和优化的空间,即语音识别ASR(AutomaticSpeechRecognition)技术除了在不断提升识别准确率以外,同时也需要关注识别速度指标的提升。  2、指令上屏呈现时间实验  除了指令上屏时间,我们进一步对指令上屏后合理的呈现时间进行研究,以避免指令呈现时间太短导致用户无法看清,或者呈现时间太长导致整个交互过程拖沓冗余。在实验中,我们以文字呈现时间为主要变量(注:文字呈现时间指文本指令最后一个字上屏后到全部指令消失的时间间隔),获取用户对不同呈现时间的满意度评价。由于语音

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
正文描述:

《关于有屏设备的语音交互体验实验研究.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、关于有屏设备的语音交互体验实验研究  第二届百度AI开发者大会在北京举行,百度AI交互设计院在首次举办的AI设计分论坛上,分享了《AI时代的人因工程》主题演讲,他们认为:在AI时代,全新的设计将会重构我们身边的工具、生产力、生活甚至心理学。AI时代的人因工程,是关于人的能力、行为、限制的特点,也关于人的社会、文化、心理,是真正以人类为中心的系统工程。他们还将脑电、肌电和眼动等生理测量方法引入了人因工程研究中,将研究方法进行创新迭代,不断助力百度的AI产品进行“重构”。百度开发者大会刚刚结束,百度AI交互设计院又随即推出了最新的研究报告《多维对话——走向视听融合的语音交互新体验研

2、究》,进一步用扎实的研究彰显了他们在AI交互设计领域的专业实力。  过去四十年,人与机器的交互方式在不断进化,几乎每十年就会有一次重大革新。来到人工智能时代,生活中越来越多的设备开始支持语音交互,语音交互逐渐成为人们传达意图和与设备交流的优先选择(VoiceFirst)。与传统交互相比,语音交互解放了双手和双眼,人们可以低成本与设备互动;而且,语音是多维的,除了言语本身的信息,言语中还蕴含着丰富情感,允许人们与设备进行更充分的互动。  语音交互也有局限性。语音交互是非可视化的,容易增加人们的记忆负担,设想语音查询信息的场景,你可能需要集中精力听,如果不留神就容易错过一些内容。鉴

3、于此,正如人工智能专家吴恩达提到的,人与机器交流最高效的方式是语言,而机器与人最高效的交流方式是语言加上视觉,即需要在听觉基础上融入视觉信息弥补语音交互的不足。从语音向视觉延伸,在语音交互中融入可视化信息,已经是业界探索下一代语音交互范式的重要趋势。以智能音箱为例,除了无屏音箱以外,市场上开始出现带屏幕的音箱。    百度人工智能交互设计院本期以有屏智能设备为研究对象,聚焦语音交互反馈和内容输出环节的体验。考虑到屏幕尺寸差异可能对反馈和内容输出体验的影响,研究选择了两种不同屏幕尺寸的设备,分别是智能音箱(7英寸)和智能电视(55英寸)。本期的主要研究问题包括:  1)有屏设备的

4、指令上屏反馈体验,主要指用户输入语音指令后,文本指令上屏的延迟时间以及文本指令在屏幕上呈现的合理时间;  2)有屏设备内容输出的音量干扰体验,主要指用户在特定场景下(如听音乐/看视频),插入其它任务后(如查询百科),不同内容输出时的音量合理设置。    有屏设备的指令上屏体验研究  与无屏设备相比,显示屏的融入使语音交互过程有更丰富的反馈形式。以语音识别阶段为例,在无屏设备上,用户通常无法直接知道输入指令的识别结果。而有屏设备直接在屏幕上显示指令的识别结果,用户可以方便的查看识别结果的正确或错误情况,例如上屏后的指令”我要听周杰伦的青花瓷”。然而,目前很多设备在指令上屏时存在一

5、定程度的延迟现象,本实验对指令上屏合理的延迟时间和呈现时间进行研究。    1、指令上屏延迟时间实验  由于市场上的有屏设备多数采用实时上屏方式,即用户输入语音指令的同时就开始在屏幕上呈现识别结果,因此,本实验只研究实时上屏。在实验中我们使用实时逐字上屏的方式,并以控制首字上屏延迟时间为主要变量(注:首字上屏延迟时间指从用户开始说到第一个字上屏的时间间隔),我们设置了不同的首字延迟时间,以此获取用户对指令上屏速度的满意度评价(5点量表:1-非常不满意,2-比较不满意,3-一般,4-比较满意,5-非常满意)。在实验中,我们分别提供了3种不同长度的指令。  实验结果表明,首字延迟时

6、间越短,用户的满意度越高,不同屏幕尺寸设备的首字延迟时间满意度略有差异,我们将”4-比较满意”看做用户满意的得分下限,将”3-一般”看做用户可接受的得分下限,不同设备间用户满意和可接受的上屏时间如下:  1)对于有屏音箱,用户满意的首字延迟时间下限在500ms左右,可接受的首字延迟时间下限在1500-1600ms左右;  2)对于智能电视,用户满意的首字延迟时间下限在600-700ms左右,可接受的首字延迟时间下限在1100-1200ms左右;  结合对市场上其它设备的研究发现,部分设备的首字上屏时间明显比用户满意的时间下限长,少数甚至比可接受的下限还要长。关于指令上屏速度,产

7、品仍有改善和优化的空间,即语音识别ASR(AutomaticSpeechRecognition)技术除了在不断提升识别准确率以外,同时也需要关注识别速度指标的提升。  2、指令上屏呈现时间实验  除了指令上屏时间,我们进一步对指令上屏后合理的呈现时间进行研究,以避免指令呈现时间太短导致用户无法看清,或者呈现时间太长导致整个交互过程拖沓冗余。在实验中,我们以文字呈现时间为主要变量(注:文字呈现时间指文本指令最后一个字上屏后到全部指令消失的时间间隔),获取用户对不同呈现时间的满意度评价。由于语音

显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭