如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc

如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc

ID:27906185

大小:3.26 MB

页数:12页

时间:2018-12-06

如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc_第1页
如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc_第2页
如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc_第3页
如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc_第4页
如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc_第5页
资源描述:

《如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、如果未来的计算界面都采用语音控制,那些失聪或失语者该怎么办?  于是,最后有了这个项目。这是一个概念验证项目,我买了一个AmazonEcho,让它对手语作出反应,更准确地说是美国手语(ASL),因为和口语一样,手语的种类也有很多。  原本我可以只发布代码,不过,我觉得很多机器学习项目都缺少视觉元素,让人们很难将它们联系起来理解,所以后来还是决定发布一段关于系统演示的视频。同时,我也希望这个方法能够将人们关注的焦点从项目的科技元素转向人类元素,即这里介绍的并非底层技术,而是此类技术赋予我们人类的能力。  既然视频已经公开,下面就通过这篇博文介绍一下

2、底层技术,以及如何使用TensorFlow.js构建这一系统。您也可以播放实时演示。我将其整合在了一起,以便您可以使用自己的词集和符号/手势组合来训练。是否要在身边准备一个可以响应您要求的Echo,完全由您自选。  早期研究  在早期,我就非常明确我想要为此实验整合哪些更广泛的系统组成部分。我需要的组件如下:  一个神经网络,用以解释手势(即将手势视频转换为文本)。  一个文字转语音系统,用于将解释过的手势讲给Alexa  一个语音转文字系统,用于将Alexa的回应转录给用户使用  一台运行该系统的设备(笔记本电脑/平板电脑)和用于互动的Echo

3、  可以将这些组件整合在一起的界面  早期,我的大部分时间可能都用在了确定哪个神经网络架构最适合此实验上面。我想到下面几个选择:  1)由于手势兼具可视性和时效性,因此我的直觉是将CNN与RNN结合在一起,其中最后一个卷积层的输出(分类前)作为序列馈送到RNN中。后来,我为此找到一个技术术语,即长期递归卷积网络(LRCN)。  2)使用3D卷积网络,以三维方式应用卷积,其中前两个维度是图像,第三个维度是时间。但是,这些网络需要大量存储设备,而我希望可以在我用了7年的老MacbookPro上进行训练。  3)训练CNN时,我没有使用视频流中的单个帧

4、,而是只用了可以表示两个连续帧之间视运动模式的光流表征。我的想法是它会对这种动作进行编码,产生更通用的手语模型。  4)使用双流CNN,其中空间流为单个帧(RGB),时间流会使用光流表征。  在做进一步研究时,我发现了一些论文,其中至少使用了上述部分视频行为识别方法(在UFC101数据集上最常见)。但我很快发现,不仅我的计算能力有限,我从头开始解密和实施这些论文的能力也很有限,之后几个月,我的研究时断时续,经常因为其他项目缠身而不得不丢下该项目,我的输出结果一直乏善可陈。  最终,我采用了迥异的方法。  输入TensorFlow.js:  Ten

5、sorFlow.js团队一直在推出基于浏览器的有趣小实验,帮助人们熟悉机器学习的概念,同时也鼓励人们用它来构建自己的项目。对于那些不熟悉机器学习的人,TensorFlow.js是一个开放源代码库,让您可以直接在使用Javascript的浏览器中定义、训练和运行机器学习模型。特别值得一提的是,Pacman网络摄像头控制器和TeachableMachine这两个演示似乎是很有趣的起点。  虽然这两个演示都是从网络摄像头选取输入图像,并输出基于训练数据的预测,但其内部运作却各不相同:  1)Pacman网络摄像头—使用卷积神经网络选取输入图像(来自网络

6、摄像头)并通过一系列卷积和最大池化层来传递图像。通过这种方式,它能提取图像的主要特征,并根据其训练时用过的示例预测其标签。由于训练过程费时费力,它使用了名为MobileNet的预训练模型进行迁移学习。该模型经受过基于ImageNet数据集的训练,可以区分1000种图像,而且经过优化,可以在浏览器和移动应用中运行。    2)TeachableMachine—使用kNN(最邻近规则分类),该分类非常简单,以至于从技术上说其完全不执行任何“学习”。它会接收输入图像(来自网络摄像头),并使用相似度函数或距离度量来寻找最接近该输入图像的训练示例的标签,从

7、而对图像进行分类。然而,在馈送kNN之前,首先要通过名为SqueezeNet的小型神经网络传送该图像。然后,将该网络倒数第二个层的输出馈送到kNN中,该kNN允许您训练自己的分类。相较将来自网络摄像头的原始像素值直接馈送到kNN中,这样做的好处在于我们可以使用SqueezeNet已经学过的高层抽象,由此训练更好的分类器。    现在您可能想知道,手势的时效性怎么办?这两个系统都是每帧选取一个输入图像,并且在预测时完全不考虑面前的这些帧。这不是考查RNN时关注的整个要点吗?这对真正理解手势并非必要?利用在线资源学习本项目的ASL时,我发现,当做出手

8、势时,不同手势之间手的始末姿势以及位置差别很大。与人交流时,其间发生的一切或许都很必要,但对机器而言,只使用始末姿势就足够了。因此,我决

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。