欢迎来到天天文库
浏览记录
ID:27831616
大小:151.82 KB
页数:3页
时间:2018-12-06
《中科普开大数据建立:无监督学习指引》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中科普开大数据建立:无监督学习指引无监督学习町谓是深度学习的圣杯,其目标是建立可兼容小数据集进行训练的通用系统,即便是很少的数据。如今深度学习模型往往在大型监督型数据集上训练。所谓监督型数据集,即每条数据都有一个对应的标签。比如流行的ImageNet数据集,有一百力张人为标记的图像。一共1000个类,每个类有1000张图像。创建这样的数据集需耍花费人量的粘力,同时也需耍很多的时间。现在想彖创建一个有1M个类的数据集。试想一下,对有100H数据帧的视频数据集的每一帧进行分类。该任务量简直不可估量。现在,冋想一下你在小时候是如何进行学习的。是的,那时候会有人指导你,你的父母
2、会告诉你这是一个“猫”,但是他们不会在你余生的每一分每一秒都告诉你这是一只“猫”!如今的监秤学习也是这样:我一次一次地告诉你,什么是“猫”,也许髙达100万次。然后你的深度学习模型就学会了。理想情况下,我们希望有一个模型,它的表现与我们的大脑非常相似。只需少量的标签便可理解这个多类的世界。这里所说的类,主耍是指对彖类、动作类、环境类、对彖组成类等等。某本概念无监轉学习研究的主要口标是预训练一个模型(称作“识别”或“编码”)网络,供其他任务使用。编码特征通常能够用到分类任务小:例如在ImageNet±训练会表现出很好的结杲,这与监巒模型非常接近。迄今为止,监粋模型总是比无
3、监粋的预训练模型表现的要好。其主要原因是监怦模型对数据集的特性编码的更好。但如果模型运川到其他任务,监督工作是可以减少的。在这方面,希望达到的H标是无监怦训练可以捉供更一般的特征,用于学习并实现其它任务。自动编码器(auto-encoders)该理论主要源T*1996年BrunoOlshausenandDavidField发表的文章。此文表明,编码理论可应用于视觉皮层感受野。他们发现,我们人脑的主耍视觉皮层(VI)使用稀疏原理來创建可以用來朿建输入图像的最小基函数子集。在接下來的文章屮,你将看到一个很好的例子來解释类似VI的稀疏滤波器是如何学习的。栈式自动编码器也会被用
4、到,以贪焚式的方式逐层重复训练。白动编码器方法也被称为“直接映射”方法。堆叠无监怦层(stackedunsupervisedlayers)•种结合k-均值聚类方法去学习多层中过滤器的技术。我们团队把这种方法称为:聚类学习(ClusteringLearning)聚类连接(ClusteringConnections)和卷积聚类(ConvolutionalClustering),最近在流行的STL-1O无监秤数据集上収得很好的效來。我们在该方向的工作是对AdamCoates和AndrewNg工作的独立开发。受限玻尔兹曼机(RBMs)、深度玻尔兹曼机(DBMs)、深度信念网络(
5、DBNs)因很难解决它们配分函数的数值而成为众所周知的难题。因此它们并没有被广泛地川來解决实际问题。生成模型(generativemodels)牛•成模型,尝试在同一时间创建一个分类(识别器或编码器)网络和一个生成图像(生成模型)模型。这种方法起源于IanGoodfellowfllYoshuaBengio的开创性工作。AlecRadford>LukeMetz和SoumithChintala的DCGAN是一种生成对抗模型,实例化这种模型,能够得到很好的结果。模型的具体解释请点击这里。卞面是系统椎架图:DCGAN识别器的H的是识別输入图像是否真实,或來自数据集,或是牛成器牛
6、成的伪图。该生成器需要一个随机噪声向量(用1024个数值表示)作为输入,并产生一个图像。在DCGAN中,牛成器网络如下:3A->k6Stride2□8Stride2Stride23ProjectandreshapeCONV1CONV2COMV3CONV41024Stride264识别器是一个标准的神经网络。关键是以并行的方式训练两个网络而不是完全地过度拟介,从而复制数据集。学习特征需要推广到未知的实例,因此用丁•学习的数据集将不能再用。Torch7提供了DCGAN的训练代码,可用于实验Z中。在生成器和识别器网络训练好Z后,两者便可使用了。主要目标是为其它任务训练一个很好
7、的识别器网络,例如对其它数据集进行分类。生成器则可用于生成随机向量的图像。这些图像有着非常有趣的特性。首先,他们提供了输入空间的平滑转换。看下面这个例子,它展示了在9个随机输入向量之间进行移动产出的图像:输入向量空间还提供数学特性,表明学习特征是根据和似性进行组织的:由生成器学到的光滑空间表明识别器也具有类似的性质,使它成为图像编码出色的特征提取器。这在不连续图像数据集训练CNN网络的经典问题上很有帮助,在这些数据集,对抗性噪声往往致使其走向失败。从数据模型屮学习以解决拼图游戏來可视化表示无监秤学习是个精巧的做法。作者将图像分成一个拼图,
此文档下载收益归作者所有