欢迎来到天天文库
浏览记录
ID:56381662
大小:492.50 KB
页数:21页
时间:2020-06-14
《深度学习DBN深度信念网络.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库。
1、BeliefNetsandDeepBeliefNets数媒学院-许鹏RBMReview我们知道传统的神经网络一般都是单隐层的,最多两个隐层,而且一旦神经元个数太多,模型参数就是迅速增长,采用随机梯度下降的话一般很难找到最优解,甚至随着层数的增加,如果训练网络时权值初始化的很小,那么模型会很快的陷入局部最优解,而且是一个poorlocalminima,这是神经网络的优化问题。另外一个主要的原因就是判别模型,因为FNN是判别模型,就是即使神经网络的优化问题可以通过一些手段解决,比如替换神经元激活函数,采用ReLU单元,那么还是有
2、问题,就是训练神经网络的时候需要很大的标签数据,因为深度神经网络的模型参数很多,所以在训练数据少的时候很难找到最优解,也就是深度神经网络不具备解决小样本问题的能力,所以受这些限制,深度的神经网络一度被认为是无法训练的,而90年代出现的支持向量机很好的解决了小样本和优化问题,所以受到人们的推崇。但是Hinton一直没有放弃对于深层神经网络的研究,因为他觉得,支持向量机其实只是感知机引入了一些tricks,比如核方法很好的解决了非线性问题,但是核的选择却深深困扰着所有的机器学习的研究者,另外最大化间隔也就是支持向量提高了模型的泛
3、化能力,但是这些并不是提取非线性特征最有效的方法,所以深层神经网络的研究是很有意义的。以上思想来自于Hinton在coursera的公开课NeuralNetworksforMachineLearningRBMReview在2006以后深度网络开始兴盛,其实主要原因是,可以解决深层神经网络的优化问题了,也就是2006年Hinton发的文章里面采用的训练方法,逐层训练,而在逐层训练的时候起到最重要作用的受限玻尔兹曼机,这样的逐层训练有什么优点那,它的优点就是很好的解决了前面提到的深层神经网络遇到的两个问题,很容易陷入局部最优和没
4、有大量标签样本。其中的逐层训练解决了优化的问题,因为在逐层用玻尔兹曼机预训练的时候就为整个网络赋予了较好的初始权值,使得网络只要经过微调就可以达到最优解,而不会陷入poorlocalminima,另外一个优点是由于受限玻尔兹曼机是一个生成模型,它可以充分利用大量的非标签数据,因为预训练的时候是对不含标签的数据本身进行建模,其中RBM的可见单元是非标签训练数据,隐藏层训练完以后可以看做是数据的特征,这样如果将多个RBM堆叠起来就会起到提取数据非线性特征的效果,所以由此开始了深度学习的热潮。UnsupervisedLearnin
5、gforGenerativeModelSupervisedLearningforDiscriminantModelPretrainingFine-tuneUnlabeledLabeled上面这个图其实是2006年Hinton最开始进行深度学习时候的思想,其中堆叠RBM是核心的思想,当然最重要的那篇论文中并没有提到判别模型,但是用生成模型一样可以做分类,以后会提到。这整个模型中还有一个重要的知识就是信念网络,它和受限玻尔兹曼机很像,但是它是有向图,而玻尔兹曼机是无向图,它们都是学习一个联合概率分布,下面我们讲解信念网络,这对理
6、解DBN很重要。而DBN可以认为是深度学习复兴的一个开始。BeliefNetworkRBM和BN都是属于概率图模型,而BN是有向图,它又叫Bayesiannetworks,causalnetworks,在1992年,RadfordNeal提出如果BN使用和RBM相同的sigmoid激活单元,我们可以得到SigmoidBeliefNets。既然两者都属于生成模型,都可以对非标签数据进行建模,解决前面提到的两个问题,那么我们该使用RBM还是BN那,亦或是两者的合体,其实deepbeliefnets深度信念网络就是两者的合体,我们
7、已经学习了RBM,但是要理解DBN还必须理解BN,还有很长的路要走。BNandProbabilityGraphicalModelRBM和BN都属于PGM,PGM是图论和概率论的结合,这是人工智能一个重要的领域,因为它解决了很多不确定性的问题,用它们建模得到的都是生成模型,我们回忆一下最开始学习BM的时候最重要的两个问题,一个是学习问题,一个是推断问题(就是从模型中采样),对于BN来说也是一样,如果是稀疏连接的有向无环BN,人们已经发明了很多精确推断的方法,但是对于密集连接的BN来说,推断和学习都是问题。stochastich
8、iddencausesvisibleeffects当我们有可见变量的时候,一般指的是训练数据,我们要解决的问题有两个:Theinferenceproblem:给定可见变量时推断蓝色的不可见变量的状态。现在已经有了很多技术处理这个问题,对于简单的贝叶斯网络,可以用精确推断,即根据贝叶斯公式计
此文档下载收益归作者所有