欢迎来到天天文库
浏览记录
ID:40381399
大小:816.56 KB
页数:23页
时间:2019-08-01
《一种防止过拟合的方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一种防止过拟合的方法—Dropout的介绍CollegeofInformationEngineering贺敏November12,2015CompanyLogoOutlineDropout的背景及产生动机Dropout模型的描述Dropout的部分实验结果进一步了解Dropout总结CompanyLogoDropout的背景及产生动机背景:深度神经网络具有多层非线性的隐含层,这使得它可以学习输入输出之间复杂的关系,然而在有限的训练数据,这将会产生采样噪音,即使训练数据和实际数据属于相同的分布,但是
2、数据模型在训练集里表现非常满意,但是一旦应用到真实业务实践时,效果大打折扣。这就是过拟合CompanyLogoDropout的背景及产生动机如何处理过拟合:earlystopping、数据集扩增(Dataaugmentation)、L1RegularizationL2regularizationdropoutCompanyLogoDropout的背景及产生动机几种方法的区别:L1、L2正则化是通过修改代价函数来实现的Dropout则是通过修改神经网络本身来实现的Dataaugmentation是通
3、过修改数据实现的CompanyLogoDropout的背景及产生动机产生动机:来源于有性繁殖基因的选择增加了随机性,在进化过程中,基因不能依赖于其他的基因,也就增强了健壮性同理,随机的删掉隐含层的一些节点后,同样也会增强其他节点提取特征的能力CompanyLogoDropout的模型描述Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了.Company
4、LogoDropout的模型描述如图所示,在训练时,节点按照概率P决定是否工作。在测试时,不使用Dropout,但是要按比例的缩放权重,如上图b所示,这样才能保证预期输出与实际输出一致。CompanyLogoDropout的模型描述假设一个神经网络有L个隐含层l∈{1,2...L}标准的前向神经网络是:其中激活函数CompanyLogoDropout的模型描述使用Dropout后:在测试时的权重进行缩放CompanyLogoDropout率的选择与训练过程经过交叉验证,隐含节点dropout率等于
5、0.5的时候效最好,原因是0.5的时候dropout随机生成的网络结构最多。dropout也可以被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大(0.8)CompanyLogoDropout率的选择与训练过程对参数w的训练进行球形限制,对dropout的训练非常有用。球形半径c是一个需要调整的参数。可以使用验证集进行参数调优。这就叫max-normregularization,可以提高随机梯度下降效果使用pretraining方法也可以帮助dropo
6、ut训练参数,在使用dropout时,要将所有参数都乘以1/p。这样可以保证dropout的输出与预训练的输出一致CompanyLogoDropout的部分实验结论论文中采用的数据集是:MNIST:手写体数据TIMIT:语音识别的标准语音基因CIFAR-10andCIFAR-100:自然图像StreetViewHouseNumbersdataset(SVHN):谷歌街景的房子ImageNet:图像数据库Reuters-RCV1:新闻文章的数据库CompanyLogoDropout的部分实验结论这里
7、我们只看MNIST训练集有60000个测试集为10000个维度是784(28*28grayscale)所有采用Dropout的网络中隐含层:P=0.5输入层:P=0.8CompanyLogoDropout的部分实验结论论文中给出的结果CompanyLogoDropout的部分实验结论没用Dropout时:测试样本错误率:15.500%使用Dropout时:测试样本错误率:13.000%可以看出使用Dropout后,测试样本的错误率降低了,说明Dropout的泛化能力不错,可以防止过拟合。训练样本2
8、000个,测试样本1000个结构是784-100-10CompanyLogoDropout的部分实验结论通过调用工具箱中的函数,数据集采用的是手写体数据:1.训练集2000,测试集1000,使用dropout的错误率是1.07%,而没有使用的是1.26%;2.训练集10000,测试集1000,使用dropout的错误率是0.095,时间是1.339s,没有使用的错误率是0.101,时间是1.2623.训练集60000,测试集10000,使用dropout的错误率是0.069,时间是
此文档下载收益归作者所有