欢迎来到天天文库
浏览记录
ID:31901480
大小:10.21 MB
页数:69页
时间:2019-01-27
《05.浅谈深度学习_肖达》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、AnOverviewofDeepLearning浅谈深度学习——大数据催生的新智慧物种北京邮电大学肖达xiaoda99@gmail.com2013.7.241提纲•为什么要深度学习?背景和动机•怎样深度学习?基本学习算法•深度学习有什么应用?典型应用举例•总结和展望2提纲•为什么要深度学习?背景和动机–特征学习的必要性–学习层次特征的好处•怎样深度学习?基本学习算法•深度学习有什么应用?典型应用举例•总结和展望3学术界GeoffreyEHintonYoshuaBengio多伦多大学蒙特利尔大学YannLeCunAndrewNg纽约大学
2、斯坦福大学4工业界2012年6月,《纽约时报》披露了GoogleBrain项目,吸引了公众的广泛关注。2012年11月,微软在中国天津的2013年1月,在百度年会上,创始人兼一次活动上公开演示了一个全自动CEO李彦宏高调宣布要成立百度研究院的同声传译系统,其中第一个成立的就是“深度学习研究所”5DeepLearninginaNutshell深度学习管窥对数据的理解(表示)原始数据和判断(分类)•对黑盒子的限定–深度:多层非线性信息处理•Input=>L1=>L2=>…=>Ln=>Output–学习:内部结构通过学习涌现6机器学习与特征
3、表示7传统识别方法图像/人工设计可训练目标视频/特征提取分类器分类语音•特征不是学到的•分类器一般是通用的(如SVM)8计算机视觉特征9语音信号特征10为什么要学特征?•人工设计特征的缺点–费时、费力•为了达到好的效果需要大量特征–依赖专业知识和直觉,有些领域难以实现•视频、频谱信息–难以设计多层特征•特征数量和质量成为识别系统的瓶颈11为什么要学多层特征?1981年的诺贝尔医学奖,颁发给了DavidHubel和TorstenWiesel,以及RogerSperry。前两位的主要贡献,是“发现了视觉系统的信息处理”:可视皮层是分级的:
4、这个发现激发了人们对于神经系统的进一步思考。大脑的工作过程,或许是一个不断迭代、不断抽象的过程。12我们的大脑怎样工作?关键:抽象和迭代从原始信号开始,从低级抽象向高级抽象迭代原始信号(视网膜素)->初步处理(边缘和方向)->抽象(轮廓和形状)->进一步抽象(谁的脸)13理想的特征是高度非线性的14理想的特征是高度非线性的15理想的特征是高度非线性的16学习非线性特征•Q:我们应该考虑哪类非线性函数?17学习非线性特征•给定一组简单非线性函数:g1,…,gn•方法1:线性组合–SVM、核方法、Boosting•方法2:复合–深度学习1
5、8线性组合缺点:需要指数量级的模板19复合将一系列简单非线性函数复合构造高度复杂非线性函数,比浅层模型拥有更强的表达能力好处:1、中间层特征的重用2、分布式表示更高效(指数级)20层次特征学习•每层从上层输出中提取特征•从原始数据直到分类器,各层结构基本相同•所有层的特征都用数据训练得到图像/人工设计可训练目标视频/特征提取分类器分类语音SimpledataLayer1Layer2Layer3Classifier21提纲•为什么要深度学习?背景和动机•怎样深度学习?基本学习算法–自动编码器(Autoencoder)–受限玻尔兹曼机(R
6、BM)•深度学习有什么应用?典型应用举例•总结和展望22历史回顾BombToy•70年代第一代神经网络:感知机•80年代第二代神经网络:BP算法•90年代统计学习理论,支持向量机23单个神经元&逻辑回归(LR)以监督学习为例,假设我们有训练样本集(xi,yi),神经网络算法能够提供一种非线性的假设模型hw,b(x),它具有参数W,b,以此拟合数据这个“神经元”是一个以x1,x2,x3及截距+1为输入值的运算单元,其输出为函数被称为“激活函数”这里我们选用sigmoid函数作为激活函数24神经网络•神经网络就是将许多个单一“神经元”联结
7、在一起•下图神经网络的参数为:25反向传播算法(Back-Prop)•计算每个样本的损失函数(实际输出与预期输出的差别)对各参数的梯度•应用链式求导法则(1)afWx2hsoftmaxWaJloghJhJJh(2)(2)WhWJJhJJhaaha(1)(1)WhaWRumelhartetal.Nature,198626学习过程•1、前向传播激励响应•2、和目标比较得到损失•3、反向传播修正权重27训练深层神经网络的问题•数据获取问题–训练依赖有标签数据,通常是稀
8、缺的•局部极值问题–多层非线性->求解一个高度非凸的优化问题,非常容易陷入很坏的局部最小•梯度弥散问题–当深度较深时,梯度传到前面的时候严重衰减,前几层不能有效训练,训练速度很慢282006年的重大突破•采用逐层无监督训
此文档下载收益归作者所有