欢迎来到天天文库
浏览记录
ID:5227479
大小:3.58 MB
页数:50页
时间:2017-11-22
《methods for interpreting and understanding deep neural networks》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1.简介深度网络主要应用场景:1、图像分类2、语音识别3、自然语言处理可解释性对与医疗、自动驾驶很重要因为必须保证模型依赖于正确的特征本文内容:ML方法解释的综述重点关注DNN2.正文前页事后可解释性:例如,给定训练好的模型目标:理解模型预测的(分类),什么是可解释的(输入变量)Understanding:模型的functionalunderstandingseekto刻画模型的黑箱行为而不是阐明他的内部运作和内部表示本文关注:解释DNN的输出,并解释单独的预测定义1:Interpretation:是抽象概念(预测的类)到某个人类能理解的domain的映射可解释的domains的例子:图像
2、(像素矩阵)、文本(单词序列)不可解释的例子:抽象的向量空间、无事实证明的输入特征(例-无意义的单词序列)定义2:Explanation:是可解释域的特征集合,他们能对于给定一个例子,能帮助产生决策(例-分类、回归)这些组成explanation的特征,有相关的score来表示每个特征的contribution一般explanation是真值向量,相关特征是正的,不相关为03.InterpretationDNN模型需要解析的通常是toplayer的表示因为top-layer的神经元是抽象的,且DNN输入(图像或文本)通常是可解析的本部分:描述如何在输入域内创建prototype(原型)这个
3、原型是抽象学习概念的解释器和代表它可以在AM框架中formulated3.1Activationmaximization(AM)AM是一个分析框架,寻找对于interest的,使得模型inputpattern,使得模型响应最大可以想象DNN分类器,将输入映射到分类集,输出对分类概率编码类的表示可以用进行最优化DNN的类概率模型是带有梯度的函数,所以最优化可以用梯度下降最右的规范,实现了对接近origin的inputs的偏好当应用到图像分类,prototypes多是灰度图形式,会产生强烈的类响应3.2用expert提升AM为了得到更有意义的prototype可以被更复杂的代替,叫做“expe
4、rt”,它可以是模型最优化问题变成:通过解决这个最优化问题得到的,将同时产生强烈的类反应,且使得数据类似应用贝叶斯规则,做误差和常量项目建模新目标可以被定义为class-conditioned数据密度可能的expert是,他可以表示复杂的分布,且在输入域有梯度:,在原来regularizer的位置,从data中学习到的在interpret类似自然图像分类,需要更复杂的密度模型,例如卷积RBM/DBMs、pixel-RNNsExpert的选择,决定了结果prototype的appearance一个极端,coarseexpert将最优化问题reduce成类概率函数的最大化另一个极端,overf
5、ittedexpert本质上reduce最优化问题为expert自身的最大化最接近data的原始分布3.3在codespace实行AM实际应用中数据密度函数在保证保精度下难学or很复杂,以致难以最大化另一类可选的无监督模型是“generativemodel”不直接给密度函数,但是可以从它取样根据以下两个步骤:1、从定义在一些抽象的codespace的简单分布取样2、将decoding函数应用在该样本上,将它映射回原始输入域一个这样的模型例子:generativeadversarialnetwork(生成对抗模型网络)它学了decoding函数,使得生成的数据分布尽可能难的与原始数据区别le
6、arnedwith一个生成和原始分布间的判别式和判别式通常是多层神将网Nguyen提出通过在AM框架中协同生成模型,建立的prototype最优化问题重定义为:当最优解得到,prototype可以通过解码得到当codedistribution为正态分布,等于可以理解为偏向于高概率的codes但是,由于高概率的code不是必须映射成输入的高密度区域所以此处,只近似最优是decoder和原始分类器的组合Codespace的为了定性的比较3.1~3.2考虑MNIST的3层DNN分类问题任务:1、简单的,表示的均值2、3、包含2层decoding函数的生成模型,和,表示的均值为了定性的比较3.1~
7、3.2考虑MNIST的3层DNN分类问题任务:1、简单的,表示的均值2、3、包含2层decoding函数的生成模型,和,表示的均值3.4从global到local的分析当考虑复杂的ML问题时,概率函数,可能是multimodal或强加长的所以没有单一的原型可以完全的代表被建模的概念所以用多个local原型来interpret类但是对于的穷尽的描述是没有必要的有时只关心某些区域引入locality的权宜之计是,添加loca
此文档下载收益归作者所有