欢迎来到天天文库
浏览记录
ID:21277838
大小:1.49 MB
页数:39页
时间:2018-10-20
《理解玻尔兹曼机和深度学习》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、理解玻尔兹曼机和深度学习侯越先天津大学网络智能信息技术研究所2014-11-03动机解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功启发面向维数约简、信息抽象和去噪应用的新颖方法和模型存在的解释神经生理解释通用近似解释(可近似性和近似复杂性)规则化解释我们的观点现有解释中包含了有益的启发现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清信息几何为形式化解释提供了理论工具维数约简、信息抽象和去噪的“第一原则”第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息“第一原则
2、”能否被一般地实现?存在的方法常用维数约简、信息抽象和去噪算法实现了“第一原则”吗?例子:PCA例子:低通滤波反思基于特征空间的模型似乎都建议在特定先验假设之上为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间我们的基本思路考虑数据的参数空间!一般地定义生成模型的参数的相对重要性根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪例子:log-linear分布族与高斯分布满足参数约减!关键技术问题如何一般地定义参数的相对重要性?解决方案:1定义概率分布或密度之间的距离度量2由参数相对于距离度量的重要性给出
3、参数之间的相对重要性度量概率分布(或密度)之间距离的“公理”1满足基本的度量三公理2似然一致性:可有效反映统计推断的似然性度量概率分布(或密度)之间距离的“公理”(续1)3重参数化不变性对于概率分布(或密度)和的任两种参数化和,均有这里是距离度量度量概率分布(或密度)之间距离的“公理”(续2)4相对于变量集上的随机映像的单调性:(1)如果随机映像对应于充分统计量,则距离度量不变(2)否则,距离度量减小是否存在同时满足上述所有公理的距离度量?存在且唯一!里程碑:1Fisher(Early1930)2Rao(1945)3Cencov(1982
4、)Fisher-Rao度量单参数定义多参数定义Fisher-Rao距离(信息距离)局域定义:全局定义:Cramer-Rao下界与Fisher-Rao度量的似然一致性Fisher信息决定了参数无偏估计的方差下界单参数情形多参数情形由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性)参数约简基本思路(Refined)1特征空间--->参数空间2利用参数的Fisher信息,定义参数的相对重要性3根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪可信信息优先原则(Confi
5、dentInformationFirst)!实例:n布尔变量分布个布尔型随机变量个布尔型随机变量的参数化中的任意项,这里表示,其余类似如何对上述分布应用CIF原则?实例:n布尔变量分布(续1)技术困难:各个p参数具有相等的Fisher信息解决办法:寻找替换的参数表示(利用信息几何)实例:n布尔变量分布(续2)布尔变量分布的坐标表示(即参数化)坐标:-1个归一化的正数坐标:坐标:实例:n布尔变量分布(续3)混合坐标:(l-分割混合坐标)在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次结构,且低Fisher信息含量的参数
6、可自然地确定中立值!玻尔兹曼机与n布尔变量分布随机神经网络,网络的整体能量函数:玻尔兹曼-吉布斯分布:BM模型参数玻尔兹曼机与CIF原则(1)结论1(Amariet.al.,1992):给定目标概率分布:单层波尔兹曼机(SBM)实现了2-分割混合坐标上的参数剪切,即:l-分割混合坐标24玻尔兹曼机与CIF原则(2)结论2(Zhao,Houandet.al.,2013):SBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立估计。可信参数非可信参数玻尔兹曼机与CIF原则(3)结论3(Zh
7、ao,Houandet.al.,2013):在所有同维度子流行M中,SBM所实现的映像在期望意义上最大程度地保持概率分布间的Fisher信息距离为以为中心的KL等距球面和分别为在上的投影玻尔兹曼机与CIF原则(4)结论4(Zhao,Houandet.al.,2013):给定联合概率分布的分数2-分割混合坐标:RBM实现了分数2-分割混合坐标下参数剪切玻尔兹曼机与CIF原则(5)结论5(Zhao,Houandet.al.,2013):RBM实现的参数剪切符合CIF原则:保留具有大Fisher信息的参数,同时对小Fisher信息的参数采用中立
8、估计可信参数非可信参数玻尔兹曼机与CIF原则(6)结论6(贝叶斯分析):假设背景分布中的绝大多数p项趋近于0,则可证明:由任意被BM剪切掉的参数所导致的信息距离损失典型地趋近于0;而任意被BM
此文档下载收益归作者所有