欢迎来到天天文库
浏览记录
ID:14129109
大小:396.32 KB
页数:9页
时间:2018-07-26
《神经网络误差函数》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、关于误差函数的深入研究姓名:李宏成学号:6720130345摘要我写这篇文章的目的意在补充老师上课中遗留的一些问题以及我自身对神经网络中误差函数的一些看法。文章涉及到hebb学习规则中误差函数推导过程,非线性传输函数中误差函数推导过程以及感知机的误差函数证明。如有不足之处,敬请谅解。1.Hebb学习规则中误差函数的推导过程首先,在推导过程中我们首先要问问自己为什么我们要选择最小二乘?有许多东西都可以被优化,为什么我们要选择这样的指标()?其次,理论的推导过程是以有监督hebb学习规则为前提,采用的传输函数是类似于线性联想器
2、的purelin函数。此函数为一过原点且斜率为1的直线,因此整个系统的输出结果就可以直接认为是该系统的净输入。在这里,我们先定义如下几个基本参数表示训练的样本数目表示输入变量表示实际输出表示权值参数于是就构成了一个训练样本,更一般的表示第列训练样本集。所以,我们可以用如下表达式来表述成我们所预想的结果:(1.1)为了突出权值在实际输出函数中的作用和更具有真实性质,以上式(1.1)子我们可以改写成:(1.2)其中是一个偏置项,你可以把偏置项看成是对未建模事物产生的效应的一种估测。我们举个例子,购买房屋时我们主要是考虑房子每平
3、米的价格,地理位置等主要特征(这里所指的权值),也许房子还有其它的特征比如说朝向,楼层高度,是否有电梯等因素。用矩阵形式表示(1.2)可以改写成:(1.3)现在我们假设偏置项服从均值为0,方差为的高斯分布,那么它的概率密度函数可以表示为:(1.4)观察等式(1.4)的右半部分,我们不难看出输出项服从均值为,方差为的高斯分布。这里假设不同输入对应的偏置项是彼此独立同分布的,这意味着它们都服从均值和方差完全相同的高斯分布。现在我们定义一个似然性函数:6(1.5)由于所有的不同输入对应的偏置项都是彼此独立同分布的,则按上式列拆开
4、就可以改写成:(1.6)似然性越好,拟合的程度也就越高。这里我们通过调节权值矩阵来使得样本点尽可能的落在拟合线上或者是它附近区域内。这样我们才能够更精确地预测到所需要得到结果的最大概率。为了使得数学运算简便,我们定义=称之为对数似然性函数。这样,上式我们可以进一步得到:(1.7)(1.8)所以,要使得最大则只需最小即可。在这里我们又定义函数:(1.9)当等于零时,这个系统的似然性取得最大值。说明此模型的拟合度达到最佳状态;当不等于零时,这个系统的似然性不为最大值,因此就说明此模型存在一定的误差。其实,在某种意义上来说,似然
5、性可以等价为训练样本与拟合线之间的距离。当训练样本越靠近拟合线,取到这点的概率就越大,相应的似然程度就越高;当训练样本远离拟合线时,取到这点的概率越小,相应的似然程度也就越低。这里,我们不妨将用矩阵的形式表示,即为:6(1.10)此函数即为这个模型的误差函数。值得注意的是,此误差函数的推导过程是建立在彼此独立且同为高斯分布的基础之上。但是,这并不能否认其不适用于其他模型。对于式子中其实我们可以将偏置项看成是整个系统的次要特征项(其中权值矩阵是这个系统的主要特征矩阵),或者你也可以认为它就是误差项。由于不同输入向量对应着不同
6、的偏置向量且是彼此独立且同高斯分布的,所以,根据中心极限定理对大量离散进行抽样所得的抽样分布依然是服从高斯分布的。实际上,我们生活中有很多的问题都可以近似地认为是高斯分布比如说噪声的概率密度分布就可以近似地认为是服从正态分布的。2.非线性误差函数的推导过程上述所介绍的最小二乘是建立在偏置项满足高斯分布且独立同分布的情况下,使似然性达到最大值,从而判断出误差函数的具体解析式,它实际上是一种基于线性回归思想的建模方法。在某些情况下应用线性回归能够有效地解决一些问题,但是通常情况下应用线性回归解决问题将会是一个很糟糕的主意。如图
7、所示:其中蓝色小圆点表示原来的训练样本集,此时运用线性回归拟合出一条蓝色的直线。通过图形我们可以看出每个蓝色小圆点都均匀地分布在蓝色拟合线附近,拟合的程度是比较理想的。因此我们能够预测下一点在哪个区域内出现的概率最大。但是,当我们向训练集里添加三个用红色小圆点表示的新的训练样本并且这三个样本与原样本距离较远时,通过对全局的拟合我们可以得出红色的拟合线。由图中我们可以非常清晰地看出新生成的训练样本与红色拟合线之间的距离变大了,这意味着增大了并且随着新增样本点离原样本点的距离增大导致误差函数也变得越来越大。因此,在这种情况下采
8、用线性回归来说是极不明智的选择。下面我们来引入非线性回归。6现在我们来假设一种简单的情况:1.设目标向量中每个元素不是就是。2.我们希望输出向量中的每个元素,至少不能比小太多,比大太多(这个其实就相当于净输入通过一个类似于hardlim函数)。3.由于我们现在研究的是非线性回归问题,所以这里我们不会选择
此文档下载收益归作者所有