资源描述:
《统计学习方法_感知机.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、统计学习方法—感知机Introduction•1957年Rosenblatt提出,是神经网络和支持向量机的基础•感知机是二分类的线性分类模型+1X感知机-1寻找超平面•引入基于误分类的损失函数•感知器的学习算法–原始形式–对偶形式OutLine•统计学习三要素–感知机模型–感知器学习策略–感知器学习算法感知机模型•输入空间:X取值于n维欧式空间Rn,X中的x输入实例表示实例的特征向量•输出空间:Y={+1,-1},表示实例的类别fx()signwx( b)其中,w和b为感知机模型参数,w为权值向量,b叫做偏置,表示内积,sig
2、n是符号函数•感知机是一种线性分类模型,属于判别模型(由数据直接学习判别函数,对性的输入数据给出对应的输出类别)•假设空间是定义在特征空间中的所有线性分类模型或线性分类器,即函数集合{f
3、fx()wx b}•感知机几何解释,线性方程wx b0•对应于特征空间Rn中的一个超平面S,其中w是超平面的法向量,b是超平面的截距•为求得分离超平面,即感知机模型,需要计算出最优的模型参数w和b感知器学习策略•感知机的判别函数是一个超平面,所以原则上只能解决线性可分的分类问题给定一个数据集T{(,xy),(xy,),...,(x,y)
4、}1122NN如果存在某个超平面Sw xb0能够将数据集的正实例点和负实例点完全正确地划分到超平面两侧,即对所有的yi=+1的实例xi,有wx b0,对所有yi=-1的实例xi,有wx b0,则成为数据集T为线性可分数据集。•损失函数一个自然的选择是误分类点的总数(不是w,b连续可导函数,不易优化)•采用误分类点到超平面S的总距离输入空间中任一点x到0超平面距离1
5、wx b
6、0
7、
8、w
9、
10、yi(w xib)0xi误分类点所有误分类点到超平面距离和,M为yi(wx ib)误分类点集合xiM1y(wx
11、b)选取使得L(w,b)ii感知机损失函数
12、
13、w
14、
15、xMi最小的模型参数w,bLwb(,)ywxi( ib)xiM感知器学习算法•求解分离超平面,即需要求解w、b,使其为损失函数极小化问题的解•最优化方法采用随机梯度下降法•两种具体算法–原始形式–对偶形式原始形式•给定一个数据集T{(,),(,xyxy),...,(xy,)}1122NN求参数w,b使其为以下损失函数极小化问题的解min(,)Lwbywxi( ib)wb,xMi–在一次求解过程中,损失函数对于w、b梯度为WLwb(,)yxiixM
16、ibLwb(,)yixiM•随机选取一个误分类点(x,y),对w,b进行更新iiwwyxiibbyi是步长,(0<<=1),又称为学习率•(1)选取初值w,b00•(2)在训练集中选取数据(x,y)iiywx( b)0•(3)如果iiwwyxiibbyi•(4)转至(2),直到训练集中没有误分类点x,x,x,x,x,x,x,x,x,x,x13332333133•算法收敛性定理可以证明,误分类次数k是有上界的,经过有限次搜索可以找到将训练集完全正确分开的分离超平面感知机学习算法存在很多解,需
17、要对分离超平面增加约束条件–初始值选择–迭代过程中误分类点选择顺序对偶形式•不失一般性,假设w和b初始值均为0•对误分类点(x,y)通过iiwwyxiibbyi逐步修改w,b,假设修改n次,那么w,b关于(x,y)的ii增量分别为iyxii和iyi,这里ini•最后学习到的w,b可以表示为nwiyxiii1nbiyii1–实例点更新次数越多,说明它距离分离超平面越近,也就越难正确分类,换句话说,这样的实例对学习结果影响也最大。•感知机模型Nfx()signjyxjj xbj
18、1T–其中(1,2,...,N)•(1)=0,b=0•(2)在训练集中选取数据(x,y)iiN•(3)如果yy(jyxjj xib)0j1iibbyi•(4)转至(2)直到没有误分类数据