资源描述:
《一种基于核映射的属性权重的自适应优化配置方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、http://www.paper.edu.cn一种基于核映射的属性权重的自适应优化配置方法陈新泉华南理工大学计算机科学与工程学院(510641)email:chenxqscut@126.com摘要:为获得样本空间中的一个合适的属性权重组,通过引入一个从样本空间到特征空间的核映射,利用核映射将样本空间中的分类问题和特征空间中的聚类问题联系起来,提出一种基于核映射的属性权重的自适应优化配置方法。在特征空间中根据“聚类之内的数据点最大限度的相近,聚类之间的数据点最大限度的相离”这个原则,提出一个混和目标函数,通过优化这个目标
2、函数来获得样本空间中的一个合适的属性权重组。为求解这个带约束的混和目标函数,提出一种基于负投影梯度的属性权重的自适应优化配置方法。接着采用UCI的两个标准数据集来进行实验验证,可以证实这种根据给定数据点集来自适应地配置样本空间中的属性权重方法的有效性。最后还指出,这种确定属性权重的方法可以作为一种具有多种属性类型的数据点集的属性约简方法。关键词:核映射;负投影梯度;自适应优化配置1.引言将核函数与特征空间中的内积关联起来这一思想,开始于Aizerman[1]关于势函数方法的研究,这种思想直接引起了SVM方法的出现。接着
3、将核函数方法与传统的数据分析方法结合起来进行研究就相继出现了,如核主成分分析,核Fish判别式,核聚类方法等等。SVM方法是将核方法与构造最优分类器结合起来的一种结构风险最小化方法,通过建立一个合适的核映射,从而将原始样本空间中的线性不可分问题转化为高维特征空间中的线性可分问题。核聚类方法利用Mercer核,把输入空间中的样本映射到高维特征空间,从而在特征空间中可以更有效地进行聚类。理论分析和实验表明该方法是普适的,它通过非线性映射能够较好地分辨、提取并放大有用的特征,从而实现更为准确的聚类[2][3]。虽然利用核函数
4、可以避开具体去构造一个从原始样本空间到特征空间的映射系统,但在最常用的高斯核函数中需要利用样本空间中任两个样品之差的范数,所以,原始样本空间的合适“距离”定义对于构造一个合适的核映射就起重要作用了。找到一个比较合适的原始样本空间的“距离”定义对于后续的分类预测也很重要,因为在K最近邻分类中,寻找最近邻的代表点就需要计算新数据点与代表数据点之间的“距离”。本文利用核映射将特征空间中的聚类问题和原始样本空间中的分类问题联系起来,提出一种基于核映射的属性权重的自适应优化配置方法。通过UCI的二个数据集的实验,表明这种方法在应
5、用于属性选择、确定属性权重方面是有效的。2.属性权重的自适应优化配置2.1属性权重的自适应优化配置问题描述设在具有多种属性类型的m维空间A×A×L×A中,其某个区域内存在用来构造K12m类分类器的训练数据点对集Sˆ={,,L,},其中1122nnX=(x,x,L,x)∈A×A×L×A(i=1,2,L,n)表示第i个训练数据点对在样本空间ii1i2im12m中的位置(条件属性的取值);y∈{1,2,L,K}表示第i个训练数据点对的所属类别标号(结i果属性的取值)。在聚类、分类研究中,为了体现
6、出每一个属性对分类预测的不同作用,为了描述数据点X和X之间的差异,特定义一个带权重的“距离”度量(范数),即ij-1-http://www.paper.edu.cn1⎛m⎞22D(Xi,Xj)=⎜∑()wk⋅dk(xik,xjk)⎟(1)⎝k=1⎠其中d(x,x)根据第k个属性的类型决定其具体定义式。如果第k个属性是无序离kikjk0,x=xikjk散属性,则定义为d(x,x)={;如果第k个属性是有序属性,则定义为kikjk1,x≠xikjkmdk(xik,xjk)=xik−xjk。我们一般使∑wk=m,0≤wk≤m
7、(k=1,2,L,m),目的是为k=1了将权重归一化。对于分类问题的属性选择及属性权重分配问题,应该可以利用训练数据点对集经过核映射后在特征空间的最优分布状况及每个数据点对的类别归属来确定样本空间中的属性权重参数(w,w,L,w)的一个满意配置,使分类器的分类预测效果更好。12m下面给出一种配置属性权重参数(w,w,L,w)的大体思路:12mStep1.为构造一个能拟合训练数据点对集Sˆ={,,L,}的最1122nn优分类器,可以按照每个数据点对所属的类别来划分(即按照y的取值将数据点X分
8、配到jj某一类),从而得到多个样本数据点子集的集合S={S,S,L,S}(设共有K类),其中第12Ki个数据点子集S属于第i类。iHStep2.然后构造一个从样本空间到特征空间的核映射Φ:A×A×L×A→R,其中12mHR是高维特征空间,核映射的目的是将样本空间中的线性不可分问题转换为高维特征空间中的线性可分问题。所构造的核映射应