资源描述:
《特征权重的一种自适应优化配置方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、http://www.paper.edu.cn特征权重的一种自适应优化配置方法陈新泉华南理工大学计算机科学与工程学院(510641)email:chenxqscut@126.com摘要:为构造出一个具有最优“距离”度量的聚类分类器,本文从“聚类之内的数据点最大限度的相近,聚类之间的数据点最大限度的相离”这个原则出发,通过从不同层次、不同侧面来体现上述相近相离原则的多个目标函数的引入和分析,最终确定出一个混和目标函数作为体现这个原则的最小化目标函数。为了求解这个带约束的混和目标函数,提出了一种基于负投影梯度的特征权重的自适应优化配置方法,并对这种方法进行了一定的分析和讨论。接着采用UCI
2、的两个标准数据集来进行实验验证,可以证实这种根据给定数据点集来进行自适应地配置权重参数方法的有效性。最后还指出,这种确定特征权重的方法可以作为一种连续型数据点集的属性约简方法。关键词:“距离”度量;聚类分类器;负投影梯度;自适应优化配置1.引言多变量分析的一种经典技术-主成分分析(principalcomponentanalysis,PCA)是特征提取的一种主要方法,这种方法的思想就是采用一些主要特征成分来表示原数据集,而尽量减少原始数据集所包含的内在信息的损失,使其在统计意义下达到方差最优。从统计模式识别的观点看,主成分分析的实际价值在于它为维数缩减提供了有效的方法,它通过丢弃方差较
3、小的特征项,保留方差较大的特征项,可以减少表示有效数据所需要的特征数量[1]。主成分分析是一种在样本整体上的特征提取方法,它并没有考虑样本有时可由多个具有局部分布特性的聚类子集来描述其整体的分布特征,所以当这种方法应用到分类器的构造时,就避免不了它所具有的缺陷。还有一个特征提取方法就是Rough集的属性约简方法,其目的是试图找出与分类相关的属性子集,剔除与分类无关的无关属性或冗余属性。但要找到最简属性约简子集却是一个NP难问题,所以常常采用的是一些启发式属性约简方法。构造最优分类器时所需的特征选择或特征提取步骤一直是分类器研究的一个重要问题,可以说,构造分类器所需特征集的选择好坏对分类
4、器的分类效果及泛化能力起着至关重要的作用。Rough集中的属性约简不仅仅是为了简化分类规则的提取,更重要的是为了提高分类器的泛化能力,使分类器的应用范围更广,同时使分类器的描述更简洁。通过构造出一种最优“距离”度量来提高分类器的分类效果,这种方法与一般的特征提取方法本质不同,是从另一个角度来研究为提高这种基于聚类的分类器的分类效果可以采用何种手段。这种方法的出发点是使在最优“距离”度量下的每个聚类更紧密,聚类之间更分散,从而使后续的待判定对象易于归属到某个聚类中,从而很容易地判断该对象所属类别。2.特征权重的自适应优化配置2.1特征权重的自适应优化配置问题描述m设m维实数空间R中的某个
5、区域内存在用来构造聚类分类器的训练数据点集S={}x,x,L,x,其中x=(x,x,L,x),(i=1,2,L,n)。在聚类、分类研究中,为12nii1i2im了体现出每一维所起作用的大小不同,为了测量数据点x和x之间的差异,特定义一个带ij权重的“距离”度量,即-1-http://www.paper.edu.cnm∑()2D(x,x)=w⋅(x−x)(1)ijkikjkk=1对于分类问题的特征选择及特征权重分配问题,应该可以利用数据点集S={}x,x,L,x的分布状况及每个数据点的类别归属来确定参数(w,w,L,w)的一个12n12m满意配置,使分类器的分类效果更好。下面给出一种配置
6、特征权重参数(w,w,L,w)的大体思路:12mStep1.对于数据点集S={}x,x,L,x的最优分类器构造,按照每个数据点所属的类别来12n划分,得到多个数据点子集S={}S,S,L,S(设共有K类),然后对每个数据点子集进12K行聚类分析,其距离度量采用一般的欧氏距离,即每一维的权重都是1。设数据点子集KSt(t=1,2,L,K)有pt个子聚类,这样原始的数据点集就可以聚类成P=∑pt个子聚类。t=1Step2.定义一个合适的优化目标函数,通过优化这个目标函数来选择一个能较好地适应数据点集分布特性的“距离”度量中的各维权重参数。优化目标函数的选择标准有:聚类之内的数据点最大限度的
7、相近;聚类之间的数据点最大限度的相离。2.2权重参数(w,w,L,w)的几个优化目标函数12m这里给出几个优化目标函数的表达式,为了便于与不加权重的距离度量作比较,这些目标函数都要求满足如下约束条件⎧0≤wj≤m(j=1,2,L,m)⎪mSubjectto⎨⎪∑wj=m⎩j=1P1.E=∑∑D(xi,xj),其中xi和xj同时是第h个子聚类Ch(h=1,2,L,P)的数据点。hC=∈1,xixjh最小化这个目标函数可以用来表示聚类之内的数据点最