资源描述:
《一种基于复相关系数加权的聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、http://www.paper.edu.cn1一种基于复相关系数加权的聚类算法聂轰,陈湘涛,王爱云湖南大学计算机与通信学院,湖南长沙(410082)E-mail:aanna1982@163.com摘要:针对传统的基于欧氏距离计算相似度的不足,提出了一种基于复相关系数加权的计算方法,并将它们转化成各属性的权值,再将这些权值应用于连通分支聚类的距离量度之中;此算法将应用于铝电解工业生产中的槽况分类问题.关键词:欧氏距离;复相关系数;聚类中图分类号:TP3111.引言在现有的铝电解生产过程中,通过控制系统采集了大量的电解槽工作数据,这些数据反映了槽子在采样时刻的各种工作状态,并以图形
2、、报表等多种形式呈现给用户。但是,这些海量数据需要用户具有专业的领域知识和丰富的经验才能进行槽况的判断和分析,以获取图形、报表等之外的信息。如何对这些海量数据进行有效的分析,以获得单槽和系列槽的槽况及其发展趋势,并对所有的槽况进行分类,以指导实际生产,这方面的工作才刚刚起步。[1]聚类是无指导学习的分类。聚类分析是指用数学的方法研究和处理给定对象的分类,是识和探索事物内在联系的一种手段,是数据挖掘中的一个功能,它的应用很广泛。通过聚类分析技术,能够识别密集的和稀疏的区域,从而发现全局的分布模式和数据属性之间有趣的相互关系。聚类的质量是基于对象的相似度来衡量评估的长期以来,人们提出
3、了许多数据聚类[2-9]算法,这些聚类算法大体上可以分为如下五类:划分方法、分层方法、基于密度的方法、基于网格的方法和基于模型的方法等。在划分聚类中,有一个关键的问题是计算样本和聚类中心的距离。常用的距离计算方法包括欧氏距离、马氏距离,绝对距离等,尽管它们能较直观地表征样本和聚类的距离,但是当样本的各属性具有不同的物理意义,且他们对于样本间距离的重要程度也不一样时,采用这些距离计算方法就不能满足实际要求了。文献[10]在基于密度的挖掘算法上,提出了一种新的算法,即利用连通分支进行数据的聚类分析,获取单槽和系列槽的槽况分类,同时,采用时间窗口滑动的方法来分析槽况的发展趋势。在此算法
4、中的距离欧氏距离则易受到属性值波动的干扰,于是文献[12]结合灰关联度分析[11]提出一种新的聚类算法,即用灰关联分析主属性和副属性的关系,得到的灰关联度转化成为属性的权值,并将这些权值应用于基于连通分支的聚类距离计算中,以反映不同属性对槽况的影响。但是这种方法在应用在实际的数据中都有其固有的缺点,例如受到主属性的主观影响比较大,在考虑多主属性的情况下,算法就不能更好反映数据的趋势.本文在对基于传统欧氏距离聚类算法分析的基础上,提出了利用复相关系数加权欧式距离应用于基于连通分支的聚类距离计算中,此算法可以反映不同属性对槽况的影响,也避免了主属性的客观影响,后1面的实验分析验证该方
5、法的有效性和可行性,同时也给出以上几种算法的实验比较。2.问题的提出以及相关概念在铝电解监控系统中存储两分钟报表的事务数据库(或数据仓库),其时间属性是系统的[10]采样时间,显然是一个事务拓扑空间。在一个事务拓扑空间中,需要考察的每个事务的1本课题得到基于多向量收敛的网络定位算法研究(60703096)的资助。-1-http://www.paper.edu.cn[10]比较因素的集合Ω,称为事务拓扑空间D的属性集。在事务拓扑空间中,通常包含有两种属性:状态属性(如分子比、铝水平等)和非状态属性(如采样时间、槽号等)。一般地,非状态属性只表示事务本身所固有的一些性质,不能反应不同
6、事务之间状态的差异,在考察距离时不能作为比较因素;而状态属性则反应了事务在不同时间时其状态的变化,可以引入欧式距离以考察其状态的不同分类。x与y的距离dxy(,)为:1/2n⎡⎤2dxy(,)=−⎢⎥∑(xyii)(1)⎣⎦i=1传统的聚类分析,不考虑对象中每个变量在聚类过程中体现作用的不同,而是统一看待,用这样计算的距离来表示两个对象的相似度并不确切。对象间的距离表示的是对象的相近程度,而相似不仅依赖于对象间的相近程度,还依赖于对象内在的性质,即对象中每个变量的重要性是不同的。因此可以通过赋予不同的对象不同权重的方式来解决,即对每个变量根据其重要程度赋一个权重,加权的欧氏距离可
7、以表示为:1/2n⎡⎤2dxy2(,)=−⎢⎥∑wxyii(i)(2)⎣⎦i=1其中,wi(=1,2,...)n表示每个变量的权重。i但是传统欧式距离忽略了各属性的物理性质,针对这一问题,采用加权欧氏距离的聚类方法,根据每个属性在聚类过程中所起作用的程度不同,给每个属性赋一个权值,这样即充分利用了数据的分布特征,又提高了聚类结果的准确性。属性对于分类任务很重要,这主要是依据如下的启发式思想:数据集若用可分性越好的属性子集来描述,具有相同类别的数据对象越集中,而不同类别的数据对象越