资源描述:
《一种基于距离的增量聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第15卷第3期湖南工程学院学报Vo1.15.No.32005年9月JournalofHunanInstituteofEngineeringSept.2005一种基于距离的增量聚类算法12X吴琪,左万利(11广东警官学院,广东广州510000;21吉林大学计算机科学与技术学院,吉林长春130012)摘要:在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中.算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率
2、.关键词:增量聚类;层次聚类;决策支持系统;数据挖掘中图分类号:TP274文献标识码:A文章编号:1671-119X(2005)03-0041-04聚类分析是数据挖掘的一种重要的分析手段,据集.如基于距离的层次算法,分裂算法,以及基于密度和(2)读取数据库中数据增量变化表,形成两个数基于网格的一些算法都在实际中得到了应用,但是据集:添加数据集和删除数据集.智能决策支持系统中的聚类分析是基于数据仓库的(3)处理添加数据集,添加到原来的聚类结果海量数据的,除了通过抽取有代表性的样本进行分中.析外,还需要利用增量聚类算法进一步提高计算的(4)用删除数据集
3、,修剪步骤3得到的聚类结效率.本文所描述的就是粮食智能决策支持系统的果.增量聚类分析模块,它是一种基于距离的聚类算法,(5)对步骤4得到的结果进行层次聚类,直到结既方便实现,而且增量处理后的聚类过程与层次聚果满足结束条件.类所得到的过程形式相同,能很好的相互配合使用其中聚类结果可以保存为数据库,文本文件或并可以作统一的结果分析.二进制文件,同时要保存聚类时间,算法设置等等.读取时计算的度量数据集将在增量处理的过程中用1算法的原理到,我们会在后面讨论.非增量的基于距离的聚类算法,从计算效率来2增量数据获得讲,分裂聚类算法比层次聚类算法要高,但是聚类效
4、果不如层次聚类,有时候达不到实际情况的需要.而利用原来的聚类结果,就必须知道从那次聚类实际工作中还经常存在这种情况:需要进行聚类计到现在数据产生了哪些变化,也就是要获得两次聚算的数据量很大,每次进行聚类的时间较长,而有的类之间的数据变化情况.这些变化包括三种情况:数时候要进行聚类计算时数据比上一次聚类变化不据添加,数据更改和数据删除,本系统中的操作的数大,如果重新进行聚类所需时间太长,而且原来的聚据对象是数据库中的数据,所以数据变化情况也就类结果利用不上.这时就可以使用增量聚类,既可以是数据表中记录的增删改情况.提高效率,又可以利用原来的聚类结果.
5、本文所述的这里获取变化数据集的方法是在聚类对象表中增量聚类算法主要步骤如下:建触发器,分别监视纪录的insert,delete和update(1)读取原来的聚类结果,得到聚类时间,聚类操作,同时另建一张表记录数据变化情况.算法配置,结果数据等,形成数据结构,计算度量数在一张数据表中要建三个触发器:X收稿日期:2005-01-03基金项目:国家自然科学基金资助项目(60073039,60273080).作者简介:吴琪(1974-),女,硕士,助教,研究方向:数据挖掘,数据仓库.©1994-2010ChinaAcademicJournalElectro
6、nicPublishingHouse.Allrightsreserved.http://www.cnki.net42湖南工程学院学报2005年①第一个触发器建在insert后,把添加时间,添1所示:加数据,更新类型(insert)等信息保存到这张表对应的更新状况表中.②第二个触发器建在delete后,把删除时间,删除数据,更新类型(delete)等信息保存到这张表对应的更新状况表中.③第三个触发器建在update后,把更新前的数据作为删除数据保存到这张表对应的更新状况表中;把更新后的数据作为添加数据保存到这张表对应的更新状况表中因为我们要区分数据更
7、新操作是图1数据增加情况示意图在我们已有聚类结果之前还是以后,所以要在每次3.2处理删除数据聚类结果中保存当时聚类结束的时间,为以后的增记录的删除部分会使原有聚集结果中的数据密量聚类提供一个增量数据的过滤时间.度降低,甚至删除掉原有结果中的某些类,其具体情另外一个问题:record中有些增加数据可能在况也可以分为两种:聚类之前又被删掉了,这样的数据对本次聚类不应(1)某一类经过删除一些记录后,剩余记录仍然该有影响.因此要对“incert”和“delete”中的数据进比较均匀,仍然可以当作一类处理,也可以说删除这行清理,将同时出现在“insert”和
8、“delete”中的数据些记录对上一次聚类结果影响不大,这种记录删除去掉,这部分工作一种方法是在触发器中处理,这样后对整体