资源描述:
《改进的聚类分析算法在科研立项管理中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、改进的聚类分析算法在科研立项管理中的应用研究1弓I言(Introduction)随着计算机应用技术的飞速发展,计算机信息系统已经渗透到人们生活、工作的各个方面,但是在科研管理中计算机信息系统的应用程度还仅仅停留在对科研项冃进行查询、删除、维护等基本操作上。而实际应用中,随着科研项目数目的日益庞大,研究内容的日益繁复,如何对科研项目的内容进行深度分析,以避免在科研中普遍存在的重复立项和低水平重复研究等问题,是对计算机信息系统提出的更高要求。聚类分析技术是数据挖掘中最常用的工具,可以对大量数据进行聚类,考察数据间的相似度或相异度。若将聚类分析技术应用于科研项目管理的计算机信息系统中,在科
2、研立项环节对立项申请书进行聚类分析,找到众多申请项口中的相似性项□和创新性项避免重复立项和重复研究,为科研项目管理系统提供科学的、合理的立项决策支持,使得科研项目管理信息系统更加智能、功能更加强大,是一个亟待研究的课题。2聚类分析技术(Clustering)2.1聚类分析概述聚类分析技术是数据挖掘领域最为常见的技术之一,用于发现数据库中未知的对象类,其核心是聚类[1]。所谓聚类即“物以类聚”,首先考察对象之间的相似度或相异度,然后将相似的对象划分在同一个组内,相异的对象划分在不同的组内,保证同一组内的数据对象尽可能的相似,不同组内的数据对象尽可能的相异,最终形成若干个类(或者簇)[2
3、,3]。聚类分析的定义如下:给定数据集合V{vi
4、i=1,2,...,n},vi为数据对熟根据数据对象vi间的相似度或者相异度,将数据集合V{vi
5、i=1,2,...,n}分成k组Cj(j=152,...5k),并满足:CJ/={1,2,…,k}p(1)C;cCj=0ulC严V该过程称为聚类分析,Cj(j=1,2,…,k)称为簇(类)[4,5]。2.2k-means聚类分析算法聚类分析的方法有层次聚类方法、划分聚类方法、基于密度的聚类方法、基于网格的聚类方法等。其中划分聚类中k-means算法具有算法思想简单、收敛速度快、可伸缩性好等优点,应用非常广泛。k-means聚类算法的基本
6、思想是:以数据对象之间的欧式距离作为相似度或者相异度来考察数据对象,距离越近的数据对象其相似性就越大,距离越远的数据对象其相异度越大,相应的簇是由离得近的数据对象组成。算法的基本步骤包括:⑴人为设定簇的个数k值。(2)随机选取k个对象作为这k个类的初始聚类中心。(2)计算其他对象到k个初始聚类中心的距离,然后按照就近原则分配对象。(3)根据公式1重新计算每个类的质心,若给定簇Ki=则簇的质心定义为:则就的蠻心定义为*M严丄⑵其中,m代表簇Ki中数据对象的个数,代表第j个对象到簇Ki的聚类中心的距离[6]。(4)重复步骤(3)和步骤(4),直至簇的质心不再变化或达到终止条件为止。k-m
7、eans算法思想简单,可伸缩性好,收敛速度快,适用于处理庞大的样本数据。但从k-means聚类算法存在着比较显苦的缺点,其一,算法的第一步需人为设定簇的数冃k,很显然k值很难在聚类前估计,对聚类结果影响也比较大;其二,算法随机选取k个初始聚类中心,一旦初始聚类中类中心选择不当,很难得到令人满意的聚类结果。3改进的k-means聚类分析算法(Theimprovementofclusteringalgorithm)针对上述问题,引进网格和密度两个概念,提出一种改进的聚类分析算法——GBKM算法。3.1基木思想首先对样本空间划分网格单元,划分方法为:设在第i维上数据空间取值范围为(li,h
8、i),i=1,2,...,n,采用公式(3)将其划分为p个等长、不相交、左闭右开的区间。6宀(hDp(3)教摺空何被分割成b个不相交的.大小相尊的网恪单元.Wk荒上的啊个网用元可由公3t(4)»出.s[(♦(>-1)4.4p⑷然后计算每个网格单元的密度和密度阀值,根据密度阀值区分高密度网格单元和低密度网格单元,密度阀值Minpt定义为:r*[%Minpts»工Denc(CJ;IN(5)其中,Denc(Ci),i=1,2,…,n为网格单元的密度的降序排列,如果Denc(Ci)与Denc(Ci+1)发生明显跳变,则N=i。再后将相邻的高密度网格单元合并形成簇,称为“中间聚类”,将低密度网
9、格单元中的数据对象标记为“自由数据”。最后处理自由数据,计算每个簇的质心及自由数据到质心的距离,将自由数据分配到最近的簇中,重复此过程,直到聚类中心不再移动为止完成聚类[7]。3.2算法流程算法的基本流程如图1所示。I4iF壊」Thrprocv*oftbrGBKMduMrruqt3.3算法评价改进的算法形成的初始聚类能够很好地捕获样本数据的原始分布情况,可以自动确定聚类过程所需要的k值及k个初始聚类中心,克服了k-means聚类算法人为确定k值,以及随机选