(最新)基于改进的clarans算法在数据挖掘中的研究

(最新)基于改进的clarans算法在数据挖掘中的研究

ID:36674931

大小:37.01 KB

页数:13页

时间:2019-05-13

(最新)基于改进的clarans算法在数据挖掘中的研究_第1页
(最新)基于改进的clarans算法在数据挖掘中的研究_第2页
(最新)基于改进的clarans算法在数据挖掘中的研究_第3页
(最新)基于改进的clarans算法在数据挖掘中的研究_第4页
(最新)基于改进的clarans算法在数据挖掘中的研究_第5页
资源描述:

《(最新)基于改进的clarans算法在数据挖掘中的研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于改进的CLARANS算法在数据挖掘中的研究第3O卷第3期中南林业科技大学2010年3月JournalofCentralSouthUniversityofForestry&Tec—hnol—ogyVo1.3ONO.3Mar.2010基于改进的CLARANS算法在数据挖掘中的研究李光字(湖南财经高等专科学校现代教育技术中心,湖南长沙410205)摘要:数据挖掘的目的是把人T智能,机器学习,神经网络,统计学,模式识别与数据库等技术结合起来,由计算机自动从已有数据中发现未知的,具有潜在应用价值的信息或模式,解决数据量很大,而知识贫乏的矛盾.通过聚类,能够识别

2、密集的和稀疏的区域,发现全局的分布模式和数据属性之间有趣的相互关系.在充分继承CIARANS算法原有的优点基础h,利用遗传算法对CIARANS算法进行改进,提高了聚类效率.关键词:数据挖掘;聚类;遗传算法;CIARANS中图分类号:TP399文献标志码:A文章编号:l673—923X(2010)03—0142—05ResearchofdataminingbasedonimprovedCLARANSalgorithmLIGuangyu(ModemEducationTechnologyCenter,HunanCollegeofFinanceandEconomic,C

3、hangsha410205,Hunan,China)Abstract:Thetargetofdataminingisfindingtheunknownandvaluableinformationorpatternhiddenindatabaseordatawarehouse,andresolvingthecontradictionbc["vveenlotsofdataandlessknowledge.Byclustering,wecandis—tinguishthedenseandsparsefield,andfindtherelationshipbetween

4、distributionpatternanddataattribution.BasedoninheritingtheexcellenceofC1ARANS.weimprovedCIARANS'efficiencybyusingGA.Keywords:datamining;clustering;geneticalgorithm;CIARANS数据挖掘是多门学科和多种技术相结合的产物,也是一个非常年轻而义活跃的研究领域.数据挖掘的目的是把人1一智能,机器学习,神经网络,统计学,模式识别与数据库等技术结合起来,由计算机自动从已有数据(数据库或数据仓库)中发现未知的,具

5、有潜在应用价值的信息或模式,解决数据量很大,而知识贫乏的矛盾.面对海量的资料,首要的任务是将它合理的归类.否则,在许多情况下,问题不是没有模式被发现,而是模式太多了.而聚类就是将数据合理归类的一种方法,它把分类对象按一定的规则分组或类,这些组或类不是事先给定的,而是根据数据特征而定的.在数据挖掘中,聚类分析能作为一个独立的丁具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析.此外,聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理.lCLARANS算法的研究CLARANS将采样技术与PAM结合起来,C

6、LARANS没有在任一给定的时间局限于任一样本,而是在搜索的每一步带一定随机性地抽取一个样本.CIARANS算法过程可以用一个图来进行抽象.].给定l1个对象,找到k个聚类中心点的过程可以看做是一个在特定的图G内搜索的过程.每个结点都可以表示成k个中心点收稿日期:2O10一一01—04作者简介:李光宇(1958),男.湖南长沙人.T=程师,主要从事计算机网络,教育技术的研究;Email:hncsl@163.com第3O卷中南林业科技大学143{一(z,…,0}的一种组合,因此G中的每个结点可以看做是集合{{(.,…,0}lo一,是选取的是个中心点}].定义1如果

7、G中2个结点S一{,.,…,)和S.一{,,…,(}仅在位置i处相异,即f0一0,(≠)【0≠,(.J=一i)则s和s.称为邻居,这也可以表示成IsnS.f一是一1.由此可以看出G中每个结点有志×(n一是)个邻居.因为每个结点都表示成是个中心点的一种组合形式,那么每个结点也就代表着一种聚类的解].定义2按照每个S结点所提供的聚类中心点,可以将数据集进行聚类,每个记录到其所在簇的中心点的相异度的和称做该结点S的代价.通常使用距离来衡量两个对象间的相异度.由此看出,设0和0是互为邻居结点S和S的相异位置的聚类中心点,即0∈S,∈S,并且0,(SnS:.定义3设()和

8、0是邻居S和S:的差异点

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。