欢迎来到天天文库
浏览记录
ID:31368060
大小:107.50 KB
页数:7页
时间:2019-01-09
《数据挖掘算法性能优化的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据挖掘算法性能优化的研究与应用 摘要:文章主要以数据挖掘算法的性能优化作为出发点,研究了相关的聚类算法,根据近些年来国际上对于聚类算法的原理、关键技术的研究分析了相关聚类个数K的相关作用和影响。希望通过文章的研究和报道能够对研究数据挖掘提供帮助,使得研究更够朝着更加有效和便捷的方向前进。 关键词:聚类算法;性能优化;k-means 1 k-means经典算法 1.1基本思想 一般来说,k-means算法可以算作是聚类算法中最为经典和有效的算法,k-means算法最早的提出时间在1967年,主要提倡在算法的过程中把k当作算法的基本
2、参数,通过对参数的运用将n个对象分为k个簇,该种分布方法能够让每个簇中的对象具有极高的相似性,但是簇与簇之间的差别性却很高。一般来说,k-means算法的基本思想可以从4个方面加以阐述。 1.1.1随机选取个对象作为初始类的质心 k-means算法具有极高的随机性,这种随机性也是其作为算法最基本的属性,保证了数据的合理运用。由于随机性的选择对象,避免了主观的判断,使数据的后续运用能够有效地进行。7 1.1.2计算对象与各个类质心的距离,将对象划分到距离其最近的类 同上文的随机性一样,这种由于算法自行运算而选择的最优方案,能够有效地缩短
3、计算运行的时间,节约成本,提高效率,能够更陕、更方便地进行。 1.1.3重新计算每个新类的均值 一般来说,k-means算法中的这一性能是在上文2个选择的基础上进行的。由于计算机的重新计算,使得算法的步骤得以维系,方便大家的计算和运用。 1.1.4若类的质心无变化,则返回划分结果,否则转步骤1.12 第四步算法从某种程度上来说是经过条件选择后的再次算法运作。通过筛选,使得算法最终的结果显现出来。 1.2k-means算法的优缺点评价 一般来说,作为算法中的典型算法,k-means算法在算法的运用过程中使用的频率非常高,其突出优点是
4、算法特别简单,能够被人迅速接受和掌握。但是,k-means算法也有着本身问题。而k-means算法最为突出的不足就是具有极强的局限性,往往容易陷入局部最优的场面,初始聚类中心的划分和优化比较麻烦,而且值的选定不够灵活,需要在算法之前先进行选择。 2k-means对初始聚类中心的改进7 对于算法中结果的改进就是指借助对于某些方面的改动将算法运行得更高效,更能体现算法最终需要达到的目的。而对于聚类算法的改进,从另外一方面来讲就是为了得到更好的聚类结果和更高效的聚类过程,就是希望能够达到聚类的结果在同类间尽可能相似,不同的类间尽可能地体现出差别
5、。对于k-means算法来说,其改进方法也遵循这样的一个原则。从k-means算法提出至今,已经有很多人对于算法进行过改进,一般来说有以下几个方面的改进方法。 2.1多次选择法 这是一种在算法设计中经常使用到的一种方法,该种方法主要的目的在于通过对于初始类中心点的聚类过程的多次重复,由于重复的次数足够其可以看作是一次随机的偶然事件,所以在选择的时候可以将选择中的某一次看作是一个随机事件。 2.2经验法 经验法相对于多次选择法来说,主观性要更强一些,在进行数据挖掘的过程中通过某种存在的既有经验对数据进行选择,将其中具有某种代表性的点作为
6、初始的聚类中心。 2.3取样法 取样法也是算术中经常使用的一种方法,该种算术方法指的是在算术运算的过程中先将算术进行一次初次的整体分类,这样可以产生一种分类中心。然后多次重复这样的做法,选择出多组的分类中心,通过对分类中心的分类和比较最终选择出最佳的方案进行比较。 2.4密度法7 密度法的运用从某种程度来说是最简单的,密度法是指在运算之前为某一个区域中的点提前设置好某一个定值,然后通过转移的方法将这个定值与其他的区域中的点进行比较,如果其他区域中点的密度与这个定值相近则说明这2个区域接近。最后通过相互选择从而确定最符合的初始聚类中心。
7、 2.5递归法 递归法的运用可以看作是最常见的一种初始聚类中心的寻找办法,具体的做法是先把全部样本看成一个类,样本总均值点就是第一类的初始聚类中心;然后,由一类的初始聚类中心和离它最远的一个样本作为两类的初始聚类中心。依此类推,由类的代表点和离它们最远的一个样本点作为类问题的初始聚类中心。 总的来说,k-means的改进方法还有很多,每种方法都具有一定程度的可行性。但是,需要注意到,在对k-means算法进行改进的时候,聚类中心本身就具有一个特性,在各种改进方法运行的时候需要对此予以满足,这个特性就是无论采用何种改进方法,初始聚类中心要
8、在不属于同一个簇的情况下尽量靠近簇中心。 3k-means算法值的确定 k-means算法中,值的确定是具有一定难度的。不仅是因为值的准确程度难以在实际的算法运
此文档下载收益归作者所有