大数据k-Means聚类挖掘优化算法.pdf

大数据k-Means聚类挖掘优化算法.pdf

ID:53017552

大小:756.51 KB

页数:4页

时间:2020-04-12

大数据k-Means聚类挖掘优化算法.pdf_第1页
大数据k-Means聚类挖掘优化算法.pdf_第2页
大数据k-Means聚类挖掘优化算法.pdf_第3页
大数据k-Means聚类挖掘优化算法.pdf_第4页
资源描述:

《大数据k-Means聚类挖掘优化算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第36卷第3期大连交通大学学报Vo1.36No.32015年6月JOURNALOFDALIANJIAOTONGUNIVERSITYJun.2015文章编号:1673-9590(2015)03-0091—04大数据k-Means聚类挖掘优化算法宋旭东,朱文辉,邱占芝(大连交通大学软件学院,辽宁大连116028)米摘要:基于数据规模导致难以应对的存储量、数据规模导致传统算法失效、大数据复杂的数据关联性导致高复杂度的计算等问题,对大数据下的k-means聚类优化算法进行研究,给出了适用于大数据任务处理的MapReduce软件架构的模型机制,通过改进k-means

2、初始聚类中心的选取,提出了一种基于Ma-pReduee模型的k-means聚类优化算法.最后将改进的算法应用于煤炭煤质的分析中,结果显示较传统算法,改进算法的效率有明显提高.关键词:大数据;数据挖掘;k-means算法;MapReduce模型文献标识码:A0引言据样本的分布特征将数据划分为k个集合,选取各集合中数据的平均值作为初始聚类中心.文献云计算、物联网、社交网络等新兴服务促使人[3]提出了一种基于关联图划分的k-means算法.类社会的数据种类和规模正以前所未有的速度增该算法能够有效地根据数据的分布特性选取初始长,大数据时代已到来.大数据量可显著提高

3、机器聚类中心.文献[4]结合密度法和最大化最小距学习算法的准确性;训练数据集越大,数据分类精度越高;大数据集上的简单算法能比小数据集上离的思想,首先选取相互间距离最大的k对高密的复杂算法产生更好的结果,因此数据量足够大度点,并以这k对高密度点的均值作为聚类的初时有可能使用代价很小的简单算法来达到很好的始中心,然后再进行k-Means聚类.文献‘5针对学习精度.数据对象的分布密度以及计算最近两点的垂直中然而,基于大数据的数据挖掘的研究面临新点方法来确定k个初始聚类中心,以获得最优聚的挑战,主要表现在:数据规模导致难以应对的存类.然而这些传统的聚类挖掘优化算法

4、在面对海储量;数据规模导致传统算法失效;大数据复杂的量大数据时算法的时间复杂度都比较高.本文研数据关联性导致高复杂度的计算.究大数据下的k-means聚类算法,在进行改进初本文主要研究大数据下的聚类优化算法,主要始聚类中心选取的基础上,提出了一种基于是根据实体的特征对其进行聚类,按一定的距离或MapReduce模型的k-means聚类优化算法.相似测度在大型多维空间数据集中标识出聚类或稠密分布的区域,将数据分成一系列相互区分的1大数据MapReduce软件架构模组,以期从中发现数据集的整个空间分布规律和典型机制型模式.k-means聚类算法是数据挖掘技术中

5、基于Google提出的软件架构MapReduce是一种分裂法的一个经典的聚类算法,因为该算法的理论可靠、算法简单、收敛迅速而被广泛应用⋯.用于大规模数据集的并行运算编程模型,在处理选择合理的一组初始聚类中心,可以得到较T级别以上巨量数据的业务上有着明显优势j.高的聚类准确率.文献[2]利用贪心算法参照数MapReduce运行机制的基本思路是将数据集{I}收稿日期:2014-01-22基金项目:国家自然科学基金资助项目(61074029);大连市科技计划资助项目(2014A11GX006)作者简介:宋旭东(1969一),男,教授,博士,从事大数据分析、数据挖

6、掘与决策支持的研究E-mail:xudongsong@126.com.大连交通大学学报第36卷cnki.net/kcms/detail/l1.2127.TP.2012O615.1726.4结论025.htm1.针对大数据k-means聚类数据挖掘问题,本[4]邓海,覃华,孙欣.一种优化初始中心的K.MeaJls聚类文给出了基于MapReduce软件架构模型机制,完算法[EB/OL].计算机技术与发展,2013.http://成了k-means聚类算法的初始聚类中心的选取优www.cnki.net/kcms/detail/61.1450.TP.2013072

7、4.化,实现了基于MapReduce模型机制的k-means0945.012.htm1.聚类优化算法.实验表明,优化改进后的算法与传[5]周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012(5):132—134.统算法相比拥有较好的有效性和更高的计算效[6]LAMMELR.GoogleSMapReduceProgrammingModel-率,并且数据量越大优势就越明显.本文实验表明Revisited[J].ScienceofComputerProgramming,2008,在处理大数据时,应用MapReduce软

8、件架构平台70(1):1—30.对实现包含k-means算法在内的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。