欢迎来到天天文库
浏览记录
ID:27261014
大小:4.58 MB
页数:74页
时间:2018-12-02
《基于抽样的云频繁项集挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于抽样的云频繁项集挖掘算法研究TheResearchofCloudFrequentItemsetsMining AlgorithmsWhichBasedonSample作者姓名宛婉学位类型学历硕士学科、专业计算机应用技术研究方向信息管理与智能决策导师及职称周国祥教授2013年3月基于抽样的云频繁项集挖掘算法研究摘要随着数据收集技术的发展,海量数据时代已经到来。当今社会商业竞争异常激烈,人们迫切希望从海量数据中,提取有用的信息以帮助进行商业决策。但是,传统的数据分析和数据挖掘技术在处理海量数据时,时间和空间的代价过大,很难满足人们的需求。例如,数据挖掘中传统的频繁项集挖掘需要多次扫描数据
2、集,消耗大量时间;还需要存储大量的候选项集,消耗大量内存。数据收集技术发展的同时,海量数据处理技术也以高并发、低成本的处理优势高速发展。近几年,以Hadoop生态系统发展最具代表性。Hadoop项目主要由两部分组成:HDFS和mapreduce,它们分别是GoogleFileSystem和GoogleMapReduce的开源实现。Hadoop分布式框架主要是以廉价的商业机器为计算节点构成云平台,达到高效处理海量数据的目的。将数据挖掘和Hadoop框架有机结合,利用Hadoop优秀的海量数据处理能力进行挖掘,将会给数据挖掘带来新的活力。本文主要针对数据挖掘中频繁项集挖掘和Hadoop框架相
3、结合,做了以下工作:(1)对Hadoop平台进行深入的研究和分析。Hadoop平台的最核心的两个部分是:用于海量数据存储的HDFS分布式文件系统和用于数据处理的Mapreduce并行编程框架。两者相辅相成,构成了Hadoop分布式框架。(2)为了进一步提高频繁项集挖掘效率,提出了一种基于Hadoop平台的并行抽样算法。这种算法利用mapreduce编程框架,单次扫描海量数据即可实现随机抽样。在抽样的过程中,还可以完成对数据的清理工作。(3)对传统频繁项集挖掘算法进行深入的研究后,提出了一种基于抽样的频繁项集并行发现算法。该算法基于Hadoop平台,充分发挥其处理海量数据的优势,实验证明该
4、算法具有良好的挖掘性能。关键词:数据挖掘;频繁项集;Hadoop;MapreduceTheResearchofCloudFrequentItemsetsMiningAlgorithmWhichBasedonSampleAbstractWiththedevelopmentofdatacollectiontechnology,theeraofmassivedataiscoming.Businesscompetitionisfierceintoday'ssociety,peopleareeageringtoextractusefulinformationsfrommassivedatawhic
5、hhelpthemtomakecorrectbusinessdecisions.However,thetraditionaldataanalysisanddataminingtechniquesaredifficulttomeetthedemandofpeopleindealingwithmassivedata,becauseoftheexcessivehighcostoftimesandspaces.Forexample,thetraditionalfrequentitemsetsminingneedstoscandatasetssomanytimesthatcostalotoftim
6、es.Anditalsoneedstostorealargenumberofcandidateitemsets,whichconsumeslargeamountofmemories.Atthesametime,cloudcomputingwithhighconcurrencyandlowcostofmassdataprocessing,isdevelopingwithhighspeed.Inrecentyears,Hadoopecosystem’sdevelopmentisthemostrepresentative.Hadoopismainlycomposedoftwoparts:HDF
7、SandMapreduce.Itusescheapcommercialmachinesascomputenodestoconstituteacloudplatformwhichcanefficientprocessingmassivedata.Combinedataminingwithcloudcomputing,thismeansusingtheadvandageofcloudcomputingsuchasefficientpro
此文档下载收益归作者所有