欢迎来到天天文库
浏览记录
ID:33390426
大小:1.13 MB
页数:74页
时间:2019-02-25
《云计算环境下的关联数据挖掘算法实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERDISSERTATION论文题目:云计算环境下的关联数据挖掘算法实现学科专业:机械制造及其自动化指导教师:杨波作者姓名:赵虎班级学号:200820801015万方数据分类号密级注1UDC学位论文云计算环境下的关联数据挖掘算法实现(题名和副题名)赵虎(作者姓名)指导教师杨波电子科技大学成都(职务、职称、学位、单位名称及地址)申请学位级别硕士专业名称机械制造及其自动化论文提交日期2011年4月论文答
2、辩日期2011年5月学位授予单位和日期电子科技大学答辩委员会主席评阅人2010年月日注1:注明《国际十进分类法UDC》的类号万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关
3、保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据万方数据摘要摘要随着制造业技术不断进步,硬件制造成本越来越低,基于多核cpu、海量数据硬盘的计算机器越来越多,现有的编程模式使得人们无法有效的使用日渐增多的运算资源,因此云计算孕育而生。云计算将如此巨大的剩余计算存储资源整合为一
4、个资源池,通过网络的方式把计算能力发布到各个角落,使得人们可以像使用水电一样,使用计算存储资源。数据挖掘由于所需要用到的运算存储量均是巨大的,所以将云计算与数据挖掘相结合可以有效的控制计算成本,提升数据挖掘的效率,突破传统数据挖掘的瓶颈限制。Hadoop框架作为目前业界最为有名的开源分布式计算框架,通过采用MapReduce并行化模型,有效的整合现有运算存储能力,提供强大的分布式计算能力。本文在研究经典关联数据挖掘算法Apriori和Hadoop框架的基础上,完成以下工作:1.将Apriori算法转化为MapReduce模型,
5、实现Apriori并行化改造,然后采用压缩原始事务集的方式,提高Apriori算法在Hadoop框架下的表现,最终实现具有高扩展性适合于云计算环境的MapReduce-Apriori算法。2.以通话记录数据集为例,提出了基于整体通话记录数据和个人通话数据的关联数据挖掘,将MapReduce-Apriori算法运用在挖掘中,从数据中挖掘出具有实际意义的关联规则。3.在通话数据清洗阶段,提出了使用Hive+Hadoop的方式进行清洗,实现了具有高扩展能力的数据清洗工具。4.设计及实现了提供分布式计算服务的测试私有云。关键词:云计算
6、,MapReduce,Apriori,HadoopI万方数据ABSTRACTABSTRACTWithadvancesinmanufacturingtechnology,hardwaremanufacturingcostslowerandlower,basedonmulti-corecpu,hugesizeharddiskcomputerdeviceshadbecomemoreandmorepopular.Buttheexistingprogrammingmodelmakesitimpossibletoeffectivelyus
7、eexistingcomputingresources,sothecloudcomputingbornoutof.Cloudcomputingintegratesuchahugesurpluscomputingandstorageresourcesintooneresourcepool,andpublishittoallcornersoftheworldthroughthenetwork,inordertomakingitthesameasusingwatertousethecomputingandstorageresourc
8、es.Dataminingneedtousehugecomputingandstorageresource,sointegratecloudcomputinganddataminingcaneffectivelycontrolcomputingcostandenhanceth
此文档下载收益归作者所有