欢迎来到天天文库
浏览记录
ID:35174092
大小:2.14 MB
页数:56页
时间:2019-03-20
《基于spark的分类回归树算法并行性研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Spark的分类回归树算法并行性研究重庆大学硕士学位论文(学术学位)学生姓名:王晓楠王晓楠指导教师:尹云飞副教授专业:计算机软件与理论学科门类:工学重庆大学计算机学院二O一六年四月TheResearchOnClassificationAndRegressionTree’sParallelizationBasedOnSparkPlatformAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’s
2、DegreeofEngineeringByWangXiaonanSupervisedbyProf.YinYunfeirSpecialty:ComputerSoftwareandTheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2016重庆大学硕士学位论文中文摘要摘要随着计算机技术与信息化技术的发展,信息化与现代化在社会各行各业都得到了极大的普及与覆盖,而这些信息化的普及给各行各业带了一个最大的问题就是数据呈指数级增长。为
3、了充分利用这些数据,数据挖掘技术随之迅速发展。分类技术是数据挖掘的一种重要手段,也得到了广泛的发展。决策树分类技术是分类技术的一个重要的分支,本文主要对决策树分类技术进行了深入的研究,详细介绍了决策树分类技术的一些关键概念、决策树的处理过程、决策树技术主要的研究内容等。决策树主要的研究内容包括:数据预处理技术、分割属性的选取策略、决策树的剪枝、决策树的并行化和增量式决策树。其中,属性的选取标准是决策树最关键的研究内容,不同的决策树之间最大的区别就是属性选取标准的区别。本文还详细的介绍了CART这一决策树算法,包括其
4、属性选取的标准、两种不同类型的属性(离散型属性和连续型属性)的不同处理方式以及其剪枝算法等,然后以示例的方式详细地描述了CART算法的“建树”和“剪枝”两个重要的处理流程。本文还对Spark分布式处理框架进行了研究,详细的介绍了Spark分布式处理框架的特点以及其与Hadoop分布式处理框架的不同之处。本文还列举了Spark在国内外大公司的成功使用案例。本文还分析了CART决策树算法的不足之处,并以此提出了自己的改进,包括对CART算法的并行化改进以及减少不必要计算量的改进;同时,我们还结合Spark这一种新兴的分
5、布式处理框架来对我们CART算法进行了另一种的并行化改进。最后,本文还介绍了我们搭建的Spark集群环境,并且也描述了我们的实验过程与实验步骤,然后我们再通过实验来验证我们对CART算法改进的有效性,实验证明我们的改进能够有效的提高CART算法的计算效率。关键词:数据挖掘,决策树,CART,Spark,并行化I重庆大学硕士学位论文英文摘要ABSTRACTWiththedevelopmentofcomputertechnologyandinformationtechnology,ourdataincreasesexp
6、onentially.Totakeadvantageofthesedata,dataminingtechnologyhasdevelopedrapidly.Asanimportantmeansofdatamining,classificationtechnologyhasalsobeendevelopedwidely.Decisiontreeclassificationtechnologyisanimportantbranchoftheclassificationtechnology.Thispapermainly
7、researchesonthesubjectofdecisiontreeclassificationtechnologyin-depth,detailssomeofthekeyconceptsofdecisiontreeclassificationtechnology,liketheprocessofdecisiontreeandthemajorresearchcontentofdecisiontree.Themajorresearchcontentofdecisiontreeincludes:dataprepro
8、cessing,attributeselectionstrategy,decisiontreepruning,decisiontreeparallelizationandincrementaldecisiontree.Andtheattributeselectionstrategyisthemostimportantresearchcontent.Thebi
此文档下载收益归作者所有