欢迎来到天天文库
浏览记录
ID:35058689
大小:6.73 MB
页数:61页
时间:2019-03-17
《基于spark 云计算平台的改进k近邻算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、■-)??广东工业大学硕女学位论文(工程硕±)*?.,...、..-',.??.、V:■'./基于Spark云计算平台的改进K近邻算法硏究'->T:.陈晓康—?哨}?巧.々’V,碱...―'‘一';一'-I‘'h‘.Ay.I.-'-■*--■:-.(■/..'一y*’’.,V‘;■.、'-、■I,,'■.I人'V、—..二o六年五月、.,分类号:学校代号:"
2、845UDC;密级;学号:2。1305093广东工业大学硕击学位论文(工程硕±)基于Spark云计算平台的改进K近邻算法研究陈晓康校内导师姓名、职称:刘竹松副教授校外导师姓名、职称:邓家震工程师学科(专业:计算机技术)或领域名称学生所属学院:计算机学院—论文答辩日期:二〇六年五月HADissertationSubmitedtoGuangdongUniversitofyTech打ologyfor也eDegreeofMas化r(MasterofEngineering)Re
3、searchonimprovedKnearestneighboralgorithmbasedonSparkcloudcomputingplatformCandidate:ChenXiaokangSuervisor;Prof.LiuZhusongp?iMay2016SchoolofComputerScience&TechnologyGuangdongUniversityofTechnologyGuanzhouGuandon..RChina510006g,gg,P,摘要
4、摘要随着现今时代信息的飞速发展,互联网已经步入大数据时代,。在面对海量的数据用户如何快速找到满足自己需求的信息成为学术界急需研究的热点难题。互联网海量数据导致数据挖掘技术要求变得越来越迫切。通过数据挖掘方法,系统可W实现从海量数据高效挖掘出精准数据。数据挖掘中的分类算法是预测数据趋势、推荐迎合用户意愿数据的有效手段。K近邻分类算法又是查询大规模空间数据的常用数据挖掘分类一一算法之。算法在云计算平台运行,可进步提高数据挖掘算法的运算速率。Spark一云计算平台是基于Hadoop云平台的进步优化,不同于Hadoop的完全依赖HDFS文
5、一件系统,Sark实现了在内存中处理数据集,进步提高了云平台的数据处理速度p。针对用户快速获取信息的需求,本文在坤ark云计算平台上,使用并行化的改进K一近邻分类算法实现为用户快速提供推荐数据的目标。本文提出两个优化点:第,本文对K近邻分类算法索引创建技术进行改进,提高算法查找最近邻数据点的效率。传统的K近邻分类算法主要制约因素是查找最近邻数据点效率低,KdTree是应用于K近邻分类算法索引创建的查找效率较高的数据结构。影响KdTree的运行效率主要在于算法运行过程最近邻节点查找中对非叶子节点的回溯。本文通过优化KdTree中待
6、分类数据点范围与分割平面线的相交概率,减少K近邻分类算法在查找最近邻数据点时回溯节点的数目,实现提高K近邻分类算法的分类效率。第二,本文优化算法运行的环境,实现了提高算法分类效率的效果。本文对改进的K近邻分类算法实行并行化,使算法能很好的适应云计算平台的数据处理模型。本文使用Spark云计算平台环境实现并行化的改进K近邻分类算法,在保证算法准确度的前提下,提升了算法的分类速度。在实验数据选取上,本文选用了UCI机器学习数据集。实验对比单机情况下传统K近邻分类算法和改进K近邻分类算法的效率和准确率、Spark云平台上改进K近邻分类
7、算法和单机上改进K近邻分类算法的算法处理效率,得到在Spark云平台运行的改进K近邻分类算法,在保证算法分类准确率的前提,较大的提高了算法效率的结论。关键词:却ark;云平台;分类;数据挖掘;K近邻IAbstractAbstractWiththeraiddevelomentofthemodemeraoftheIiUeraeteolehaveraduallpp,ppgyenteredtheeraofbigdata.Inthefaceofanarrayofdata,theuserhow
8、touicklfind
此文档下载收益归作者所有